生辰 廿一
ladefense
21岁的比尔盖茨从哈佛正式退学,注册了一个商标,叫”Microsoft”;21岁的迈克尔乔丹刚进入NBA大放异彩,获得最佳新秀;21岁的霍去病几讨匈奴,官封大将军;21岁的拿破仑刚刚逃到法兰西,正准备大展手脚;21岁的凯鲁亚特厌倦了他仅仅持续8天的海军生涯,转而开始决定出版自己的第一部小说,去了英国;21岁的鲁迅东渡日本,还沉浸在学医救国的幻想;21岁的鲍勃迪伦已经写出了Blowin’ In The Wind;21岁的他们或初露头角,或叱咤四方,或苦吟低徊,或踌躇满志。终于我活着的日子也凑够了7671天,我的21岁,很惭愧,还没有什么值得骄傲的事儿,有时我想想这个年龄真是个奇妙的阶段,你的人生还有大片空白同时你也能感觉到各个方向的可能性越来越窄,迫使你不得不做些什么。
感谢各位厚爱,我的前20年茁壮成长,感恩遇到的所有人和事,今后的180年,还以幼年拙诗共勉:
寻仙不辞名山远,问道何惜少白头。
Coursera Machine Learning Week9 异常检测 推荐系统
Coursera Machine Learning Lunar’s note
异常检测 Anomaly detection高斯分布 Gaussian Distrubution又叫正太正态分布Normal Distrubution。对于$x\in \Re$,如果期望为$\mu$,方差为$\sigma^2$,那么我们就可以称,$x\sim \aleph(\mu,\sigma^2)$(读作x服从mu和sigma的高斯分布)。维基百科该分布的概率分布曲线像是山丘,以$x=\mu$对称,山丘的陡峭程度和相关,$\sigma$越小,曲线越陡峭。
参数估计对于给定的数据集,如果认为该数据分布符合正态分布,那么可以对他们进行参数估计,即利用数据集的分布情况来估算正态分布的参数($\mu和\sigma$)。$\mu = \frac{1}{m}\Sigma^m_{i=1}x^i$$\sigma^2 = \frac{1}{m}\Sigma^m_{i=1}(x^i-\mu)^2$ps.概率论课上这两个公式的分母都是$m-1$但是在机器学习领域更通用m,虽然在数学理论上二者不同,但是实际应用中差别很小。 ...
Coursera Machine Learning Week7 SVM
支持向量机SVM(Support Vector Machine)
从逻辑回归到SVM在Logistics regression中,我们约定的cost function是:$J(\theta)=\frac{1}{m}\sum^m_{i=1}(-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$这里$h(x)$就是logistics函数,我们用两个近似函数$cost_1$和$cost_0$来替代他们,那么在SVM中SVM hypothesis :
minC\sum^m\_{i=1} \{ y^icost\_1(\theta^Tx^i)+(1-y)cost\_0(\theta^Tx^i) \}+\frac{1}{2}\sum^n\_{i=1}\theta^2\_j如果相对于样本个数来说,样本的特征个数较大也就是n较大时,使用逻辑回归。如果n小,m中等,SVM(高斯).如果n小,m大,逻辑回归。
QQ图片20160313101139.png-76.5kB
大间距分类器 Large Margin Intuition决策边界 Decision Boundary ...
MathJax公式语法
Cmd markdown 中的公式标准类似Tex。在刚开始用它写公式的时候常常有不明白的地方,此post用以备忘。刚刚入门的同学建议把基础部分看一遍,记住常用的代码,遇到不会的地方再来本文Ctrl+F查找。
保留字符# $ % ^ & _ { } ~ \
这些字符是无法通过直接输入得到的,有些需要在前面加上转义字符”\”如下:
$ # $ $ $ $ $ \% \& _ { } $
对于转义字符”\”本身,并不能通过在前面加”\”得到,相反,”\“表示断行。我们可以用\backslash 输出”\”。
$something \ \backslash$
在LaTex中可以用“~”或者“~{}”来输出~,但是实测发现Cmd markdownC中这些方法均无效,但是可以通过”\sim”来输出$\sim$。
空格
空格类型
代码
宽度
示例
两个quad空格
a \qquad b
两个m的宽度
$a \qquad b$
quad空格
a \quad b
一个m的宽度
$a \quad b$
大空格
a\ b
1/3m ...
伤心者
对有一些东西是不应该过多地讲求回报的,你不应该要求它们长出漂亮的叶子和花来,因为它们是根。…“也许我们应该永远记住这样一些人。”…古希腊几何学家阿波洛尼乌斯总结了圆锥曲线理论,一千八百年后由德国天文学家开普勒将其应用于行星轨道理论。数学家伽罗华公元1831年创立群论,一百余年后获得物理应用。公元1860年创立的矩阵理论在六十年后应用量子力学。数学J。H莱姆伯脱,高斯,黎曼,罗马切夫斯基等人提出并发展了非欧几何。高斯一生都在探索非欧几何的实际应用,但他抱憾而终。非欧几何诞生一百七十年后,这种在当时毫无用处的理论以及由之发展而来的张量分析理论成为爱因斯坦广义相对论的核心基础——何夕《伤心者》
最近读了何夕的伤心者,颇有感触。
我觉着,也许真正的数学就是纯粹美丽而无用的,它们永远都不会像AlphaGo这样吸引世界目光,纯粹的数学永远深埋在土地里,只有得到应用时才偶尔抬起头,但是数学家并不该因此被忽视,基础学科的研究也不该。 想到近几年比较火的一个词儿情怀,私以为罗大锤称不上情怀,虽然他做的事儿:牛博网,老罗英语,锤子手机等都算得上成功,但是仔细看,基本上是热钱在哪儿他在哪儿 ...
Coursera Machine Learning Week6 神经网络1
Coursera Machine Learning Lunar’s note
评估学习算法评估假设函数Evaluating a Hypothesis
将数据集分为训练集$m_{train}$和测试集$m_{test}$(如7:3),针对训练集算出参数。然后根据所得参数计算training error 和 test error。若training error很小而test error很大那么说明过拟合(overfitting)了。
模型选择 model selection
多项式次数-d将数据集分为训练集,交叉验证集(Cross Vadidation Set)和测试集(典型划分 3:1:1)。对于不同的d,使用训练集拟合参数d,在CV集中测试其表现,选择有最小交叉测试误差的参数d。这样就可以避免过度拟合训练集。偏差和方差 Bias vs. Variance
Bias - underfit $J{train}$和$J{cv}$都过大。
Variance - overfit$J{train}$较小,$J{cv}$较大。
正则化(Regularization)和偏差/方差过大的$\lam ...
Coursera Machine Learning Week5 神经网络2
神经网络代价函数 cost function
二元分类$J(\theta)=-\frac{1}{m}[\sum^m_{i=1}\sum^K_{k=1}y^{(i)}_klog(h_\Theta(x^i))+(1-y^{(i)}_k)log(1-(h_\theta(x^{(i)})))]+\frac{\lambda}{2m}\sum^{L-1}_{l=1}\sum^{s_l}_{j=1}\sum^{s_l+1}_{i=1}(\Theta^{l}_{ji})^2_j$
反向传播算法 Backpropagation我们利用反向传播算法来计算代价函数的偏导数$\frac{\partial }{\partial \Theta^{l}_{ji}}J(\Theta)$对于第l层的第j个节点,我们可以用如下方以计算出它的偏差(error)
对于输出层 $\delta^{(l)}=a^{(l)}_j-y_j$
对于隐藏层 $\delta^{(l)}=(\Theta^{(l)})^T\delta^{(l+1)}.g’(z^{(l)})$.表示矩阵点乘,g’表示g的导数
对于输入层,因为输入不存在误差, ...
Coursera Machine Learning Week3 逻辑回归 过拟合
Coursera Machine Learning Lunar’s note
分类问题 ClassficationLinear regression 不适用分类问题Logistic Regression
Model:Logistic function(Sigmoid function)$h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$
Hypothesis Representation$h_\theta(x)=P(Y=1|x;\theta)$
Decision boundary决策边界$\theta^Tx$ 就是决策边界,在边界的不同side做不同决策,比如说$\theta_0+\theta_1x_1+\theta_2x_2$在图像中就是一条直线,直线上方和下方是不同class非线性决策边界 一次多项式不适用时可以使用高阶多项式
代价函数cost function 线性回归中的代价函数用在这里会变成非凸函数(non-convex)所以要使用不同的代价函数(极大似然估计 maximum likelihood estimation)$Cos ...
Coursera Machine Learning Week4 神经网络1
Coursera Machine Learning Lunar’s note
神经网络 Neural Network非线性假设 Non-linear Hypotheses
线性分类器不适合解决特征值过多,特征维数过大的问题,特别是图像处理
神经网络旨在模仿人类大脑
模型表示
人类的神经由树突(输入神经Dendrite),轴突(输出神经Axon)和神经元(Nucleus)组成。
神经网络模型:每个神经元都是一个逻辑单元,由一个或几个输入,输出相应输出。每个神经元的输出都可以作为其他神经元的输入。一个神经元的功能是求得输入向量与权向量的内积后,经一个非线性传递函数得到一个标量结果。神经网络分为三层
Layer1:输入层
Layer2:隐藏层 可能不只一层
Layer3:输出层
数学表示 :W为权向量, 也写作$\Theta^{(j)}$,表示layer j到j+1的权重矩阵。A为输入向量,A’表示转置。其中$a^{(j)}_i$表示layer j中第i个单元。b是偏置量(bias)。f为传递方程。
理解:通过和逻辑回归对比,可以发现模型的形式其实是类似的,但是不同于逻辑模 ...
巴黎迪士尼乐园行程(计划与回顾)
Map
Disney Studio 先进小园
先去领跳楼机The twilight zone tower of terror的FP
乌龟壳过山车排队 Crush’s Coaster
领室内摇滚过山车FP Rock&Roller Coaster Starring Aerosmith
玩跳楼机
拿魔毯 Les Tapis Volants Flying Carpets的FP
室内摇滚过山车
看点电影什么的休息下
魔毯
RC Racer 有时间玩
Disneyland Park 再来大园
先拿Big Thunder Mountain的FP
小小世界 It is a small world
飞越太空山 Space Mountain: Mission 2 玩一把
玩Big Thunder Mountain
拿巴斯光年的FP Buzz Lightyear Laster Blast
排Autopia的队
玩巴斯光年
去Mad Hatter’s Tea Cups 玩
Tips
不要买太多纪念品快餐人均十几欧,视情况订园区内的官方 ...