Machine Learning(Andrew Ng)学习笔记

1.监督学习(supervised learning)&非监督学习(unsupervised learning)

监督学习:处理具有若干属性且返回值不同的对象。分为回归型和分类型:回归型的返回值是连续的,分类型的返回值是离散的。

非监督学习:将具有若干属性的相同对象分为不同的群体。

2.线性回归模型(监督学习)

2.1 一些符号

m——训练样本数目

x——输入变量

y——输出变量

(x,y)——一个训练样本

(x(i),y(i))——第i个训练样本

 h——假设(hypothesis)——预测函数

n——训练样本特征数目

$x_{i}$——训练样本的第i个特征对应的向量

$x^{(i)}$——第i个训练样本所有特征对应的向量

$x_{j}^{(i)}$——第i个训练样本的第j个特征

2.2 cost function

$Jleft ( heta _{0}, heta _{1} ight )= frac{1}{2m}sum_{i=1}^{m}left ( h_{ heta }left ( x^{(i)} ight )-y^{(i)} ight )^{2}$

$h_{ heta }(x)= heta _{0}+ heta _{1}x$

2.3 梯度下降算法(gradient descent)

2.3.1 单特征:

$ heta _{i}:= heta _{i}-alpha frac{partial }{partial heta _{i}}Jleft ( heta _{0}, heta _{1} ight  ) (simultaneously for i=0 and i=1)$

$Jleft ( heta _{0}, heta _{1} ight )= frac{1}{2m}sum_{i=1}^{m}left ( h_{ heta }left ( x^{(i)} ight )-y^{(i)} ight )^{2}$

$h_{ heta }(x)= heta _{0}+ heta _{1}x$

$ heta _{0}:= heta _{0}-alpha frac{1}{m}sum_{i=1}^{m}left (h_{ heta }(x^{(i)})-y^{(i)} ight )$

$ heta _{1}:= heta _{1}-alpha frac{1}{m}sum_{i=1}^{m}left (h_{ heta }(x^{(i)})-y^{(i)} ight )cdot x^{(i)}$

2.3.2 多特征:

$ heta _{i}:= heta _{i}-alpha frac{partial }{partial heta _{i}}Jleft ( heta ight  ) (simultaneously for i=0 to n)$

$ heta = egin{pmatrix} heta _{0}
\ heta _{1}
\ heta _{2}
\...
\ heta _{n}
end{pmatrix}$

$x^{(i)} = egin{pmatrix}x_{0}^{(i)}
\x_{1}^{(i)}
\x_{2}^{(i)}
\...
\x_{n}^{(i)}
end{pmatrix}(x_{0}^{(i)}=1)$

$Jleft ( heta ight )= frac{1}{2m}sum_{i=1}^{m}left ( h_{ heta }(x^{(i)})-y^{(i)} ight )^{2}$

$h_{ heta }(x^{(i)})= heta ^{T}x^{(i)}$

$ heta_{j}:= heta_{j}-alpha frac{1}{m}sum_{i=1}^{m}(h_{ heta}(x^{(i)})-y^{(i)})cdot x_{j}^{(i)}$

2.3.3

批处理梯度下降("Batch" Gradient Descent):梯度下降的每一步都要用到所有训练样本的数据

2.4 优化方法

2.4.1 特征缩放(feature scaling)

$x_{j}^{(i)}:=frac{x_{j}^{(i)}-mu_{j}}{S_{j}}$

$mu_{j}$为训练样本的第j个特征的平均值

$S_{j}$为训练样本的第j个特征的标准差(max-min)

 2.4.2

(1)工作正确性检验

随着迭代次数(iteration)的增加,代价函数$J( heta)$不可能增加

当$J( heta)$减少量小于$varepsilon $时,认为代价函数已收敛

(2)学习速率($alpha$)选取

$alpha$过小:收敛过慢

$alpha$过大:无法保证每次迭代$J( heta)$都不增加;无法保证收敛(solution:减小$alpha$)

3 多项式回归

3.1

直接把f(x)作为一个整体当成$x^{(i)}_{j}$,即可把非线性回归转化为线性回归

3.2 数学方法直接求出最优解

3.3

原文地址:https://www.cnblogs.com/w-h-h/p/11767434.html