Machine Learning 笔记 (一)

对一些基本概念的理解（个人）

区分回归和分类

回归就是对某一特性的随机判断，而分类就是 0 和 1
区分监督学习和无监督学习

监督学习就是在一个已经打好标签的数据集上进行测试
而无监督学习，也分为聚类算法和鸡尾酒宴会算法，是对没有标签的数据集上进行一些预判测试，如对环境音乐和人声叠加音的分割等等
机器学习中的 E T P

E即：经验，基于过去的经验或数据集
T即：任务，你拿这些数据是来干什么的
P即：预测结果

ps. 测试题做了三次才得过

Parameters and Cost Function

损失函数

[J(θ_0, θ_1) = frac{1}{2m}(h_θ(x^{(i)}) - y^{(i)})^2 ]

其中

h(θ) 为预测函数，y 即真实值
m 即样例数

梯度下降（Gradient descent）

直白点说，就是寻找损失函数的最小值的过程，不断的减小偏导数的斜率，期间有超参数 α

[θ_0 = θ_0 - α * frac{sigma J(θ_0, θ_1)}{sigmaθ_0} $$]

θ_1 = θ_1 - α * frac{sigma J(θ_0, θ_1)}{sigmaθ_1}

[ 然后上面两个公式，嵌套一层循环，直至 $frac{sigma J(θ_0, θ_1)}{sigmaθ_1}= 0$ ，即得到了局部最优解，或全局最优解 repeat until convergence{ $θ_0 := θ_0 - α * frac{1}{m}(h_{θ}(x^{(i)}) - y^{(i)})$ $θ_1:=θ_1-α*frac{1}{m}(h_θ(x^{(i)}) - y{(i)})* x^{(i)}$ } > update 不断 ##### "Batch" Gradient Descent "Batch": Each step of gradient descent uses all the training examples $sum_{i=1}^m(h_{θ}(x^{(i)}) - y^{(i)})$ #### #### Linear Algebra Review > 一些规则 1. 一般大写字母代表矩阵，一些小写字母表示向量 2. 向量采用 1-indexed 开头]