机器学习十讲学习笔记第三讲

机器学习十讲学习笔记第三讲

点到平面的距离

直线方程：
点到直线距离
欧式空间超平面：
点到超平面距离：

$d = | w 1 x ' 1 + w 2 x ' 2 + w d x ' d + w 0$

梯度下降

求解无约束最优化问题的经典方法，机器学习和深度学习中应用最广泛的模型求解算法
如果实值函数
优化问题：
$min w g (w)$
假设初始值为

$w (t + 1) \leftarrow w (t) - η t \nabla g (w (t))$
其中

随机梯度下降

机器学习中，优化目标和梯度具有特定结构：

L (W) = \sum i = 1 n l (y i, f (x i; w))

更新参数只用一个样本的梯度，即随机梯度下降法

w (t + 1) \leftarrow w (t) - η t \nabla L i (w (t))

收敛充分条件
需要随着迭代次数的增加降低学习率

最大似然估计

"似然"：likelihood可能性
最大似然法，一种求解概率模型参数的方法
最早是遗传学家以及统计学家罗纳德·费雪在1912年至1922年间开始使用
假设有
似然函数
通过最大化

d

如何做分类

线性回归：
二分类中，

$H (f) = {+ 1, f > 0 - 1, f \leq 0$

感知机、支持向量机和逻辑回归

线性可分训练集
感知机：
- 找到一条直线，将两类数据分开即可
支持向量机：
- 找到一条直线，不仅将两类数据正确分类，还使得数据离直线尽量远
逻辑回归：
- 找到一条直线使得观察到的训练集的“可能性”最大

感知机

y = H (f (x)) = {+ 1, w T x > 0 - 1, w T x \leq 0

决策超平面为：
线性可分训练集

d i = | w T x i | | | w | | 2 = y i w T x

优化目标：误分类样本离超平面距离之和最小

感知机算法

输入：训练数据
初始化参数
- 找出误分类样本集合
- 从
- 更新参数
输出

支持向量机

线性可分训练集
间隔：训练集中离超平面最小距离
间隔最大化

max w min i y i w T x i | | w | | 2 \Leftrightarrow max w 1 |

不妨令

max w 1 | | w | | 2 \Leftrightarrow min w 1 2 | | w | | 2 2

非线性：核技巧，映射trick，将数据点从2维空间映射到3维空间，使得数据线性可分

逻辑回归

训练集
考虑到

p (y i | x i) = 1 1 + e - y i w T x i

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/52bb/p/14490086.html