机器学习十讲（三）分门别类，各得其所--分类

机器学习十讲（三）分门别类，各得其所--分类

1.数学知识回顾：

点到平面的距离：

2.梯度下降法：

3.随机梯度下降

机器学习中，优化目标和梯度具有特定结构：

L (W) = \sum i = 1 n l (y i, f (x i; w))

更新参数只用一个样本的梯度，即随机梯度下降法

w (t + 1) \leftarrow w (t) - η t \nabla L i (w (t))

收敛充分条件
需要随着迭代次数的增加降低学习率

4.最大似然估计

"似然"：likelihood可能性
最大似然法，一种求解概率模型参数的方法
最早是遗传学家以及统计学家罗纳德·费雪在1912年至1922年间开始使用
假设有
似然函数
通过最大化

d

5.如何做分类

线性回归：
二分类中，

$H (f) = {+ 1, f > 0 - 1, f \leq 0$

6.感知机、支持向量机和逻辑回归

线性可分训练集
感知机：
- 找到一条直线，将两类数据分开即可
支持向量机：
- 找到一条直线，不仅将两类数据正确分类，还使得数据离直线尽量远
逻辑回归：
- 找到一条直线使得观察到的训练集的“可能性”最大

7.感知机

y = H (f (x)) = {+ 1, w T x > 0 - 1, w T x \leq 0

决策超平面为：
线性可分训练集

d i = | w T x i | | | w | | 2 = y i w T x

优化目标：误分类样本离超平面距离之和最小

8.感知机算法

输入：训练数据
初始化参数
- 找出误分类样本集合
- 从
- 更新参数
输出

9.支持向量机

线性可分训练集
间隔：训练集中离超平面最小距离
间隔最大化

max w min i y i w T x i | | w | | 2 \Leftrightarrow max w 1 |

不妨令

max w 1 | | w | | 2 \Leftrightarrow min w 1 2 | | w | | 2 2

非线性：核技巧，映射trick，将数据点从2维空间映射到3维空间，使得数据线性可分

10.逻辑回归

训练集
考虑到

p (y i | x i) = 1 1 + e - y i w T x i

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/zwx655/p/14465269.html