机器学习-简单总结

现在回去看看发现课程内容除去大量公式推导,基本上没有啥东西

概述

分类:有监督、无监督、半监督及强化学习

监督学习:数据有输入和标记。回归问题、分类问题、序列标注问题。

生成式模型:根据概率预测

判别式模型:直接学习决策函数

极大似然估计(MLE):直接训练集的各种样本的概率乘起来,最大化

最大后验估计(MAP):在MLE的基础上乘一个先验概率

无监督学习代表:聚类

决策树

输入变量到真值有一个真值表,将其变为树的形式,根到叶子的路径表示真值表的一行

优化目标:减小树的规模,增加泛化程度

最优类别划分:根据熵(信息增益)来选择最优属性。

剪枝:预剪枝(划了不如不划),后剪枝(不如换成叶节点)

连续值的处理:二分

缺失值的处理:类别划分时,对公式作推广

线性回归

给定数据集,求一个模型可以预测结果

线性回归: (f(x_i)=w^Tx_i+b) ,对均方误差函数求最小值

正则化:优化结构,即对系数的绝对值加权 (lambda)

概率论

切比雪夫不等式:假设随机变量 X 有期望 (E(X)=mu) , 方差 (Var(X)=sigma^2) ,则对任意整数 (epsilon) ,有 (P(|X-mu|geepsilon) le frac{sigma^2}{epsilon^2})

大数定理:n个独立同分布随机变量,则它们的均值依概率收敛于 (mu)

中心极限定理:大量独立同分布变量之和依分布收敛于正态分布。

MLE与MAP:

MLE认为参数是未知的常数,需要用数据去估计

MAP认为参数是随机变量,有它自己的概率分布

MLE对小数据容易过拟合;MAP对不同的先验的结果不同。

贝叶斯决策论

贝叶斯决策论:如何基于概率和误判损失来最优化类别标记,即使风险函数最小。

决策面:二分类问题中,被分类到两类概率相同的样本取值构成的面。

贝叶斯误差:被分类错误的概率,P(mistake)=P(X in L1, Y=0) + P(X in L0, Y=1)

贝叶斯分类器的三种分类方法:

  1. 确定条件概率密度、推断先验概率,使用贝叶斯定理求后验概率(生成式模型)
  2. 直接解决后验概率问题,使用决策论分类(判别式模型)
  3. 找到一个函数,直接将输入映射到标签。与概率无关。

KNN(K邻近)分类器

根据与原本最近的 k 个样本的投票决定标签。

K值选择、距离度量、决策规则

朴素贝叶斯

生成式模型

认为各变量条件独立,那么可以将变量之间分开,然后用贝叶斯公式

[Y_{new}=argmax_{y_k} P(Y=Y_k)prod_{i=1}^nP(X_{new}|Y=Y_k) ]

逻辑回归

判别式模型。直接学习 (P(Y|X))

[P(Y=1|X)=frac{1}{1+exp(w_0+w^TX)} ]

可以拓展到多分类。所以目的是学习w

计算交叉熵 (l(w)=sum_lY^lln P(Y^l=1|X^l,W)+(1-Y^l)ln P(Y^l=0|X^l,W))

求极大值。

支持向量机(SVM)

找一个直线,将样本分成两半,且间隔最大

即对于所有类1的点,满足 (w^Tx+bge C) ,类 -1 的点满足 (w^Tx+ble-C)

最大化间隔,即 (2C/||w||) 。总之最终是

[max_{w,b}frac 1 {||w||_2} \ s.t. y_i(w^Tx_i+b)ge 1 ]

凸二次优化问题,用拉格朗日乘子法。

上述为硬间隔最大化,实际上有软间隔最大化,即对每个样本点加入一个松弛变量,松弛变量有代价。即

[min_{w,b}frac 1 2{||w||_2}^2+Csumxi_i\ s.t. y_i(w^Tx_i+b)ge 1-xi_i ]

聚类

k-means:

聚类。

初始化 k 个簇中心,每个样本找离其最近的簇归类,然后再调整中心的坐标,不断迭代。

实际上是在优化 (min_{mu,c}sum_isum_{C(j)=i}||mu_i-x_j||^2)

实际上也是 EM 的步骤:先固定 (mu) 优化 (C) ,再固定 (C) 优化 (mu)

GMM(混合高斯模型):

k-means中的 C 函数太硬,我们把它换成后验概率,即 x 属于各个类的概率,然后作MLE,总之最后有了迭代式子

EM的步骤:先计算后验概率,再根据后验概率迭代参数

PCA 主成分分析

主要目的是降维——把原样本空间中相关的维度剔除,留下的维度更能表示原数据。

具体步骤:

  1. 去中心化
  2. 计算协方差矩阵
  3. 对协方差矩阵进行特征值分解,找到最大的 k 个特征值对应的特征向量,标准化,组成特征向量矩阵W
  4. (z_i=W^Tx_i)

思想大概是找到在样本空间中单位偏移量影响最大的 k 个方向保留,其他方向抹除,即投影在 k 维超平面上。

被删除的特征往往与噪声有关,所以这也是某种意义上的降噪

原文地址:https://www.cnblogs.com/dqsssss/p/12424274.html