机器学习算法总结(二)

SVM上:这个算法应该是机器学习这门课里最重要的部分了。

          首先是SVM的思想:找到超平面,将两类中距离最近的点分的越开越好(直至二者相等)。

          然后是函数间隔和几何间隔的定义,二者之间的区别。

          接着是超平面模型的建立,看看它是如何将问题转化为凸优化问题的。

          SVM第一个难点:拉格朗日对偶。由KKT条件可知,起作用的约束都在边界上,这个会用来解释支持向量。

          由KKT条件知,在SVM模型中,只有函数间隔为1的点才是支持向量。

          通过对偶解出w,b。对于新出现的样本,只需要和支持向量作内积就可以将其分类。

SVM下:有时候低维不能将样分很好的分类,可以用高维解决,为此引入了核函数,将低维映射到高维。

           用线性分类方法求解非线性问题分两步,首先使用一个变换将原空间的数据映射到新的空间,然后在新空间里用线线分类学习方法

     从训练数据中学习分类模型。

         如果一个核函数是半正定的,则它是有效的。

         为了解决离群点问题,引入了罚项。新的模型不仅要使间隔尽量小,还要使误分类点的个数尽量少。

EM:       第一个难点就是Jensen不等式,不等式取等号的条件。EM算法实际上就两个过程:确定下界,优化下界。E步是估计隐含类别Y的期望值,M步调整其他参数

       使得在给定类别Y的情况下,极大似然估计P(x,y)能够达到极大值。然后在其他参数确定的条件下,重新估计Y,周而复始,直至收敛。

K-means:用于事先不知道类别。思想很简单:在样本中选取K个质心,分别求样本到各个质心的距离从而确定样本的类别。在新的类别中重新求质心,再对每个样本

          重新分类,一直迭代直至收敛。

EM 与 K-means:   k-means中在确定k个质心的过程就相当于E步,质心确定后,重新计算距离就相当于M步,通过调整使距离最小,也就是p(x,y)最大

原文地址:https://www.cnblogs.com/573177885qq/p/4480960.html