机器学习算法一

我们将根据机器学习的算法进行分类.、

监督学习算法:

给机器的训练数据拥有标记或者答案.

k临近,线性回归和多项式回归,逻辑回归,SVM,决策树和随机森林.

非监督学习算法:

给机器的的训练数据是没有任何"标记"或者答案.

非监督学习可以完成分类任务.

非监督学习可以对数据进行降维处理和异常检测.

降维处理包含两部分内容,特征提取和特征压缩.

特征提取:当我面对一个数据时,这个数据有很多特征,有时候根据经验或深入分析,认为某一些特征对我们预测或者计算的结果是没有贡献的,比如银行需要用收集的个人信息对个人信用进行评级,而个人的胖瘦与信用评级是没有关系的,这叫做特征提取.

特征压缩:PCA,我们并不扔掉任何特征，一个二维的特征平面,这个二维的特征平面上分布很多的数据点,但这些点是呈直线的形式,如果我们画一根直线的话,把所有的点都映射在倾斜的直线上,那么这些点的直线信息并没有丢失多少,但是经过这样的处理后,二维的点就变成了一维的点.

降维处理的意义:方便可视化.对于人类来说是无法理解四维以上的信息的,有的时候我们可以把很高维的数据降到三维甚至二维,降到这么低的维度可能已经丢失了很多信息,我们降到这么低的维度主要是为了对信息进行可视化.

异常检测:有时候在我们的数据中存在一些点,这些点是存在异常的,这种点对于让我们的算法发现一般性规律是没有帮助的,对于二维的我们可以肉眼看到,对于高维的我们就需要用非监督学习算法剔除这些点.

半监督学习：

一部分数据有"标记"或者"答案",另一部分数据没有.因为在实际生活种会因各种原因产生数据的缺失.

通常是使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测.

监督学习与半监督学习是基础.