机器学习一--基本概念

一、机器学习（Machine Learning）

　　多领域交叉学科，涉及概率论，统计学，逼近论，凸分析算法复杂度理论等多门学科，专门研究机器怎么模拟或实现人类的学习行为，以获得新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

　　学习：针对经验E（Experience）和一系列的任务T（tasks）和一定表现的衡量P，随着经验E的积累，针对定义好的任务T,可以提高表现P，就说计算机具有学习能力。

二、深度学习（Deep Learning）

　　基于机器学习延伸出来的一个新的领域，由以人的大脑结构为启发的神经网络算法为起源，加之模型结构深度的增加发展，伴随大数据和计算能力的提高而产生的一系列新的算法。

训练集（training set）：用来进行训练，产生模型或者算法的数据集。

测试集（testing set）：用来专门测试已经学习好的模型或者算法的数据集。

特征向量（features）：实例的属性（特征）的集合通常用一个向量表示，成为特征向量。

标记（label）：实例类别的标记。

正例：positive example

反例：negative example

分类（classification）:目标标记（label）为类别型数据。（离散）

　　1、决策树Decision Tree（ID3决策树归纳算法）

　　2、临近取样Nearest Neighbor（KNN）

　　3、支持向量机Support Vector Machine（SVM）

　　4、神经网络算法Neural Network

回归（regression）：目标标记为连续型数值。（连续）

机器学习分类：

　　1、有监督学习（supervised learning）：训练集有类别标记。（分类，回归）

　　2、无监督学习（unsupervised learning）：训练集无类别标记。（聚类，关联规则）

　　3、半监督学习。

机器学习步骤：

　　1、把数据拆分成训练集和测试集。

　　2、用训练集和训练集的特征向量来训练算法。

　　3、用学习来的算法运用在测试集上来评估算法。