什么是机器学习？

1. 定义：

1）from Arthur Samuel：Field of study that gives computers the ability to learn without being explicitly programmed.

即：不直接针对问题进行编程的情况下，赋予机器学习的能力。

2）from Tom Mitchell：A computer program is said to learn from experience E with respect to some task T and some performance measure P,

if its performance on T, as measured by P, improves with experience E.

即：解决问题 T 的程序能够通过对经验 E 的学习不断提高性能(由 P 度量)。

2. 问题的常见类型

1）监督学习(Supervised learning)：we gave the algorithm a data set in which the "right answers" were given. 监督学习中的数据

集既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签("right answers")之间的联系，得到一个最优的模型，

在面对只有特征没有标签的数据时，可以判断出标签。

监督学习中每一个具体的输入由特征向量表示，记为

$$x_{i} = (x^{(1)},x^{(2)},...,x^{(n)})^{T}$$

$x^{i}$ 表示 $x$ 的第 $i$ 个特征，$x_{i}$ 表示第 $i$ 个输入变量。

训练集由输入输出对组成，

$$T = left {(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) ight }$$

a. 回归问题(Regression)：Predict continuous valued output.即根据数据样本上抽取出的特征，预测一个连续值的结果。

它的输入变量和输出变量均为连续变量。常见的有：

i. 星爷《美人鱼》票房

ii. 大帝都2个月后的房价

b. 标注问题(tagging)：标注问题的输入是一个观测序列，输出的是一个标记序列或状态序列，即输出的也是一个向量。

i. 对一个单词序列预测其对应的词性标记序列。

c. 分类问题(Classification)：Predict a discrete valued output.即根据数据样本上抽取出的特征，判定其属于有限个类别中的哪一个。

它的输出变量为有限个离散变量。常见的有：

i. 垃圾邮件识别(结果类别：1、垃圾邮件 2、正常邮件)

ii. 文本情感褒贬分析(结果类别：1、褒 2、贬)

iii. 图像内容识别识别(结果类别：1、喵星人 2、汪星人 3、人类 4、草泥马 5、都不是)。

2）非监督学习(Unsupervised learning)：we gave the algorithm a data set in which the "right answers" were not given.即算法不知道数

据集中数据、特征之间的关系(无标签)，而是要根据聚类或一定的模型得到数据之间的关系。

a. 聚类问题(Clustering)：根据数据样本上抽取出的特征，让相关的样本在同一组内。

i. google的新闻分类

ii. 用户群体划分