机器学习 MLIA学习笔记（一）

监督学习（supervised learning）：叫监督学习的原因是因为我们告诉了算法，我们想要预测什么。所谓监督，其实就是我们的意愿是否能直接作用于预测结果。典型代表：分类（classification）和回归（regression）。

非监督学习（unsupervised learning）：在非监督学习的数据中，没有给出标签（label，用于类别区分等）和目标值（target value，用于回归预测）。通常，如果我们如果想将具有相似性的数据项进行分组，这种行为就是“聚类”（clustering）。另外，如果我们想知道关于数据的一些概率数值，那么这种行为就叫做“密度估计”（density estimation）。最后，非监督学习可能还会用于将多特征（feature）的数据进行降维，剔除一些不重要的特征，使得我们能在低维空间观察数据。

开发机器学习应用程序的步骤：

1. 收集数据；

2. 准备输入数据；

3. 分析输入数据；

4. 输入数据检测，或者样本预处理（剔除不良的数据）；

5. 训练样本，得到模型；

6. 检测模型，重要依预测的准确度和精确度为依据；

7. 使用模型进行实际的应用。

机器学习的世界是一个概率统计的世界，并且样本可在不同的空间变换，以突显某些特征，简化规则描述。