学习笔记64_机器学习

机器学习比较基础的任务，就是分类：

一般的分类办法，就是尽可能测量所有可测得属性，或者特别重要的属性（又称为特征），并且由人类评判这些特征是属于什么类别。这样的 [特征-类别]又叫训练样本。

例如：鸟类的 “特征-类别”训练样本

*在分类算法中目标变量的类型通常是离散的，二回归算法中通常是连续的。训练样本集必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。

机器学习的另一任务，就是回归，主要用于预测数值型数据。

*分类和回归，属于监督学习，是因为这类算法必须知道预测什么，即目标变量的分类信息。如果想要预测目标变量的值，则可以选择监督学习。如果确定使用监督学习，下一步就要确定目标变量的类型，如果目标变量是离散型,

像上面的鸟类，则选择分类算法；如果是连续型，如0~100，则选择回归算法。

*而非监督学习，就是数据没有类别信息，也不会给定目标值。如果不想预测目标变量的值，可以选择非监督学习算法。如果要仅仅想要将数据划分为离散的组，则使用聚类算法；除此之外，还需要估计数据与每个分组的相似程度，则需要密度估计算法。

*在非监督学习中，将数据集合分成由类似的对象组成的多个类的过程，称聚类。将寻找描述数据统计值得过程，称为密度估计。

*机器学习的步骤：1.收集数据 2.整理数据，形成一定的数据结构 3.分析输入数据(主要是过滤，或者将数据降维，将三维降二维，二维降一维等等) 4.训练数据 5.测试算法（内符合，外符合）6.使用算法