学习笔记64_机器学习

机器学习比较基础的任务,就是分类:

一般的分类办法,就是尽可能测量所有可测得属性,或者特别重要的属性(又称为特征),并且由 人类 评判这些特征是属于什么类别。 这样的 [特征-类别]又叫训练样本。

例如:鸟类的 “特征-类别”训练样本

重量(特征1) 翅宽(特征2) 颜色(特征3)  是/否有脚蹼(特征4) 种类(目标变量)
1000 125 灰色 鸟类1
3000 200 棕色 鸟类2

 

 

 

 

*在分类算法中目标变量的类型通常是离散的,二回归算法中通常是连续的。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。

机器学习的另一任务,就是回归,主要用于预测数值型数据。

*分类和回归,属于监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。如果想要预测目标变量的值,则可以选择监督学习。如果确定使用监督学习,下一步就要确定目标变量的类型,如果目标变量是离散型,

像上面的鸟类,则选择分类算法;如果是连续型,如0~100,则选择回归算法。

*而非监督学习,就是数据没有类别信息,也不会给定目标值。如果不想预测目标变量的值,可以选择非监督学习算法。如果要仅仅想要将数据划分为离散的组,则使用聚类算法;除此之外,还需要估计数据与每个分组的相似程度,则需要密度估计算法。

*在非监督学习中,将数据集合分成由类似的对象组成的多个类的过程,称聚类。将寻找描述数据统计值得过程,称为密度估计。

*机器学习的步骤:1.收集数据 2.整理数据,形成一定的数据结构 3.分析输入数据(主要是过滤,或者将数据降维,将三维降二维,二维降一维等等) 4.训练数据 5.测试算法(内符合,外符合)6.使用算法

监督学习的用途  
K-近邻算法 线性回归
朴素贝叶斯算法 局部加权线性回归
支持向量机 Ridge回归
决策树 lasso最小回归系数估计

 

 

 

 

 

无监督学习的用途  
K-均值 最大期望算法
DBSCAN Parzen窗设计

 

 

 

 

 

原文地址:https://www.cnblogs.com/pylblog/p/8338121.html