初识机器学习

　　一：机器学习应用领域：信息检索，数据挖掘，搜索引擎，社交网络，推荐引擎，计算广告，电子商务。与“大数据，深度学习，知识图谱”也关系密切

　　二：机器学习分类：

　　　　监督学习：用户知道目标，知道从数据中找什么　　

　　　　　　监督学习：分类{k-近邻，决策树，logistic回归，概率论分类器，SVM , AdaBoost}

　　　　　　　　　　回归

　　　　无监督学习：从算法中得到数据共同特征（聚类，密度估计）

　　　　　　无监督学习：数据无类别，无目标值

　　三：算法选择的一般原则：

　　　　基于目的：

　　　　　　　　预测目标变量的值-->监督学习算法{

　　　　　　　　　　　　　　　　　　　　　　　　目标变量值类型为离散：分类器算法（机器学习主要任务）

　　　　　　　　　　　　　　　　　　　　　　　　目标变量值类型为连续型：回归

　　　　　　　　　　　　　　　　　　　　　　　　}

　　　　　　　　其他无目标变量-->无监督学习算法

　　　　　　　　　　　　　　　　　　　　　　　　{

　　　　　　　　　　　　　　　　　　　　　　　　唯一需求为划分离散组：聚类

　　　　　　　　　　　　　　　　　　　　　　　　除分组外，估计数值与分组相似程度：密度估计算法　

　　　　　　　　　　　　　　　　　　　　　　　　}

　　　　基于数据：

　　　　　　　　特征值为离散/连续，特征值是否存在缺失，缺失的原因，数据中是否存在异常，某特征发生频率。

　　四：开发机器学习应用程序的步骤

　　　　（1）收集数据：网络爬虫，RSS反馈，API,设备

　　　　（2）准备输入数据：确保数据格式符合程序语言要求，同时为机器学习算法准备特定数据格式

　　　　（3）分析输入数据：（人工分析，确保前两步有效）

　　　　（4）训练算法（无监督学习不需要训练算法，直接到第五步）

　　　　（5）测试算法：

　　　　　　　　监督学习必须已知用于评估算法的目标变量值

　　　　　　　　无监督学习：用其他的评测手段检验算法的成功率

　　　　（6）使用算法