机器学习十讲（一）

1.机器学习的定义：

We define machine learning as a set of methods that can automatically detect patternsin data, and then use the uncovered patterns to predict future data, or to performother kinds of decision making under uncertainty (such as planning how to collectmore data!).
—《Machine Learning: A probabilistic perspective》

对应翻译：

我们将机器学习定义为一组能够自动检测数据中模式的方法，然后使用发现的模式来预测未来的数据，或者在不确定性下执行其他类型的决策(例如规划如何收集更多的数据！).

——《机器学习:概率视角》

2.为什么机器学习很重要？

大数据分析和人工智能已经成为了整个社会发展最基础的推动力，两者的基础都是机器学习。

大数据分析火热的深刻原因：

·数据源︰非结构化数据（语音、视频、文本、网络数据）

·模型和计算能力︰深度学习、GPU、分布式系统
·广泛的应用场景︰营销、广告、金融、交通、医疗等

3.大数据、人工智能、机器学习和深度学习

Data————>x

Data:数据
X:表示、特征、指标

F:模型

Y:智慧，也即预测任务或目标

Y=F(X)

相关定义（）仅为方便理解参考，并不标准）：

·大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。

·机器学习是大数据分析的核心内容。机器学习解决的是找到将X和Y关联的模型F，从Data到X的步骤通常是人工完成的（特征工程）。

·深度学习是机器学习的一部分，其核心是自动找到对特定任务有效的特征，也即自动完成Data到X的转换。

·如果我们的任务Y是模拟人类(自动驾驶、围棋AlphaGo )的行为，则这类任务称为人工智能。深度学习也是日前Al中的核心技术

4.机器学习方法的分类

。有监督学习( supervised learning )
数据集中的样本带有标签，有明确目标

回归和分类

。无监督学习( unsupervised learning )
数据集中的样本没有标签，没有明确目标
聚类、降维、排序、密度估计、关联规则挖掘

。强化学习( reinforcement learning )

智慧决策的过程，通过过程模拟和观察来不断学习、提高决策能力。例如︰AlphaGo

5.有监督学习

。数据集中的样本带有标签
。目标:找到样本到标签的最佳映射
。应用场景∶垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。

。典型方法
回归模型︰线性回归、岭回归、LASSO和回归样等

分类模型︰逻辑回归、K近邻、决策树、支持向量机等

6.无监督学习：根据数据本身的分布特点，挖掘反映数据的内在特性

。聚类:将数据集中相似的样本进行分组，使得︰
。同一组对象之间尽可能相似;
。不同组对象之间尽可能不相似。
。应用场景︰
。基因表达水平聚类︰根据不同基因表达的时征进行聚类，得到基因表达处于信号通路上游还是下游的信息
。篮球运动员划分∶根据球员相关数据，将其划分到不同类型（或者不同等级)的运动员阵营中
。客户分析:把客户细分成不同客户群，每个客户群有相似行为，做到精准营销

7.基本概念

训练集:用于训练模型的数据集
测试集用于测试模型的数据集
模型︰建立数据的输入x和输出y之间的映射关系y = f()
损失函数L(yi,f(i))例如，对回归问题可以定义为(f(x;)一 y)^2

优化目标：

8.机器学习一般流程：

（1）有监督学习为例：