《机器学习基石》笔记（一）（台大林轩田版Lecture1）

《机器学习基石》笔记（一）（台大林轩田版Lecture1）

1 什么时候用机器学习?

1.1 什么是机器学习（机器学习概念，机器学习相关名词概念）

人的学习过程是通过观察（observation），然后进行学习（learning），最后得到习得技能（skill）;机器的学习是通过获取数据（data）,进行一定的规则/算法推演(ML)，最后习得技能（skill）。其实两者是共通的，机器的学习过程其实就是模仿人的学习过程。观察和数据的本质都是从外界获得的信息；learning和ML都是对数据进行一定的处理；skill在这里比较抽象，指代的是解决某个问题的能力高低。一般定量化为某一性能指标【预测准确度，识别准确度】。（具体skill例子可看下文食衣住行的示例）。

1.2 机器学习的应用

有些复杂问题用手动编程很难实现，机器学习的方法更简单。

机器学习的其他应用场景：

决定是否能用机器学习方法解决该问题的关键要点【机器学习对该问题的适用性】

①该问题是有隐藏规律的：比如你不能预测你女儿在今天下午的哪一个时间会不会哭，因为这个事件没有规律。

②该问题是其他方法（比如基于规则的方法）不容易解决的。

③给定的数据和隐藏规律是有联系的：比如你不能给定一个人的身高体重等外形数据，然后要求通过分析这些数据，预测这个人的数学成绩，这是不合理的。

适用ML和不适用ML的示例：

ML在食、衣、住、行方面的具体应用：

①输入推特数据（评价+餐厅地点？），输出在某餐厅就餐结果食物中毒的概率。skill为对该餐厅视频中毒概率的推断合理性。

②输入销售数据+客户调查数据，输出为客户的服装喜好。skill为所推荐的服装能体现好的时尚品味。

③输入房屋特征数据（长宽高面积等，能耗），输出为某一栋房子的能耗，skill为预测能力，指标为预测准确率。

④输入交通标志和对应标志含义数据，输出为对某一标志含义的识别，skill为识别能力，指标为识别准确率。

1.3 机器学习的组成部分【示例阐述】

示例：银行是否同意给某人发信用卡。【本质为二分类问题】

用机器学习的”框架“将问题表达出来，具体如下图【data(X,Y)，f，g】

输入：申请人的各种特征【年龄，学历，是否有房，工作年限，存款金额等】

输出：银行同意给申请人发信用卡结果好/坏

【个人理解】f：可以看作原始数据X到Y的完美映射函数。通过将X输入f，得到的Y' 与原始数据中的Y一样。

data：银行存储的与发行信用卡有关的历史数据【申请人特征 X + 结果好/坏 Y】

g：通过对原始数据进行学习得到的尽量接近 f 的模型，用来对未知样本进行预测。

如下图为g,f,data,Algorithm的关系：

如下图为 H、 g 的相关解释：

H为多个特征的条件判别（一系列规则：h1,h2,...,hn）【all fomula】【类比整体决策树】

g是H的某一子集，该子集是最接近 f 的。【"best" fomula】【类比决策树的最优子树】

机器学习符号化阐述：

为了更好地理解g,f,data的含义，下图为具体【歌曲推荐】问题中的 g,f,data 对应内容：

1.4 机器学习和其他领域【数据挖掘、人工智能】

机器学习和数据挖掘：

ML和DM紧密相连，有时难以区分；

【个人理解】机器学习主要是对数据内在规律的学习，然后用于解决某个问题。【可能更侧重机器学习算法的应用】

【个人理解】数据挖掘主要是从数据中找出一定的规律，挖掘出对特定应用来说有用的信息。【可能更侧重数据的处理】

数据挖掘的特点是大数据集，追求运算效率，...。

机器学习和人工智能：

机器学习是实现人工智能的途径之一。

机器学习和统计学：

统计学的方法更多是：通过给定一些假设，进行数学推导，得出结论。

机器学习方法：通过特定的算法，对数据进行处理，计算出结果。

机器学习借用了很多统计学中很早就有的方法，统计学为机器学习提供了很多有用的工具。

1.5 小结（Lecture 1）：

参考资料：

1.B站教学视频：https://www.bilibili.com/video/BV1Cx411i7op?p=5 : p1~p5

2.笔记：https://beader.me/mlnotebook/section2/index.html

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/feynmania/p/12943684.html