【机器学习】周志华 读书笔记 第一章 绪论

1..什么是机器学习?

引言部分关于各种情景,是基于经验做出的的预判,机器学习的本质任务是预测。

  • 特征
  • 学习经验          =>从而做出有效的决策

  def:① 机器学习是一门学科,

         ②  通过计算机,从数据中产生“模型”。即:学习算法。主要任务是评估“学习算法”的好坏以及开发新的“学习算法”。这里的“学习算法”是计算机的学习方法,本质上是一种基于现有的数据产生预测模型的算法。

附:这里给出吴恩达课程中提供的解释

Tom Mitchell provides a more modern definition: "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if itsperformance at tasks in T, as measured by P, improves with experience E."

Example: playing checkers.

E = the experience of playing many games of checkers

T = the task of playing checkers.

P = the probability that the program will win the next game.

2.机器学习术语?

1.  “=” 意思是 “取值为

2.  数据集---这组记录的集合。

3.  “示例”或“样本“--其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述

4.  特征、属性——色泽、根蒂、敲声等反映一个事物的本质的可观察方面。

5、属性值——青旅、墨绿、蜷缩、浊响等,是属性的取值。

6、属性空间、样本空间、输入空间——属性张成的空间。这似乎是线性代数的语言,亦即把属性当作坐标轴,形成一个空间,那么样本就是这个空间中一个个的点。例如,吧“色泽”、“根蒂”、“敲声”作为坐标轴,则长生了一个三维空间,每个西瓜都是这个空间里的一个点。

7、维数——样本空间的坐标轴数,也就是数据集的特征数量。本例中的维数是3。

8. “学习 ” (learning)或 “ 训练” (training)--从数据中学得模型的过程

9. “ 训练数据 ” (training data)----训练过程中使用的数据

10. 训练样本” (training sample)---每个样本

11. “ 训练集” (training set)  训练样本组成的集合  

12、假设——也称假设函数,指计算机通过学习后得到的一个函数(预测模型)。

13、标记——关于样本结果的信息,比如一个(色泽=青绿;根蒂=蜷缩;敲声=浊响)的西瓜是好瓜,那么“好瓜”就是(色泽=青绿;根蒂=蜷缩;敲声=浊响)这个样本的标记。

15、样例——带有标记的样本,比如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)

16、标记空间、输出空间——所有标记的集合。本例中就是指{好瓜、坏瓜}。

3.分类与聚类?

若我们欲预测的是离散值,例如 “ 好瓜” 坏瓜” ,此类学习任务称为分类” (classification);若欲预测的是连续值? 例如西瓜成熟度0.95、0.37,此类学习任务称为 “ 回归 ” (regression).

对西瓜做 “聚类” (clustering),即将训练集中的西瓜分成若干组,每组称为 A个 “簇 ” (cluster);这些自动形成的簇可能对应一些潜在的概念

4. “”监督学习”(supervised learning)和“无监督学习”(unsupervised learning)

In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output

Ex. (a) Regression (b) Classification

Unsupervised learning, on the other hand, allows us to approach problems with little or no idea what our results should look like. We can derive structure from data where we don't necessarily know the effect of the variables.

Ex. Clustering: Non-clustering:

5.什么是NFL定理?

 NFL(No Free Lunch theorem)定理

Eote(La|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)Eote(La|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)

首先看这个EE,这个EE是期望,这个下标oteote,是off-training error,即训练集外误差。

Eote(La|X,f)Eote(La|X,f): 算法LaLa学得的假设在训练集外的所有样本上的误差的期望

P(x)P(x): 对于这个,理解为样本空间中的每个样本的取得概率不同,什么意思呢?拿西瓜来说,(色泽=浅白,根蒂=硬挺,敲声=清脆)的西瓜可能比(色泽=浅白,根蒂=稍蜷,敲声=沉闷)的西瓜更多,取到的概率更大。所以有P(x)P(x)这个概率。

I(h(x)≠f(x))I(h(x)≠f(x)):看前面的符号表把这个叫做指示函数,这个很好理解,就像if语句括号里的表达式一样,为真就=1,为假就=0。

P(h|X,La)P(h|X,La): 前面说过了,再复习一下,算法LaLa基于训练集XX产生假设hh的概率。

其实这里最开始最令我困惑的是什么呢?是两个求和符号,因为这里求和符号感觉不规范啊!有木有,不过后来觉得理解了意思就大概行了. 
第一个求和符号: 
∑h∑h: 这里的这个对假设的求和其实我也不是很理解,我的理解主要是不知道这个对假设求和的空间到底是:同一个算法对于不同训练集产生不同的假设,每个假设有不同的概率,还是算法对于同一个训练集会产生不同的假设,每个假设有不同的概率。不过这个不重要,群里有人说前三章看看就好,具体结合后面的算法来理解就行了,先往后面看着吧 
第二个求和符号: 
∑x∈χ−X∑x∈χ−X:对于样本空间中每一个训练集外的数据都进行右边的运算。

整体理解一下,这个公式就是说: 
对于算法LaLa产生的每一个不同的假设hh,进行训练外样本的测试,然后测试不成功(因为求的是误差)指示函数就为1,并且两个概率相乘,最后所有的结果加起来,就是该算法在训练集外产生的误差。

然后下面考虑二分类问题,先要说明,对于我们想要求得的真实目标函数ff可能也不止一个,这个好理解,因为满足版本空间中的假设的函数都可以是真实目标函数,然后这些不同的ff有着相同的概率(均匀分布),函数空间为{0,1}{0,1},那么有多少个这种函数呢?我们来看对于同一个样本的这个预测值,对于样本空间χχ中的某个样本xx,如果f1(x)=0f1(x)=0,f2(x)=1f2(x)=1, 那么这就是两个不同的真实目标函数,所以对于某个样本可以区分出两个真实目标函数,一共有|χ||χ|个样本,所以一共有2|χ|2|χ|个真实目标函数,这些真实目标函数是等可能分布的(均匀分布),所以对于某个假设h(x)h(x)如果h(x)=0h(x)=0那么就有1212的可能与真实目标函数相等。 
所以下面来看这个公式推导

∑fEote(La|X,f)∑fEote(La|X,f) 
=∑f∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)=∑f∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La) 
=∑x∈χ−XP(x)∑hP(h|X,La)∑fI(h(x)≠f(x))=∑x∈χ−XP(x)∑hP(h|X,La)∑fI(h(x)≠f(x)) ① 
=∑x∈χ−XP(x)∑hP(h|X,La)122|χ|=∑x∈χ−XP(x)∑hP(h|X,La)122|χ| ② 
=122|χ|∑x∈χ−XP(x)∑hP(h|X,La)=122|χ|∑x∈χ−XP(x)∑hP(h|X,La) ③ 
=2|χ|−1∑x∈χ−XP(x)⋅1=2|χ|−1∑x∈χ−XP(x)⋅1 ④

第一步是怎么推导出来的呢?这里涉及到一个求和运算 
假设 
ai∈{a1,a2,...,am}ai∈{a1,a2,...,am} 
bj∈{b1,b2,...,bn}bj∈{b1,b2,...,bn} 
ak∈{c1,c2,...,co}ak∈{c1,c2,...,co}

那么 
∑mi∑nj∑okaibjck∑im∑jn∑koaibjck 
=∑miai∑njbj∑okck=∑imai∑jnbj∑kock 
这个很容易理解,你想 
(a1+a2+...+am)(b1+b2+...+bn)(c1+c2+...+co)(a1+a2+...+am)(b1+b2+...+bn)(c1+c2+...+co) 
是不是等于 
a1b1c1+a2b1c1+...amb1c1+...+ambncoa1b1c1+a2b1c1+...amb1c1+...+ambnco 
看懂了上面那个你再看第一步也就看懂了

第二步 
主要是 
∑fI(h(x)≠f(x))=122|χ|∑fI(h(x)≠f(x))=122|χ| 
这个其实也很好理解,因为一共有2|χ|2|χ|个ff,且均匀分布,所以f(x)=1f(x)=1和f(x)=0f(x)=0的ff个数相等,对于每一个h(x)h(x)来说,不管h(x)=0h(x)=0还是11,都有一半f(x)f(x)与之相等,即122|χ|122|χ| 
所以就得出第二步

第三步到第四步就更好理解了 
概率求和为1,就是这么简单

经过这么一通推导后,发现得出期望的表达式中关于没有具体算法的,所以是算法无关的! 

雄关不惧 成败自含香
原文地址:https://www.cnblogs.com/cswangchen/p/8876608.html