机器学习:绪论

1.1引言

 喧闹的教室突然变得鸦雀无声,没有抬头的你第一反应就是老板进了教室,赶紧就收起了手里的手机。

结果抬头一看,老板果真进来了;或者有时候抬头一看,什么也没有,大家哈哈一笑。

为什么?为什么你没抬头看就想到会是老板进来了?

因为你以前有过相同或者相似的经历,也就是“经验”。

所以你再一次经历的时候,会根据经验预测到结果,并做出相应的反应。

与此相似的事情有很多,

我们看到天空变阴,刮起冷风,会知道马上要下雨了,如果要出门的话会想到要拿上伞。

我们能做出这些判断,是因为我们已经经历过很多次了,积累了许多“经验”。

正是对这些经验的利用,来对新情况做出判断的。

我们的父母家人总是自称“过来人”的身份,并常说“吃的盐比你吃的饭都多”。

我们思考其实质,其实就是说的他们经历过我们没有经历过的事情,他们有“经验”。

而获得经验的过程中难免会吃亏走弯路,也是一点一点学,最后才变得经验丰富。

运动员同样也是,需要一点一点学习,需要多次的训练,

才能积累更多的经验,在处理相同的事情时才能做出正确的判断。

所以,获得经验的过程也就是“学习”的过程,也就是“训练”的过程。

我们人类是这样基于经验处理事情的,而且这的确是一个不错的方式。

我们希望赋予机器人类的智慧——人工智能,就想能不能让机器掌握这种基于经验处理问题的方式。

答案是肯定的,并且已经有了很多先例。

那么首先就需要让机器获得经验,而获得经验的过程也就是学习的过程,所以就叫做“机器学习”。

在机器的世界里,“经验”的是以“数据”的形式存在的。

1.2基本术语

 【获得数据:要进行机器学习,首先要有数据】

假定我们收集了一批关于西瓜的数据:

每对括号都是一条关于一个西瓜的记录,“$=$”意思为“是”

          ——————————————————————————————————————————          

                                 属性 / 特征

                 $swarrowqquadquaddownarrowqquadquadsearrow$

(色泽=青绿;根蒂=蜷缩;敲声=浊响)    <-- 这条是一个“示例” / “样本”

(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)    <-- 这是另一个“示例” / “样本”

(色泽=浅白;根蒂=硬挺;敲声=清脆)    <-- 这又是一个“示例” / “样本”

……想象还有很多……

          ——————————————————————————————————————————

  • 数据集”($dataset$):所有的这些西瓜的记录
  • 示例”($instance$)或“样本”($sample$):其中每一条记录,也就是每一个西瓜的记录
  • 属性”($attribute$)或“特征”($feature$):反映这个西瓜某些性质的事项,例如“色泽”,“根蒂”,“敲声”
  •  “属性值”($attribute value$):属性上的取值,例如“青绿”,“乌黑”
  •  “属性空间”($attribute spcae$)或“样本空间”($sample space$)或“输出空间”:属性张成的空间

例如我们把“色泽”,“根蒂”,“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。

  • 由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”($feature vector$)

一般地,令 $D={x_i,x_2,...,x_m}$ 表示包含 $m$ 个示例数据集,每个示例由 $d$ 个属性描述(例如上面的西瓜数据使用了三个属性),

则每个示例$x_i=(x_{i1},x_{i2},...,x_{id})$ 是 $d$ 维样本空间 $mathcal{X}$ 中的一个向量,$x_iin mathcal{X}$ ,

其中 $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值,(例如上述第3个西瓜在第2个属性上的值是“硬挺”),

$d$ 称为样本 $x_i$ 的“维数”($dimensionality$)

【开始训练:有了数据,就开始训练数据获取经验】

  • 学习”($learning$)或“训练”($training$):从数据中学得模型的过程

这个过程通过执行某个学习算法来完成。

  • 训练数据”($training data$):训练过程中使用的数据
  • 训练样本”(training sample):训练数据中的每个样本
  • 训练集”(training set):训练样本组成的集合

1.3假设空间

1.4归纳偏好

原文地址:https://www.cnblogs.com/ForTech/p/8546854.html