机器学习总结之第一章绪论

1.2基本术语

特征向量：即示例，反映事件或对象在某方面的性质。例如，西瓜的色泽，敲声。

属性：例如青绿乌黑清脆。

数据集:例如（色泽=青绿，根蒂=蜷缩，敲声=浊响），（色泽=浅白，根蒂=硬挺，敲声=清脆），（色泽=乌黑，根蒂=稍蜷，敲声=沉闷）……

例如，D = {X1，X2，……,Xm}表示包含m个示例的数据集。

Xi = (xi1；xi2；……；xid)每个示例有d个属性表述。

标记：预测结果信息，例如（（色泽=青绿，根蒂=蜷缩，敲声=浊响），好瓜）。好瓜则为标记。

标记的集合，亦称：标记空间，输出空间。

样例：拥有标记信息的示例。用(xi,yi)表示样例。

分类：预测是离散值。例如：好瓜，坏瓜。

回归：预测的是连续值。例如：西瓜的成熟度0.89,0.37。输出空间y=R(实数集)

二分类：分正类，反类。样本空间--->输出空间输出空间 = {+1，-1} 或{0,1}

多分类：|输出空间y|>2

聚类：分成若干组

监督学习：回归，分类。

无监督学习：聚类。

独立同分布：样本服从一个未知的分布，获得的每个样本呢都是独立的从这个分布上采样获得的。

1.3假设空间

归纳学习：广义--->从样例中学习

狭义：从训练数据中学得概念。

概念学习：(色泽=？)^(根蒂=？)^(敲声=？)

假设空间：若色泽，根蒂，敲声，各有3种可能取值。

假设空间大小规模：4*4*4+1=65；3+1=4 的两个加1都是是通配符的情况。

对假设空间自顶向下搜索，即训练。

版本空间：多个假设与训练集一致，即存在着一个与训练集一致的假设集合。

1.4归纳偏好

我的理解：当在现有的模型中，出现新的样本，既可以归为正类，也可以归为反类。我们设定一个优先级，根据这个偏好去归纳。

奥卡姆剃刀：若有多个假设与观察一致，选最简单的那个。例如曲线A的描述方程要比B简单的多。自然偏好A。

此时剃刀不适用。

假设样本空间和假设空间都是离散的.令代表算法基于训练数据X产生假设h的概率，再令f代表我们学习的真实目标函数。的”训练集外误差”，即在训练集外的所有样本上的误差为

上面式中所有可能性之和自然是为1。

在问题出现的机会相同，所有问题同等重要，对于任意两个学习算法，其总误差相等，期望性能相同。

脱离具体问题谈算法的好坏无意义。