机器学习--分类问题

分类问题是监督学习的一个核心问题，它从数据中学习一个分类决策函数或分类模型(分类器（classifier）)，对新的输入进行输出预测，输出变量取有限个离散值。

决策树

决策树（decision tree）是一个树结构，每个非叶节点表示一个特征属性，每个分支

边代表这个特征属性在某个值域上的输出，每个叶节点存放一个类别。

决策过程：从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，

直到到达叶子节点，将叶子节点存放的类别作为决策结果。

 给定训练数据，如何构建决策树呢？

1. 特征选择：选取对训练数据具有分类能力的特征。

2. 决策树生成：在决策树各个点上按照一定方法选择特征，递归构建决策树。

3. 决策树剪枝：在已生成的树上减掉一些子树或者叶节点，从而简化分类树模型。

示例：假如我买了一个西瓜，它的特点是纹理清晰、根

蒂硬挺，如何根据右侧决策树判断是好瓜还是坏瓜？

 核心算法

ID3算法，C4.5算法及CART算法

决策树特征选择

决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间，特征选择是要选出对训练数据集具有分类能力的特征，这样可以提高决策树的学习效率。

信息熵：表示随机变量的不确定性，熵越大不确定性越大。

信息增益：信息增益 = 信息熵(前) - 信息熵(后)

信息增益比：信息增益比 = 惩罚参数 * 信息增益。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

基尼指数：表示集合的不确定性，基尼系数越大，表示不平等程度越高。

在生成树的过程中，如果没有剪枝（pruning）操作，就会生成一个队训练集完全拟合的决策树，但这是对测试集非常不友好的，泛化能力不行。因此，需要减掉一些枝叶，使得模型泛化能力更强。

理想的决策树有三种：叶子节点数最少、叶子节点深度最小、叶子节点数最少且叶子节点深度最小。

预剪枝通过提前停止树的构建而对树剪枝，一旦停止，节点就是叶子，该叶子持有子集中最频繁的类。  定义一个高度，当决策树达到该高度时就停止生长  达到某个节点的实例具有相同的特征向量  定义一个阈值（实例个数、系统性能增益等）后剪枝方法首先构造完整的决策树，然后对那些置信不够的结点子树用叶子结点来代替，该叶子的类标号用该结点子树中最频繁的类标记。相比于预剪枝，这种方法更常用，因为在预剪枝方法中精确地估计何时停止树增长很困难。

贝叶斯分类

贝叶斯分类是基于贝叶斯定理和属性特征条件独立性的分类方法。贝叶斯流派的核心：Probability theory is nothing but common sense reduced to calculation. 概率论只不过是把常识用数学公式表达了出来。——拉普拉斯

案例：假设春季感冒流行，你同桌打了一个喷嚏，那你

同桌感冒了的概率是多少？

1. 计算先验概率：你同桌没有任何症状的情况下可能得感冒的概率是多少？

2. 为每个属性计算条件概率：如果你同桌感冒了，那么他会打喷嚏的概率是多少，如果他没感冒，出现打喷嚏症状的概率有多少？

3. 计算后验概率：根据1 和2求解最终问题，这才是拥有贝叶斯思想的你该做的分析。

贝叶斯理论

贝叶斯分类

举个栗子：一对男女朋友，男生向女生求婚，男生的四个特点分别是不帅，性格不好，身高矮，

不上进，请你判断一下女生是嫁还是不嫁？

贝叶斯分类

优点：

（1）算法逻辑简单,易于实现

（2）分类过程中时空开销小

缺点：理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。

SVM（支持向量机）

在很久以前的情人节，大侠要去救他的爱人，但魔鬼和他玩了一个游戏。

再之后，人们把这些球叫做「data」，把棍子叫做「classifier」, 最大间隙trick 叫做「optimization」，拍桌子叫做「kernelling」, 那张纸叫做「hyperplane」。

支持向量机（Support Vector Machine ）是一种有监督学习方法，它尝试寻找一个最优决策边界，使距离两个类别最近的样本最远。

。

逻辑回归

最大熵模型

逻辑回归与最大熵模型

集成学习

集成学习通过将多个弱分类器集成在一起，使它们共同完成学习任务，构建一个强分类器。潜在哲学思想是“三个臭皮匠赛过诸葛亮”。

 理论基础  两类集成方法 Bagging(bootstrap aggregating) Boosting（提升方法）强可学习：在PAC学习框架中，一个概念，如果存在存在一个多项式的学习算法能够学习它，并且正确率很高，那么久称这个概念是强可学习的。弱可学习：如果存在一个多项式的学习算法能够学习它，学习的正确率金币随机猜测略好，那么就称这个概念是弱可学习的。 Schapire证明强可学习与弱可学习是等价的，也就是说，在PAC学习框架下，一个概念强可学习的充分必要条件是这个概念若可学习的。