统计学习方法李航学习笔记

零、常见的建模策略:

  Linear Regression 线性回归

  Logistic Regression 逻辑回归

  Ensemble Learning 集成学习(特征工程决定了机器学习的上限,集成学习决定了这个上限的逼近程度)

    bagging:多个分类器结果平均或者投票,rf

    Boosting:Adaboost、GBDT(每一次子模型的生成,都是让残差沿着梯度方向减少)

    Stacking:将多个分类器结果作为X变量,再训练后作为最终预测模型,

    优点:模型更稳定

  Deep Learing 深度学习 RNN、GNN

监督学习三板斧:目标、损失函数、参数估计

一、决策树

1、决策树是一种基本的分类与回归方法,本文主要讨轮用于分类的决策树,决策树模型呈现树形结构,在分类问题中,表示基于特征对实例进行分类的过程,

学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型

预测时,对新的数据,利用决策树模型进行分类,

决策树学习通常分为3个步骤:特征选择、决策树的生成和决策树的修剪,

2、特征选择:

特征选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率,

选择的准则是信息增益或信息增益比

信息熵:

经验熵:类别/D 

 二、随机森林:

bagging ensemble

子模型 很多课决策树,每个子模型有同样的权重

为了鼓励子模型的差异,可以随机选择特征子集和训练样本子集建模

优势:能在特征完整的情况下建模

能够处理高纬特征,不用做特征选择

劣势:有些子模型会比其他子模型更有效,这里并没有体现

三、梯度提升回归树 GBDT

GBDT(gradient boosting regression tree ),是一种迭代的梯度提升回归树算法,该算法由多颗回归树组成,所有树的结论累加起来做最终答案

用递增的方式建立子模型,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少(原始boosting方法:增加分错的点的权重,减少分对的点的权重)

优势:

可以使用其来自动发现有效的特征,特征组合,来作为stacking(LR)模型中的弱分类器

特征的分布和取值无特殊要求

重要参数:

tree-specific parameters

  max-depth

  min_samples_splits

boosting parameters

  learning_rate

  n_estimators 子模型的个数

四、隐马尔可夫模型:隐藏的 马尔可夫链 随机 生成序列

  隐马尔可夫模型是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。 首先叙述HMM模型的基本概念,然后分别叙述HMM的概率计算,学习算法以及预测算法。HMM在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用

  隐马尔可夫模型可以用于标注,这时状态对应着标记.标注问题是给定对应观测的序列预测其对应的标记序列.可以假设标记问题的数据是由隐马尔可夫模型生成的。这样可以利用隐马尔科夫模型的学习与预测算法进行标注。

二、条件随机场

  条件随机场(CRF)是给定一组输入随机变量条件下,另一组随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场,条件随机场可以用于不同的预测问题,下面主要讨论在标注问题的应用,这时,问题变成了由输入序列对输出序列的判别模型,形式是对数线性模型、其学习方法通常是极大似然估计及正则化的极大似然估计

  条件随机场的三个基本问题:概率计算问题、学习问题、预测问题

  字面理解:随机场,是指随机变量,条件,是指在给定一组输入随机变量作为条件,输出变量的条件概率分布模型

原文地址:https://www.cnblogs.com/lxw003/p/8656479.html