机器学习

一 对数回归

  全称为对数几率回归,其它文献也称为 线性回归。

  虽然称为回归,但实际是分类算法。

  本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。

  只适用于二分类?

  多分类情况 采用 OvO或者OvR策略解决。

  类别不平衡问题 采用 再缩放 (rescaling) 策略解决

    欠采样 -- EasyEnsemble

    过采样 -- SMOTE

一.五

  线性回归,配合多项式扩展+正则化,好像是无敌的。确实能很好的拟合测试集,但在验证集上表现不一定好。是不是配合验证曲线 来选择呢。

二 线性判别分析 LDA

  可以适用于多分类。

  属于有监督线性降维方法。与之相对的是无监督线性降维,其中之一就是PCA(主成分分析)

三 决策树

  划分指标

    信息增益 -- ID3

    增益率  -- C4.5

    gini index 基尼指数 -- CART决策树 classification and regression tree的缩写

  适用于离散值,也适用于连续值。连续值的策略是取 n-1 个划分点。 --> 分类

  也可以处理缺失值,牛逼。起码C4.5是可以的。

  过拟合处理策略

    剪枝

      预剪枝

      后剪枝

  扩展:多变量决策树

        本质是对变量进行线性组合

        算法:OC1

四 贝叶斯分类器

  原理:通过先验概率,似然(类条件概率)求得后验概率的具体值,根据概率值判定哪种情况更有可能发生。

  应用场景:

    文章推荐   ω为是否推荐给用户

    文章分类   ω为文章类型,体育,经济,娱乐,

    晴天,逆风,等条件情况下是否打网球  ω为是否打网球

    在模式识别,信息检索,机器学习等领域有着极为重要的作用。

  分类

    朴素贝叶斯 

      基于 属性条件独立性假设。

      避免因训练集样本不充分导致概率估值为零,采用拉普拉斯修正。

    半朴素贝叶斯分类器

      独依赖估计 ODE

    贝叶斯网

    EM算法

    

五 人工神经网络

  感知机

    本质是线性分类器(参数=2),超平面(参数>2)

  BP算法(误差逆传播算法)前馈型网络

  Hopfield Networks

六 支持向量机((SVM)

  1 本质是线性分类器和超平面

  2 思路是将线性不可分的样本映射到高维特征空间,通过kernel trick 解决高维计算爆炸问题。

  3 核函数

    线性核,在文本分类领域,线性核SVM是第一考虑算法。若将每个单词作为文本数据的一个属性,则该属性空间维数很高,冗余度很大,其描述能力        足以将不同文档打散.

    多项式核

    高斯核

    拉普拉斯核

    sigmoid核

  4 支持向量回归 SVR

  5 软间隔和正则化

七 聚类

  不同的预处理对聚类的结果影响很大。

  根据簇类类型(整个簇集通常称作簇类)

    划分

    层次

      AGNES

  根据簇类型

    基于原型

      K-means  

    基于密度

      DBSCAN。

        核心点,边界点,噪点

        聚类的结果更符合人眼的印象。适合应用于不规则图形。

    基于模型

      高斯混合聚类

        采用EM算法(期望最大化算法)进行迭代优化求解。

          通过迭代,E步,M步,直至收敛到局部最优解。

八  关联分析

  频繁项集

  关联规则

  支持度(support)  本质就是概率

  置信度(confidence)  本质就是条件概率

  

  应用场景:

    商店购物推荐,比如你网页浏览的一个kindle,刷新页面会推荐kindle其它系列的产品或相关的产品

    文本分析

      将每个单词看最一个商品,哪两个单词一起出现的概率比较高,谁的置信度又比较高

  误区

    1 A->B 的置信度为60% ,能否说明A和B为强相关吗?不能,还要看先验概率,B本身的概率。即看A->B的置信度是否大于B自身的概率

    2 P(Bread|Battery) > P(Bread) 能否说明bread和battery强相关吗?  不一定,看两者数量级是否差异过大,即是否是非对称的。

  apriori算法  十大数据挖掘算法

九 推荐算法

  TF-IDF

  LSA 隐含语义分析 比tf-idf 更吊一些

  Page Rank

  collaborative filtering

  

 

十  集成学习  ensemble learning 

  bagging(parallel)

    适用于二分类,多分类,回归。

    分类任务--简单投票法

    回归任务--简单平均法

    random forests

      随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。

      特征随机选择k个,推荐k=㏒2 k 

      每个训练样本通过bootstrap方式取得 

      解决了如何选取特征,如何选取样本的问题

  boosting(sequential)

    有权重的投票

    adaboost

      标准adaboost只适用于二分类。

    regionboost  

      相比较adaboost,在测试集上表现更好。

十一 特征选择

  过滤式  

    Relief

  包裹式

    LVW

  嵌入式

    

原文地址:https://www.cnblogs.com/654321cc/p/13118183.html