机器学习

一对数回归

　　全称为对数几率回归，其它文献也称为线性回归。

　　虽然称为回归，但实际是分类算法。

　　本质是广义线性模型。通过sigmoid函数（联系函数），将回归模型的预测值与分类的真实标记联系起来。

　　只适用于二分类？

　　多分类情况采用 OvO或者OvR策略解决。

　　类别不平衡问题采用再缩放（rescaling）策略解决

　　　　欠采样 -- EasyEnsemble

　　　　过采样 -- SMOTE

一.五

　　线性回归，配合多项式扩展+正则化，好像是无敌的。确实能很好的拟合测试集，但在验证集上表现不一定好。是不是配合验证曲线来选择呢。

二线性判别分析 LDA

　　可以适用于多分类。

　　属于有监督线性降维方法。与之相对的是无监督线性降维，其中之一就是PCA（主成分分析）

三决策树

　　划分指标

　　　　信息增益 -- ID3

　　　　增益率 -- C4.5

　　　　gini index 基尼指数 -- CART决策树 classification and regression tree的缩写

　　适用于离散值，也适用于连续值。连续值的策略是取 n-1 个划分点。 --> 分类

　　也可以处理缺失值，牛逼。起码C4.5是可以的。

　　过拟合处理策略

　　　　剪枝

　　　　　　预剪枝

　　　　　　后剪枝

　　扩展：多变量决策树

　　　　　　　　本质是对变量进行线性组合

　　　　　　　　算法：OC1

四贝叶斯分类器

　　原理：通过先验概率，似然（类条件概率）求得后验概率的具体值，根据概率值判定哪种情况更有可能发生。

　　应用场景：

　　　　文章推荐 ω为是否推荐给用户

　　　　文章分类 ω为文章类型，体育，经济，娱乐，

　　　　晴天，逆风，等条件情况下是否打网球 ω为是否打网球

　　　　在模式识别，信息检索，机器学习等领域有着极为重要的作用。

　　分类

　　　　朴素贝叶斯

　　　　　　基于属性条件独立性假设。

　　　　　　避免因训练集样本不充分导致概率估值为零，采用拉普拉斯修正。

　　　　半朴素贝叶斯分类器

　　　　　　独依赖估计 ODE

　　　　贝叶斯网

　　　　EM算法

五人工神经网络

　　感知机

　　　　本质是线性分类器（参数=2），超平面（参数>2）

　　BP算法（误差逆传播算法）前馈型网络

　　Hopfield Networks

六支持向量机(（SVM）

　　1 本质是线性分类器和超平面

　　2 思路是将线性不可分的样本映射到高维特征空间，通过kernel trick 解决高维计算爆炸问题。

　　3 核函数

　　　　线性核，在文本分类领域，线性核SVM是第一考虑算法。若将每个单词作为文本数据的一个属性，则该属性空间维数很高，冗余度很大，其描述能力　　　　　　　　足以将不同文档打散.

　　　　多项式核

　　　　高斯核

　　　　拉普拉斯核

　　　　sigmoid核

　　4 支持向量回归 SVR

　　5 软间隔和正则化

七聚类

　　不同的预处理对聚类的结果影响很大。

　　根据簇类类型（整个簇集通常称作簇类）

　　　　划分

　　　　层次

　　　　　　AGNES

　　根据簇类型

　　　　基于原型

　　　　　　K-means　　

　　　　基于密度

　　　　　　DBSCAN。

　　　　　　　　核心点，边界点，噪点

　　　　　　　　聚类的结果更符合人眼的印象。适合应用于不规则图形。

　　　　基于模型

　　　　　　高斯混合聚类

　　　　　　　　采用EM算法（期望最大化算法）进行迭代优化求解。

　　　　　　　　　　通过迭代，E步,M步，直至收敛到局部最优解。

八关联分析

　　频繁项集

　　关联规则

　　支持度（support）　　本质就是概率

　　置信度（confidence）本质就是条件概率

　　应用场景：

　　　　商店购物推荐，比如你网页浏览的一个kindle，刷新页面会推荐kindle其它系列的产品或相关的产品

　　　　文本分析

　　　　　　将每个单词看最一个商品，哪两个单词一起出现的概率比较高，谁的置信度又比较高

　　误区

　　　　1 A->B 的置信度为60% ，能否说明A和B为强相关吗？不能，还要看先验概率，B本身的概率。即看A->B的置信度是否大于B自身的概率

　　　　2 P(Bread|Battery) > P(Bread) 能否说明bread和battery强相关吗？不一定，看两者数量级是否差异过大，即是否是非对称的。

　　apriori算法　　十大数据挖掘算法

九推荐算法

　　TF-IDF

　　LSA 隐含语义分析比tf-idf 更吊一些

　　Page Rank

　　collaborative filtering

十集成学习 ensemble learning

　　bagging（parallel）

　　　　适用于二分类，多分类，回归。

　　　　分类任务--简单投票法

　　　　回归任务--简单平均法

　　　　random forests

　　　　　　随机森林在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。

　　　　　　特征随机选择k个，推荐k=㏒2 k

　　　　　　每个训练样本通过bootstrap方式取得

　　　　　　解决了如何选取特征，如何选取样本的问题

　　boosting（sequential）

　　　　有权重的投票

　　　　adaboost

　　　　　　标准adaboost只适用于二分类。

　　　　regionboost　　

　　　　　　相比较adaboost，在测试集上表现更好。

十一特征选择

　　过滤式　　

　　　　Relief

　　包裹式

　　　　LVW

　　嵌入式