机器学习的几个误区-转载

http://www.cnblogs.com/CheeseZH/p/4096546.html

写的还不错。里面还引申了好几个概念,包括AdaBoost,L1/L2正则(范数)等。

提纲列一下:

1. 使用模型默认的损失函数

例如我在珍爱网做付费用户预测时,由于付费用户本身数量级就不大,所以我宁可误判十个,也不能错过一个。所以这个时候我们就需要去修改分类器模型的损失函数。

2. 无根据地选择线性模型

我个人的经验往往是先使用逻辑回归做一次分类,但是同时也会采用决策树,或者SVM等非线性模型来对该数据进行重新的分类比对。

3. 忽视异常值的意义

如果当训练数据中包含一些异常值的时候,我们就需要考虑模型的敏感性了,例如AdaBoost, Kmeans这种就属于对异常值很敏感的机器学习模型。

4. 不考虑n和p的关系

n: 训练数据的数量。p: 特征的数量。如果当n << p的时候,还依然采用SVM来选定模型,那么就必然会导致p进一步增加,于是导致特征的参数中自由变量增加,必然会对分类的效果产生很大的影响。

5. L1 / L2 正则化之前并没有对特征进行标准化

6. 变量之间的共线性问题

原文地址:https://www.cnblogs.com/charlesblc/p/6298330.html