skearn/pandas

转：

http://www.cnblogs.com/jasonfreak/p/5448385.html

1 特征工程是什么？
2 数据预处理
　　2.1 无量纲化
　　　　2.1.1 标准化
　　　　2.1.2 区间缩放法
　　　　2.1.3 标准化与归一化的区别
　　2.2 对定量特征二值化
　　2.3 对定性特征哑编码
　　2.4 缺失值计算
　　2.5 数据变换
　　2.6 回顾
3 特征选择
　　3.1 Filter
　　　　3.1.1 方差选择法
　　　　3.1.2 相关系数法
　　　　3.1.3 卡方检验
　　　　3.1.4 互信息法
　　3.2 Wrapper
　　　　3.2.1 递归特征消除法
　　3.3 Embedded
　　　　3.3.1 基于惩罚项的特征选择法
　　　　3.3.2 基于树模型的特征选择法
　　3.4 回顾
4 降维
　　4.1 主成分分析法（PCA）
　　4.2 线性判别分析法（LDA）
　　4.3 回顾
5 总结

http://www.cnblogs.com/jasonfreak/p/5448462.html

1 使用sklearn进行数据挖掘
　　1.1 数据挖掘的步骤
　　1.2 数据初貌
　　1.3 关键技术
2 并行处理
　　2.1 整体并行处理
　　2.2 部分并行处理
3 流水线处理
4 自动化调参
5 持久化
6 回顾

http://pandas.pydata.org/pandas-docs/stable/10min.html

10minites to pandas

http://blog.csdn.net/march_on/article/details/48650237

smote算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。