Tinghua Data Mining 3

特征选择

男女身高


男女抽烟 先验分布

熵 衡量系统的不确定性

属性的价值 降低了不确定性 降低的幅度越高越好

主成分分析

旋转是的数据间的correlation消失掉

Q是正交阵

七长八短,长宽相关性不好,信息丢失了很多。

线性判别分析

两种颜色投影重叠,分类问题就很尴尬,没法处理 PCA不考虑Label 是无监督的

有标签的数据用LDA、

降维的时候保留类的区分信息

可分性

迄今为止,都是二分类问题

原文地址:https://www.cnblogs.com/ioveNature/p/10064949.html