python机器学习-特征降维

方法

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
- 方差选择法：低方差特征过滤
- 相关系数
Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
- 决策树:信息熵、信息增益
- 正则化：L1、L2
- 深度学习：卷积等

4.1 低方差特征过滤

删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

特征方差小：某个特征大多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别

4.1.1 API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
- 删除所有低方差特征
- Variance.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
  - 返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

相关系数

皮尔逊相关系数(Pearson Correlation Coefficient)
- 反映变量之间相关关系密切程度的统计指标

特点

相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下：

当r>0时，表示两变量正相关，r<0时，两变量为负相关
当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系
当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱
一般可按三级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性相关；0.7≤|r|<1为高度线性相关

#过滤低方差样本（相关性强的去掉，避免冗余）
def variance_demo():
    data=pd.read_csv("factor_returns.csv")
    data=data.iloc[:, 1:-2]
    # 2.实例化一个转换器类
    transfer=VarianceThreshold(threshold=10)#特征数
    # 3.调用fit_transform
    data_new=transfer.fit_transform(data)
    print(data_new,data_new.shape)
    r=pearsonr(data["pe_ratio"],data["pb_ratio"])#p值为显著性值p>0.05则说明结果有可能是由偶然因素引起的。
    print(r)
#相关系数人r<0.4低度相关,r>0.4&&r<0.7显著性相关，r<0.7高度线性相关