机器学习笔记(三) 数据降维

数据降维

这里所说的降维是指减少特征的数量。通常有两种方法可以实现：1.特征选择 2.主成分分析

特征选择是什么？

特征选择就是单纯的从提取到的所有的特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值，可以不改变值，但是选择后的特征维数肯定比选择前的少。

特征选择方法：

1.Filter（过滤式）：Variance threshold

2.Embedded（嵌入式）：正则化，决策树

3.Wrapper（包裹式）

基于过滤式特征选择方法实例如下：

from sklearn.feature_selection import VarianceThreshold


def var():
    """
    特征选择-删除低方差的特征
    :return:
    """
    var=VarianceThreshold(threshold=1.0)
    data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,2,3]])
    print(data)

    return None


if __name__=='__main__':
    var()

PCA是什么？

PAC本质上是一种分析简化数据集的技术。

目的是使数据维数降低，损失少量信息。可以消减回归分析或者聚类分析中特征的数量。

from sklearn.decomposition import PCA

def pca():
    """
    主成分分析进行降维
    :return:
    """
    pca=PCA(n_components=0.9)
    data=pca.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,2,3]])
    print(data)
    return None

if __name__=='__main__':
 
    pca()