sklearn学习--特征选择

特征选择

当特征特别多的时候，且有冗余的情况下，对特征进行选择不仅能使训练速度加快，还可以排除一些负面特征的干扰。sklearn 的feature_seletion提供了它许多特征选取函数，目前包括单变量选择方法和递归特征消除算法。它们均为转化器，故在此不举例说明如何使用。

除了使用feature_seletion的方法选取特征外，我们也可以选择那些带有特征选择的模型进行选择特征，例如随机森林会根据特征的重要程度对特征打分。

Pineline

使用pineline可以按顺序构建从数据处理到和训练模型的整个过程。pineline中间的步骤必须转化器（对数据进行处理）。使用pineline的好处就是可以封装一个学习的过程，使得重新调用这个过程变得更加方便。中间的过程用多个二元组组成的列表表示。

from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
clf = LogisticRegression()
new_clf = Pipeline([('pca',pca),('clf',clf)])

上面的封装的估计器，会先用PCA将数据降至两维，在用逻辑回归去拟合。