DictVectorizer 用法对使用字典存储的数据进行特征抽取和向量化

DictVectorizer的处理对象是符号化(非数字化)的但是具有一定结构的特征数据，如字典等，将符号转成数字0/1表示。

#使用DictVectorizer对使用字典存储的数据进行特征抽取和向量化

#定义一组字典列表，用来表示多个数据样本（每个字典代表一个数据样本）
measurements = [{'city':'Beijing','temperature':33.},{'city':'London','temperature':12.},{'city':'San Fransisco','temperature':18.}]

#从sklearn.feature_extraction导入DictVectorizer
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer()

# 输出转化后的特征矩阵
print(vec.fit_transform(measurements).toarray() )

# 输出各个维度的特征含义
print(vec.get_feature_names() )

输出结果为：

[[ 1.  0.  0. 33.]
 [ 0.  1.  0. 12.]
 [ 0.  0.  1. 18.]]

['city=Beijing', 'city=London', 'city=San Fransisco', 'temperature']

DictVectorizer 用法 对使用字典存储的数据进行特征抽取和向量化

DictVectorizer 用法对使用字典存储的数据进行特征抽取和向量化