Sklearn 中 OneHotEncoder 解析

将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。

from sklearn.preprocessing import OneHotEncode

参数：

OneHotEncoder(n_values=’auto’, 
             categorical_features=’all’, 
             dtype=<class ‘numpy.float64’>, 
             sparse=True, 
             handle_unknown=’error’)

handle_unknown是一个比较有用的参数，默认是"error"，指定为"ignore”更好，这个参数的目的是数据在转化为one-hot编码时，如果遇到一个属性值没有事先指定，程序应该怎么办？如果是error的话，程序就报错停止了，其实不方便处理数据，反而是ignore更好，程序可以继续执行
一个例子：

enc = OneHotEncoder()

enc.fit([["男", 0, 3], 
          ["男", 1, 0],
          ["女", 2, 1], 
          ["女", 0, 2]])

首先训练一下数据集，提取每一列的属性种类：

print(enc.categories_)
[array(['女', '男'], dtype=object), 
array([0, 1, 2], dtype=object), 
array([0, 1, 2, 3], dtype=object)]

一个例子：

from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder()
enc.fit([[0, 0, 3],
         [1, 1, 0],
         [0, 2, 1],
         [1, 0, 2]])

# 如果不加 toarray() 的话，输出的是稀疏的存储格式，即索引加值的形式，也可以通过参数指定 sparse = False 来达到同样的效果

ans = enc.transform([[0, 1, 3]]).toarray()  
print(ans) # 输出 [[ 1.  0.  0.  1.  0.  0.  0.  0.  1.]]

下面解释输出结果的意思。对于输入数组，这依旧是把每一行当作一个样本，每一列当作一个特征，

我们先来看第一个特征，即第一列 [0,1,0,1]，也就是说它有两个取值 0 或者 1，那么 one-hot 就会使用两位来表示这个特征，[1,0] 表示 0， [0,1] 表示 1，在上例输出结果中的前两位 [1,0...]，也就是表示该特征为 0
第二个特征，第二列 [0,1,2,0]，它有三种值，那么 one-hot 就会使用三位来表示这个特征，[1,0,0] 表示 0， [0,1,0] 表示 1，[0,0,1] 表示 2，在上例输出结果中的第三位到第六位 [...0,1,0,0...]也就是表示该特征为 1
第三个特征，第三列 [3,0,1,2]，它有四种值，那么 one-hot 就会使用四位来表示这个特征，[1,0,0,0] 表示 0， [0,1,0,0] 表示 1，[0,0,1,0] 表示 2，[0,0,0,1] 表示 3，在上例输出结果中的最后四位 [...0,0,0,1] 也就是表示该特征为 3
虽然训练样本中的数值仅仅代表类别，但是也必须使用数值格式的数据，如果使用字符串格式的数据会报错。

n_values=’auto’，表示每个特征使用几维的数值由数据集自动推断，即几种类别就使用几位来表示。

原文链接：https://blog.csdn.net/gxc19971128/article/details/106932288/