表示法--特征工程

传统编程的关注点是代码。在机器学习项目中，关注点变成了表示。也就是说，开发者通过添加和改善特征来调整模型。

图1左侧表示来自输入数据源的原始数据，右侧表示特征矢量，也就是组成数据集中样本的浮点值集。特种工程指的是将原始数据转换为特征矢量。进行特种工程预计需要大量的时间。

机器学习模型通常期望样本表示为实数矢量。这种矢量的构建方法如下：为每个字段衍生特征，然后将它们全部连接在一起。

图1 程序工程将原始数据映射到机器学习特征

机器学习模型根据浮点值进行训练，因此整数和浮点原始数据不需要特殊编码。正如图2所示，将原始整数值6转换为特征值6.0是没有意义的：

图2 将整数值映射到浮点值

模型无法通过字符串值学习规律，因此您需要进行一些特征工作来讲这些值转换为数字形式：

注意：所有其他街道都可以归入一个笼统的“其他”类别，该类别称为OOV(未收录到词汇表中)桶。

该矢量的长度等于词汇表中的元素数。

图3显示了某条特定街道的独热编码。在此二元矢量中，代表Shorebird Way的元素的值为1，而代表所有其他街道的元素的值为0。

图3 通过独热编码映射字符串

分类特征具有一组离散的可能值。例如，名为Lowland Countries的特征只包含三个可能的值：

 
 {'Netherlands', 'Belgium', 'Luxembourg'}

您可能会将分类特征（如 Lowland Countries）编码为枚举类型或表示不同值的整数离散集。例如：

不过，机器学习模型通常将每个分类特征表示为单独的布尔值。例如，Lowland Countries 在模型中可以表示为 3 个单独的布尔值特征：

采用这种方法编码还可以简化某个值可能属于多个分类的情况（例如，“与法国接壤”对于比利时和卢森堡来说都是 True）。