特征工程

数据-任务-模型-特征

特征:

特征是原始数据的数学表示,正确的特征应该与手头的任务相关并且容易被模型摄取。特征工程是指给定数据、模型和任务是制定最佳特征的过程。

模型评估:

在机器学习工作流程中,我们不仅挑选模型,还挑选特征。这是一个双节杆,一个选择会影响另一个。良好的特征使后续的建模步骤变得简单,并且所得到的模型能更容易实现所需的任务。糟糕的特征可能需要更复杂的模型才能达到相同的性能水平。在本书的其余部分中,我们将介绍不同类型的特征,并讨论它们对不同类型数据和模型的优缺点。

数字数据:

数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面,而且符合模型的假设。因此,转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数字特征时,它们可以被应用。

(1)数值数据的第一个健全检查是大小是否重要。

(2)考虑特征的规模。最大值和最小值是什么?它们跨越几个数量级吗?输入特性平滑的模型对输入的尺度敏感

(3)考虑数值特征的分布也是很重要的解决这一问题的一种方法是对数变换,这是一种功率变换,将变量的分布接近高斯。

 特征缩放或归一化:

顾名思义, 特征缩放会更改特征值的数值范围。有时人们也称它为特征规范化。功能缩放通常分别针对单个特征进行。有几种常见的缩放操作, 每个类型都产生不同的特征值分布。

Min-max缩放

Min-max缩放压缩(或拉伸)所有特征值到[0, 1 ]的范围内。图2-15演示了这个概念。最小最大尺度的公式是

标准化(方差缩放)

减去特征 (所有数据点) 的平均值并除以方差。因此, 它也可以称为方差缩放。缩放后的特征的平均值为0, 方差为1。如果原始特征具有高斯分布, 则缩放特征为标准高斯。

 

原文地址:https://www.cnblogs.com/lzq116/p/10431443.html