特征归一化

处理哪些问题时需要对数据进行标准化?

1、分类(如k-nearest neighbors算法)

2、聚类(如k-means算法)

使用距离(如欧几里得距离)来判定样本之间的相似度的分类和聚类问题,都要进行数据规范化。

3、支持向量机SVM,逻辑回归, perceptron, neural networks etc.

上面这些问题使用梯度优化来获得最优解。比如支持向量机使用梯度优化得到将样本数据分开的最优超平面。

4、主成分分析

总之,涉及到距离、协方差(比如PCA本质涉及协方差计算)、梯度计算的问题要进行标准化。

距离、协方差,是因为要使各特征贡献一致所以使用标准化

梯度计算,是因为如果不标准化,模型的收敛会很慢或者不会收敛到最优解。

原文:https://blog.csdn.net/luckoovy/article/details/82346223

机器学习中哪些算法可以不做归一化?
概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率。像svm、线性回归之类的最优化问题就需要归一化。决策树属于前者。归一化也是提升算法应用能力的必备能力之一。

原文:https://blog.csdn.net/u010315668/article/details/80374711

原文地址:https://www.cnblogs.com/wisir/p/12560715.html