关于数据预处理的一些想法

今天在做数据预处理进行数据变换这步的时候,一直卡着,主要因为对于数据维度的确定老是拿不准。

数据预处理的步骤一般是初始数据源的获取、数据清理、数据集成、数据融合、数据转换、数据规约。

数据变换是采用线性或非线性的变换方法将高纬度的数据变为低纬度的数据,虽然对原来的数据有一定的损害,但是往往有更大的实用性。其方法分类有:将连续数据进行离散化、将数据汇总、选择特定区域的数据、构建新属性。

个人觉得不论方法有多少,做这不首要的方法是将最基本的特征区域属性确定下来,再进行数据转换,不然这步做起来往往会不断重复着做,很麻烦,哎!

原文地址:https://www.cnblogs.com/CQ-LQJ/p/4921538.html