数据科学之数据预处理

数据预处理

1数据质量

基本属性:正确性,完整性,一致性

2数据审计

运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。

数据审计的三种类型:预定义审计,自定义审计,可视化审计

3数据清洗

3.1缺失数据清洗

三个活动:缺失识别,缺失分析,缺失处理

方法:较为简单缺失,可以忽略,删除,插值等,复杂的:模型选择法,模式混合法等

3.2冗余数据清洗

方法:重复过滤,直接过滤,间接过滤,条件过滤

3.3噪声数据处理

方法:分箱,聚类,回归

4数据变换

5数据集成

对来自不同数据源的数据进行集成,然后才能分析处理。

5.1基本类型

内容集成

结果集成

5.2主要问题

模式集成

数据冗余

冲突检测与消除

6其他预处理方法

6.1数据脱敏

简单来说就是在不影响数据分析结果的准确性前提下对敏感数据进行变换,过滤,删除等操作,降低数据的敏感性。

6.2数据规约

减少数据规模,从而提升数据分析效率和效果。也是具有前提条件的。

6.3数据标注

通过增加数据标注(颜色,纹理,词性,形状等)提高数据检索,洞察,分析和挖掘的效果和效率。

原文地址:https://www.cnblogs.com/fxust/p/8097505.html