weka数据预处理

Weka数据预处理(一)

对于数据挖掘而言，我们往往仅关注实质性的挖掘算法，如分类、聚类、关联规则等，而忽视待挖掘数据的质量，但是高质量的数据才能产生高质量的挖掘结果，否则只有"Garbage in garbage out"了。保证待数据数据质量的重要一步就是数据预处理（Data Pre-Processing），在实际操作中，数据准备阶段往往能占用整个挖掘过程6~8成的时间。本文就weka工具中的数据预处理方法作一下介绍。

Weka 主要支持一种ARFF格式的数据，含有很多数据过滤方法。关于ARFF格式文件，可以在此处了解详情。

Weka的数据预处理又叫数据过滤，他们可以在weka.filters中找到。根据过滤算法的性质，可以分为有监督的（SupervisedFilter）和无监督的（UnsupervisedFilter）。对于前者，过滤器需要设置一个类属性，要考虑数据集中类的属性及其分布，以确定最佳的容器的数量和规模；而后者类的属性可以不存在。同时，这些过滤算法又可归结为基于属性的（attribute）和基于实例的(instance)。基于属性的方法主要是用于处理列，例如，添加或删除列；而基于实例的方法主要是用于处理行，例如，添加或删除行。

数据过滤主要解决以下问题（老生常谈的）：

数据的缺失值处理、标准化、规范化和离散化处理。

数据的缺失值处理：weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性，用平均值代替缺失值，对于nominal属性，用它的mode(出现最多的值)来代替缺失值。

标准化(standardize)：类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。

规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值，类属性除外。结果值默认在区间[0,1]，但是利用缩放和平移参数，我们能将数值属性值规范到任何区间。如：但scale=2.0，translation=-1.0时，你能将属性值规范到区间[-1,+1]。

离散化(discretize):类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化，用来离散数据集中的一些数值属性到分类属性。

下文将详细介绍一下Weka数据过滤类。

Weka数据预处理(二)

首先来看一下，有关属性—有监督过滤器。

AddClassification

该过滤器使用给定的分类器对原始数据添加分类标签，并给出类的分布以及关于原始数据集的错误分类标记。

其实就是利用分类算法对原始数据集进行预分类，其结果与在classify阶段得到的结果基本一致，同样包括分类的正确率等信息。

AttributeSelection

该过滤器，用于进行属性选择。根据给定的挖掘任务，利用合适的评估器，选择最有利于当前挖掘任务的属性。

ClassOrder

该过滤器用于改变的数据对象顺序，适用于binary对象和nominal对象。

Discretize

离散化过滤器，用于将连续属性离散化。使用频率非常高的一个过滤器，在实际应用当中，离散化也是很常见的数据预处理步骤。