数据预处理

数据的预处理

数据预处理的主要内容包括数据的清洗,数据的集成,数据的变换,数据的规约.
数据清洗:数据的清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主体无关的数据,处理缺失值,异常值.
缺失值的处理:缺失值的处理分为3种方式:删除记录,数据补差,和不处理
数据补插方式:

使用固定值	将缺失值的属性值,用一个常量替换.如广州一个工厂普通外来务工人员的"基本工资"属性的空缺值可以用2015年广州市普通外来务工人员工资标准1895元/月,该方法就是使用固定值来填补
回归方法	对带有缺失值的变量,根据已有的数据和其他的有关的其他变量(因变量)的数据建立拟合模型来预测缺失值的属性值
均值/中位数/众数补插	根据属性值的类型,用该属性取值的平均数/中位数/众数进行插补
插值法	插值法是利用已知点建立合适的插值函数f(x),未知值由对应点x_i求出的函数值,f(x_i)近似代替
最近邻插补	在记录中找到缺失值与却只样本最接近的样本的该属性值插补

拉格朗日插值法:
- 根据数学知识,对于平面上已知的n个点(无两点在一条直线上)(那我觉的菏泽市一个散点图吧)可以找到一个n-1次多项式y=a₀+a₁x+a₂x²+...+a_n-1x^n-1次多项式:使这多项式曲线过这n个点
- 已知过n个点的n-1次多项式:y = a₀ + a₁x + a₂x² + ...+a_n-1x^n-1
- 将n个点的坐标(x₁,y₁),(x₂,y₂)...(x_n,y_n)代入多项式函数,得
  - ₁ = a₀ + a₁x₁ + a₂x¹ + ... + a^n-1x₁^n-1
  - y2 = a₀ + a₁x₁ + a₂x₂²+ ... + a^n-1x₂^n-1
  - ....
  - y_n = a₀ + a₁x_n + a²x_n² + ... + a^n-1x_n^n-1
  - 终极公式:
  - 将缺失的函数值对应的点x代入插值多项式得到缺失值的近似值L(x).拉格朗日插值公式结果紧凑,在理论分析中很方便,但是当插值节点增减时,插值多项式就会随之变化,这在实际计算中时很不方便的,为了克服这一缺点,提出了牛顿插值法.
牛顿插值法
- 求已知的n个点对(x₁,y₁),(x₂,y₂)...(x_ny_n)的所有阶差商公式
- 差商:差商既均差,指导数的近似值,对等步长(h)的离散函数f(x),其n阶差商就是它的n阶差分与其步长n次幂的比值.例如n=1时,若差分取向前的或向后的,所得一阶差商就是函数导数的一阶近似,若差分取中心的则所得一阶差商时导数的二阶近似
拉格朗日插值实例:

import pandas as pd  # 导入数据分析库pandas
from scipy.interpolate import lagrange  # 导入拉个朗日插值函数

data = pd.read_csv("./restaurant_sale.csv")  # 读入数据
print data
print data["sales"]
data["sales"][(data["sales"] < 400) | (data["sales"] > 5000)] = None # 过滤异常值,将其变为空值

# 自定义列向量插值函数
# s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5


def ployinterp_column(s, n, k=5):
    y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))]  # 取数
 y = y[y.notnull()]  # 剔除空值
 return lagrange(y.index, list(y))(n)  # 插值并返回插值结果


# 逐个元素判断是否需要插值
for i in data.columns:
    print i  # 拿到的是表格的title
 for j in range(len(data)):
        print j  # 拿到的是每一个title对应的数据
 if (data[i].isnull())[j]:  # 如果为空即插值
 print data[i]
            data[i][j] = ployinterp_column(data[i], j)  # 执行自定义的拉格朗日插值函数
# 输出结果到文件中
data.to_csv("./sales.csv")

异常值处理

在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常可能蕴含着有用信息
异常值处理常用方法

异常值处理方法	方法描述
不处理	直接在具有异常值的数据集上进行挖掘建模
删除含有异常值的记录	直接将含有异常值的记录删除
平均值修正	可用前后两个观测值的平均值修正该异常值
视为缺失值	将异常值视为缺失值,利用缺失值处理的方法进行处理

数据集成

数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程,在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换,提炼和集成.
实体识别:
- 实体识别:实体识别时指从不同数据源识别出现实世界的实体,它的任务是统一不同源数据的矛盾之处
  1. 同名异义:数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单号,即描述的是不同的实体(不同事物具有相同的属性,但描述的分别是对应实体的属性)
  2. 异名同义:数据源A中的sales_dt和数据源B中的sales_date都是描述销售日期,即A.sales_dt=B.sales_date.(实体之间属性的命名不同,但都是表示同一个东西,eg:供货商的出货日期=经销商的进货日期)
  3. 单位不统一:描述同一个实体分别用国际单位和中国的传统单位.
- 检测和解决这些冲突就是实体识别的任务
冗余属性识别:
- 数据集成往往导致数据冗余.
  1. 同一属性多次出现;
  2. 同一属性命名不一致导致重复
- 仔细整合不同数据源能减少甚至避免数据冗余与不一致,从而提高数据挖掘的速度和质量.对于冗余性要先分析,检测到后再将其删除
- 有些冗余属性可以用相关性分析检测,给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含来那个一个属性.