数据处理

一缺失值处理

　　1 删除 dropna

　　2 填充 / 替换

　　　　1）用中位数，众数，平均数

　　　　2）用临近值替换 fillna / replace

　　　　3）lagrange插值法

　　　　　　　　from scipy.interpolate import lagrange

　　　　　　　　可以写个函数，实现用lagrange差值

二异常值处理

　　1 找到异常值

　　　　1）3σ原则

　　　　　　在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴

　　　　　　3σ原则为

　　　　　　数值分布在（μ-σ,μ+σ)中的概率为0.6827

　　　　　　数值分布在（μ-2σ,μ+2σ)中的概率为0.9545

　　　　　　数值分布在（μ-3σ,μ+3σ)中的概率为0.9973

　　　　　　可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%

　　　　2）箱型图分析

　　　　　　相对来说箱型图可能用的比较多，而且，3σ原则特别极端才会显示。

　　2 处理异常值

　　　　采用缺失值一样的方式处理

三数据标准化

　　1）0-1标准化

　　　　（series - min）/ (max-min)

　　　　标准化数据
　　　　经过处理的数据符合标准正态分布，即均值为0，标准差为1

　　2）Z-score 标准化

　　　　Z分数（z-score）,是一个分数与平均数的差再除以标准差的过程 → z=(x-μ)/σ，其中x为某一具体分数，μ为平均数，σ为标准差

　　　　Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数
　　　　数学意义：一个给定分数距离平均数多少个标准差

　　　　什么情况用Z-score标准化：

　　　　在分类、聚类算法中，需要使用距离来度量相似性的时候，Z-score表现更好

四数据连续属性离散化 discretization

　　1）等宽法

　　　　pd.cut(x,bins,labels)

　　　　　　注意：1）x 为series，返回值类型是series。 x为列表，返回值类型为 Categorical。这里我们用到的是 Categorical，因为有codes属性和　　　　　　　　　　categories属性

　　　　　　　　　2）bins 可以接受int，和列表，代表不同含义。

　　　　　　　　　3) labels 可以设置不同组的名称

　　2）等频法

　　　　pd.qcut()

　　　　　　每个区间是等数量的。