数据预处理 总结

1. 离散化

  a) 无序变量离散化—— OneHotEncoder

  b)有序变量离散化

    等宽划分:按照相同宽度将数据分成几等份。缺点是受到异常值的影响比较大。 pandas.cut方法可以进行等宽划分。

    等频划分:将数据分成几等份,每等份数据里面的个数是一样的。pandas.qcut方法可以进行等频划分。

    聚类划分:使用聚类算法将数据聚成几类,每一个类为一个划分。

  内容来自 https://www.cnblogs.com/jiaxin359/p/8574510.html

 内容来自 https://www.cnblogs.com/xingnie/p/12264505.html

2. 缺失值处理

  # 考虑全空才删,还是空一个就删

  df.dropna(how = ,axis = )

  # 用什么(平均值)填充空值

  df.fillna()

df['Exterior_Color'].fillna(method='ffill') #前向填补
df['Exterior_Color'].fillna(method='bfill') #后向填补
df.Mileage.fillna(df.Mileage.mean()) # 年龄这里列 用均值填补
df.Mileage.fillna(df.Mileage.median()) #中位数填补

3. 重复值处理

  df.xxx.drop_duplicates()

4. 异常值处理

  

# 剔除户主姓名,户主身份证号和年龄有缺失的样本
df.dropna(axis = 0,how='any',subset=['户主姓名','户主身份证号','age'],inplace = True) #1代表列,0代表行,只要有缺失,就删除这一行,基于三个变量
 

 https://blog.csdn.net/lyxleft/article/details/84325697#%E8%81%9A%E9%9B%86

5.聚集

6.抽样

7.降维

8.特征子集

9..特征创建

10。变量变换

原文地址:https://www.cnblogs.com/ChevisZhang/p/13471527.html