【pandas-20】实践(泰坦尼克沉船事件)-特征处理

一、找出最影响结果的那些特征

实例演示:泰坦尼克沉船事件中,最影响生死的因素有哪些?

1、导入相关的包

2、导入泰坦尼克号的数据

这种方法也可以:

3、数据清理和转换

3.1 查看是否有空值列

3.2 Age列填充平均值

3.2 将性别列变成数字

3.3 Embarked列填充空值,字符串转换成数字

4、将特征列和结果列拆分开

5、使用卡方检验选择topK的特征

6、按照重要性顺序打印特征列表

   

   

二、get_dummies用于机器学习的特征处理

get_dummies就是用于颜色、性别这种特征的处理,也叫作one-hot-encoding处理

比如:

男性:1 0

女性:0 1

这就叫做one-hot-encoding,是机器学习对类别的特征处理

1、普通无序分类特征可以用get_dummies编码

其实就是one-hot编码

注意,One-hot-Encoding一般要去掉一列,不然会出现dummy variable trap,因为一个人不是male就是femal,它俩有推导关系 https://www.geeksforgeeks.org/ml-dummy-variable-trap-in-regression-models/

2、机器学习模型训练

原文地址:https://www.cnblogs.com/yifanrensheng/p/14659820.html