泰坦尼克号 预处理

参考:https://www.kaggle.com/startupsci/titanic-data-science-solutions

哪些特征是分类特征:

哪些特征是数字类型的:

哪些特征是混合类型

哪些特征可能包含错误或者手误:

哪些特征包含空格,null 或空值

 

各个特征的数据类型是什么

数字类型的特征的分布式怎样的

分类特征的分布

基于以上分析的假设:

关联性

确定性:

 修改

创造:

我们还可以加入自己的猜想:

 检验相关性:

类似这样

在这个阶段,我们只能在没有任何空值的特性上这样做。

 可视化数据来分析

 未完待续

原文地址:https://www.cnblogs.com/bafenqingnian/p/9011109.html