数据挖掘案例分析-泰坦尼克号数据

数据挖掘案例分析-泰坦尼克号数据

一、数据挖掘流程介绍

　　1.数据读取
   　　 -读取数据
    　　-统计指标
    　　-数据规模
　　2.数据探索（特征理解）
    　　-单特征的分析，诸个变量分析对结果y的影响（x,y的相关性）
   　　 -多变量分析（x,y之间的相关性）
   　　 -统计绘图
　　3.数据清洗和预处理
    　　-缺失值填充
   　　 -标准化、归一化
   　　 -特征工程（筛选有价值的特征）
  　　 -分析特征之间的相关性
　　4.建模
    　　-特征数据的准备和标签
   　　 -数据集的切分
    　　-多种模型对比：交叉验证、调参（学习曲线，网格搜索）
   　　 -集成算法（提升算法）XGBoost、GBDT、light-GBM、神经网络（多种集成）

二、数据文件说明

　　本案例所用泰坦尼克号数据存储在文件 train.csv 中，来源于kaggle竞赛

三、Python代码实现

1.数据读取

2.数据探索

3.数据清洗和预处理

3.1 提取性别身份，并将少数类归为其他

3.2 缺失值填充

3.2.1 填补Age缺失值

3.2.2 填充港口数据

3.3数据处理

3.3.1 年龄分段

3.3.2 数值化

3.3.3 独热编码

3.3.4 变量选择

4.建模

导包

划分数据集

4.1 logistic

4.2 knn近邻算法

4.3 网格搜索

4.4 决策树

4.5 roc曲线

ROC曲线的含义：受试者工作特征曲线

#评价统计量计算

1.ROC曲线下的面积值在0.5和1之间。
2.在AUC>0.5的情况下，AUC越接近于1，说明效果越好。
- AUC在 0.5～0.7时有较低准确性，
- AUC在0.7～0.9时有一定准确性，
- AUC在0.9以上时有较高准确性。
3.AUC小于等于0.5时，说明该方法完全不起作用。

从上图可以看出：AUC值等于0.83，说明效果较好

4.6 混淆矩阵

4.7 集成算法-装袋法

通过比较发现装代法的得分最高，约为0.8659，即使用该方法效果最好。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/lvzw/p/11577796.html