EDA即数据探索,是对数据的初步分析。
包括:
- 每个候选预测变量 的统计特性和分布
- 候选预测变量和状态变量之间,以及预测变量相互间是否存在相关性
- 检测缺失值和极端值,评估其对结果模型的冲击
- 调查候选变量中的分布情况,如正常和违约的分布情况
实践中,以上步骤即:
- 对每个变量的单变量描述性统计
- 评估每个变量值的分布并检验正态假设
- 极端值的识别和处理
- 缺失值的计算和处理
- 关键变量的列联表以及这些表格中统计量的计算
- 变量间关联性指标的计算
EDA即数据探索,是对数据的初步分析。
包括:
实践中,以上步骤即: