(CRISP-DM)数据科学探索流程

CRISP-DM (Cross Industry Process for Data Mining)模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。

商业理解(Business Understanding)

商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题。例如:

  • 如何更快的进入一个领域?
  • 参加集训营会影响工资吗?
  • 我们如何预测一个人的工资?
  • 我们如何预测一个人的工作满意度?

数据理解(Data Understanding)

数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。

数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

数据准备(Data Preparation)

数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集。

并不是所有的数据挖掘都需要进行建模,如前两个问题,只需要运用简单的描述性和推理性的统计学就可以得到结果。

建模(Modeling)

建立模型是应用软件工具,选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律。

在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化。

评估(Evaluation)

模型评估是要从业务角度和统计角度进行模型结论的评估。

部署(Deployment)

数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。

原文地址:https://www.cnblogs.com/JasonBUPT/p/11610469.html