CRISP-DM (Cross Industry Process for Data Mining)模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。
商业理解(Business Understanding)
商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题。例如:
- 如何更快的进入一个领域?
- 参加集训营会影响工资吗?
- 我们如何预测一个人的工资?
- 我们如何预测一个人的工作满意度?
数据理解(Data Understanding)
数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。
数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。
数据准备(Data Preparation)
数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集。
并不是所有的数据挖掘都需要进行建模,如前两个问题,只需要运用简单的描述性和推理性的统计学就可以得到结果。
建模(Modeling)
建立模型是应用软件工具,选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律。
在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化。
评估(Evaluation)
模型评估是要从业务角度和统计角度进行模型结论的评估。
部署(Deployment)
数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。