数据挖掘方法论及实施步骤

1、业界数据挖掘方法论

2、在工作中,我们进行数据挖掘实施指导方法:

应用建模的八步法:业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化

步骤一:业务理解

      常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识。

      过程:业务调研->问题定位->制定目标->业务分析

步骤二:指标设计

     基于对业务问题的梳理分析,找到合适的分析方法或者方法论指导模型指标设计,确保指标体系化、全面性。

     常见的一些分析方法

步骤三:数据提取

     数据提取确保建模数据的完整性、可用性和完整性。

     数据提取: 提取建模所需数据

     数据清洗:  缺失数据处理  极值数据处理  错误数据处理  冗余数据处理

     数据审核:  数据统计错误审核  数据源错误审核  数据统计口径审核

     数据集成:  数据挖掘宽表构建

步骤四:数据探索

      数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。

步骤五:算法选择
     根据建模场景进行算法选择:如:描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法。

步骤六:模型评估

步骤七:模型发布

     聚焦业务问题提供端到端的专题解决方案;提高数据挖掘应用的效果和价值;是一套端到端、完整的数据挖掘专题解决方案、而非单纯的数据挖掘结果

步骤八:模型优化

    模型初期: 模型初步构建进行模型验证

    模型上升期: 根据模型验证和业务情况进行模型优化

    模型成熟期: 模型准确率达到相应精度、稳定成熟引领业务发展

    模型衰退期: 伴随业务的发展模型不再适用新的的业务环境,逐步停下脚步。

原文地址:https://www.cnblogs.com/tychyg/p/4871354.html