(一) 什么是数据挖掘?

1.数据挖掘(Data Mining)(KDD:Knowledge Discovery in DataBase 知识发现 )

  • William Frawley & Gregory Piatetsky Shapiro, 1991。
  • 从现有的大量数据中,撷取不明显、之前未知、可能有用的知识。

2.数据挖掘目标

  •建立起决策模型
    • 哪一类的用户对我的产品有兴趣?
    • 根据过去的行动来预测未来的行为

3.数据挖掘过程(知识发现过程)Knowledge Discovery Process--六过程

  (1) Attribute selection 字段选择

  (2) Data cleansing  数据清洗

  (3) Attribute enrichment  字段扩充

  (4) Data coding  数据再编码

  (5) Data Mining 数据挖掘

  (6) Reporting   结果展示

        其中,数据挖掘是关键阶段。

  

 4.数据预处理Data Preprocessing

   数据预处理过程包括四个阶段:attribute selection,,data cleansing,,attribute enrichment,,data coding

   在整个数据挖掘过程中,数据预处理是最重要的一个步骤,数据预处理是否得当,对后续data mining 过程是否有效,以及质量的好坏有非常重要的影响。

  • 有高质量的数据,才有高质量的数据挖掘模型。
  • 数据预处理在整个数据挖掘知识发现的过程中,其重要性和所花费时间,要占到总时间的60%-80%

5. CRISP-DM(跨产业数据挖掘标准处理流程)

  Business Understanding;; Data Understanding;; Data Preparation;;Modeling;;Evaluation;;Deployment

  

  

原文地址:https://www.cnblogs.com/liyuewdsgame/p/13198804.html