数据挖掘概述

数据挖掘的定义

  从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道、但是又潜在有用的信息和知识的过程。

  从商业角度来看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。

  数据挖掘通常具有如下特点:

   (1)处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。

   (2)其目标是寻找决策者可能感兴趣的规则或模式。

   (3)发现的知识要可接受、可理解、可运用。

   (4)在数据挖掘中,规则的发现是基于统计规律的。

   (5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。

  数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就越可能有价值。

数据挖掘的主要任务

  数据挖掘的两个高层目标是预测和描述。

      预测是指用一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的或未来的值。

      描述是指找到描述数据的可理解模式,这些模式展示了一些有价值的信息,可用于报表中以指导商业策略,或公众要的是进行预测。

  根据发现知识的不同,可以将数据挖掘的任务归纳为以下几类。

    (1)关联分析:关联是某种事物发生时其他事物也会发生的这样一种联系。

    (2)时序分析:时序分析产生的时序序列是一种与时间相关的纵向联系。

    (3)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。

    (4)聚类:识别出分析对象内在的规则,按照这些规则将对象分成若干类。

    (5)预测:把握分析对象发展的规律,对未来的趋势做出预见。

数据挖掘的对象

  原则上讲,可以是任何类型的任何数据。

  数据挖掘的难度和采用的技术也因数据存储系统而异。

  1、关系数据库

    关系数据库中的数据是最丰富、最详细的。因此数据挖掘可以从关系数据库中找到大量的数据。基于关系型数据库中数据的特点,在进行数据挖掘之前要对数据进行清洗和转换。

  2、数据仓库

    数据仓库中的数据已经被清洗和转换,数据不会存在错误或不一致的情况。

  3、事务数据库

    数据挖掘可以从事务数据库中抽取数据。在进行数据挖掘时,可以只将一个或者几个事务数据库集中到数据挖掘中进行挖掘。

  4、高级数据库

    包括面向对象数据库、空间数据库、时间序列数据库和多媒体数据库等。

数据挖掘的知识表示

  数据挖掘各种方法获得知识的表现形式主要有如下几种。

  1、规则

    规则知识由前提条件和结论两部分组成。

  2、决策树

    决策树采用数的形式表示知识,叶子结点表示结论属性的类别,非叶子结点表示条件属性,每个非叶子结点引出若干条分支线,表示该条件属性的各种取值,一颗决策树可以转换成若干条规则。

  3、知识基

    通过挖掘原表中的冗余属性和冗余记录,得到对应的浓缩数据,称为知识基。

  4、网络权值

    神经网络方法得到的知识是一个网络结构和各边的权值,这组网络权值表示对应的知识。

数据挖掘与数据仓库及OLAP的关系

  1、数据挖掘与数据仓库的关系

    数据仓库与数据挖掘是一种融合和互补的关系,一方面,数据仓库中的数据可以作为数据挖掘的数据源,另一方面数据挖掘的数据源并不一定必须是数据仓库。

  2、数据挖掘与OLAP的关系

    数据挖掘与OLAP都是数据分析工具,但两者之间有着明显的区别,前者是挖掘型的,后者是验证型的。与数据挖掘相比,OLAP更多地依靠用户输入问题和假设,数据挖掘和OLAP具有一定的互补性。

数据挖掘的应用

  1、科学研究中的数据挖掘

  2、市场营销中的数据挖掘

  3、金融数据分析的数据挖掘

  4、电信业的数据挖掘

  5、产品制造中的数据挖掘

  6、Internet应用中的数据挖掘

原文地址:https://www.cnblogs.com/qiangang/p/13721307.html