数据

数据挖掘分类

u 按数据库类型分类

l 关系数据库挖掘、历史数据挖掘等

u 按数据挖掘对象分类

l 除数据库外，有文本、多媒体等

u 按数据挖掘任务分类

l 关联、时序、聚类、分类、偏差、预测

u 按数据挖掘方法和技术分类

l 归纳学习、仿生物、公式发现等

（1）挖掘对象：基于数据库的挖掘；基于web的挖掘；基于文本的挖掘；其他：音频、视频等多媒体数据库

（2）应用：响应模型；交叉销售；价值评估；客户分群

（3）挖掘模式：预测型（Predictive）；描述型（Descriptive）

v 实际作用可分为以下几种模式：

分类：对没有分类的数据进行分类；
预测：用历史来预测未来；
关联分析：关联规则；
聚类：物以类聚；
序列模式：在多个数据序列中发现共同的行为模式;
描述和可视化：数据挖掘的结果的表示形式;
偏差分析：从数据分析中发现异常情况。

1、 数据仓库的结构 元数据、粒度、分割

（1）数据仓库的结构：

（2）元数据：关于数据的数据，用于构造、维持、管理、和使用数据仓库，在数据仓库中尤为重要。

（3）粒度：数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高，粒度越小。

（4）分割：数据分散到各自的物理单元中去，它们能独立地处理。

2、 数据仓库的清理

数据仓库主要是对不完整的、错误的、重复的数据进行清洗，经过清洗的数据就可以在数据仓库的存储层进行存储。挖掘模型

3、 挖掘模型

决策树(decision tree)：

v 决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则；

v 决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树.

关联规则(association rules)：

v 关联规则是形式如下的一种规则，“在购买面包和黄油的顾客中，有90％的人同时也买了牛奶”（面包＋黄油 → 牛奶）；

v 关联规则的“三度”：支持度、可信度、兴趣度。

聚类(clustering)：

v 聚类是根据数据的不同特征,将其划分为不同的簇（cluster）,目的是使得属于同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别（相异度）较大；

v 聚类技术大致分为五种：

ü 划分方法（partitioning method）

ü 层次方法（hierarchical method）

ü 基于密度的方法（density-based method）

ü 基于网格的方法（grid-based method）

ü 基于模型的方法（model-based method）

神经网络(Artificial Neural Networks，简记作ANN)：

v 人工神经网络，是对人类大脑系统的中模拟；

v 神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。

v 激励函数的选择和权值的调整

粗糙集(rough set)：

v 粗糙集理论是一种研究不精确、不确定性知识的数学工具；

v 粗糙集对不精确概念的描述方法是：通过上近似概念和下近似概念这两个精确概念来表示；一个概念（或集合）的下近似指的是其中的元素肯定属于该概念；一个概念（或集合）的上近似指的是其中的元素可能属于该概念。

v 粗糙集方法则有几个优点：不需要预先知道的额外信息，如统计中要求的先验概率和模糊集中要求的隶属度；算法简单，易于操作。

v 粗糙集理论在知识发现研究中有着许多具体应用，特别适合于数据之间（精确的或近似的）依赖关系发现、评价某一分类（属性）的重要性、数据相似或差异发现、数据模式发现、从数据中产生一般决策规则、削减冗余对象与属性、寻求属性的最小子集以确保产生满意的近似分类等等

概念格(concept lattice)：

概念格描述的是对象和属性之间的联系和统一，表明概念之间的泛化和例化关系，相应的Hasse图实现数据的可视化。

遗传算法(genetic algorithms)：

v 遗传算法（Genetic Algoritms，简称GA）是以自然选择和遗传理论为基础，将生物进化过程中“适者生存”规则与群体内部染色体的随机信息交换机制相结合的搜索算法；

v 遗传算法主要组成部分包括编码方案、适应度计算、父代选择、交换算子和变异算子。

序列模式(sequence pattern):

v 是指在多个数据序列中发现共同的行为模式。

v 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。

n 例如，在所有购买了激光打印机的人中，半年后80%的人再购买新硒鼓，20%的人用旧硒鼓装碳粉；

n 在所有购买了彩色电视机的人中，有60%的人再购买VCD产品；

v 在时序模式中，需要找出在某个最短时间内出现比率一直高于某一最小百分比（阈值）的规则。

贝叶斯(Bayes):

v 贝叶斯分类是统计学的分类方法，其分析方法的特点是使用概率来表示所有形式的不确定性，学习或推理都用概率规则来实现；

v 朴素贝叶斯分类：假定一个属性值对给定类的影响独立于其他属性的值；

v 贝叶斯网络：是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。

支持向量机(support vector machine，简记作SVM):

v 支持向量机（Support Vector Machine, SVM）建立在计算学习理论的结构风险最小化(SRM)原则之上。其核心问题是寻找一种归纳原则，以实现最小化风险，从而实现最佳的推广能力。而且SVM一个重要的优点是可以处理线性不可分的情况。

v 以往的机器学习理论的核心是经验风险最小化原则（ERM）

模糊集(fuzzy set)

v 模糊集：不同于经典集合，没有精确边界的集合；

v 定义：设X是对象x的集合，x是X的任一个元素。X上的模糊集合A定义为一组有序对：A＝{（x，uA(X)）|xÎX},其中uA(X)称为模糊集合A的隶属度函数（membership function,MF）MF将集合中的元素映射为0到1之间的隶属度；

v 隶属度为0，或者1，则A就退化为经典集合。

基于案例的推理(case-based reasoning，简记作CBR)

v 案例是一段带有上下文信息的知识,该知识表达了推理机在达到其目标的过程中能起关键作用的经验

4、 提高数据仓库的性能 设计步骤

数据仓库性能：使用；数据；平台；服务管理

设计步骤：自上而下；自底而上；混合的方法；数据仓库建模

5、 数据仓库的访问

数据仓库的访问经常是只读操作

6、 数据挖掘软件发展的三个阶段：

1) 独立的数据挖掘软件；

2) 横向的数据挖掘工具集；

3) 纵向的数据挖掘解决方案

7、 数据预处理的目的

数据的不完整、含观测噪声、不一致、包含其他不希望的成分等原因导致需要进行数据预处理；数据清理通过填写空缺值，平滑噪声数据，识别删除孤立点，并解决不一致来清理数据。

8、 数据预处理方法和功能

数据清理：通过填写空缺值，平滑噪声数据，识别删除孤立点，并解决不一致来清理数据；（数据清理主要解决问题：数据质量、冗余数据、过时数据、术语定义的变化）
数据规约：通过聚集、删除冗余特性或聚类等方法来压缩数据。

常用的方法:

ü 数据立方体聚集

ü 维归约

ü 数据压缩

ü 数值归约

ü 离散化

ü 概念分层产生

数据变换：就是将数据进行规范化和聚集。

n 规范化可以改进涉及距离度量的挖掘算法的精度和有效性。常用的方法有平滑（包括分箱、聚类和回归）来去掉噪声数据；

n 聚集来对数据进行汇总；数据概化使用高层次概念替换低层次“原始”数据来进行概念分层；规范化将属性数据按比例缩放，使之落入一个小的特定区间；属性构造（特征构造）来帮助提高精度和对高维数据结构的理解。

数据集成：关键是获取数据，如访问数据仓库。通过如下几种方法访问数据：

1）通过基于事务的关系数据库或基于PC的数据库访问数据

2）通过数据转换工具访问数据

3）用查询工具访问数据

4）从平面文件中访问数据

9、 数据清理

a、数据清理的重要性：污染数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务；垃圾进、垃圾出。

b、数据清理处理内容：格式标准化、异常数据清除、错误纠正、重复数据的清除。

10、 数据集成和变换

（1） 数据集成：

a、定义：将多个数据源中的数据结合起来存放在一个一直得数据存贮中。

b、实体识别：实体和模式的匹配；

c、冗余：某个属性可以由别的属性推出。

（1）相关分析

（2）相关性rA,B .

i. rA,B>0,正相关。A随B的值得增大而增大
ii. rA,B>0,正相关。AB无关
iii. rA,B>0,正相关。A随B的值得增大而减少

d、重复：同一数据存储多次

e、数据值冲突的检测和处理

（2）数据变换：平滑；聚集；数据概化；规范化；属性构造(特征构造)

11、 数据规约

a、数据集的压缩表示，但是能和原始数据集达到相同或基本相同的分析结果

b、主要策略

数据（立方体）聚集：寻找有兴趣的维度进行再聚集；

维规约：删除不相关的属性（维）来减少数据量；

数据压缩：有损，无损；小波变换：1）将数据向量D转换成为数值上不同的小波系数的向量D’.；2）对D’进行剪裁，保留小波系数最强的部分。

数值规约：回归和对数线形模型：线形回归、对数线形模型；直方图：等宽、等深、V-最优、maxDiff。

聚类：多维索引树：对于给定的数据集合，索引树动态的划分多维空间。

选样：简单选择n个样本，不放回；简单选择n个样本，放回；聚类选样；分层选样

12、 序列模式

（1）定义：给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，每个元素由不同项目组成，同时给定一个用户指定的最小支持度阈值，序列模式挖掘就是找出所有的频繁子序列，即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值

（2）实例：例1：在两年前购买了Ford 牌轿车的顾客，很有可能在今年采取贴旧换新的购车行动；例2：在购买了自行车和购物篮的所有客户中，有70%的客户会在两个月后购买打气筒；例3：工业过程控制领域：过程变量采样值时时间序列；变量之间的关系是动态的；系统故障模式；等等

（3）序列模式应用领域：客户购买行为模式预测；Web访问模式预测；疾病诊断；自然灾害预测；DNA序列分析；工业控制

（4）序列模式表示（符号化表示）：

a) 项目集(Itemset)是各种项目组成的集合

b) 序列(Sequence)是不同项目集(ItemSet)的有序排列，序列s可以表示为s = <s1s2…sl>，sj(1 <= j <= l)为项目集(Itemset)，也称为序列s的元素

c) 序列的元素(Element)可表示为(x1x2…xm)， xk(1 <= k <= m)为不同的项目，如果一个序列只有一个项目，则括号可以省略

d) 一个序列包含的所有项目的个数称为序列的长度。长度为l的序列记为l-序列

例子：

（a）设a = <a1a2…an>，b = <b1b2…bm>，如果存在整数1 <= j1 < j2 <…< jn <= m，使得a1 Í bj1，a2 Í bj2，…， an Í bjn，则称序列a为序列b的子序列，又称序列b包含序列a，记为a Í b

（b）序列a在序列数据库S中的支持数为序列数据库S中包含序列a的序列个数，记为Support(a)

（c）给定支持度阈值x，如果序列a在序列数据库中的支持数不低于x，则称序列a为序列模式

（d）长度为l的序列模式记为l-模式

（5）序列模式挖掘

l 问题描述：给定序列数据库和最小支持度阈值，序列模式挖掘就是要找出序列数据库中所有的序列模式

l 系统规定：由于同一个元素中的项目之间排列没有顺序，为了表达的唯一性，我们将同一个元素内部的不同项目按照字典顺序排列

13、 数据挖掘的知识类型

ü 规则知识

u 规则知识由前提条件和结论两部分组成

u 前提条件由字段项（属性）的取值的合取（与Ù）和析取（或Ú）组合而成。

u 结论为决策字段项（属性）的取值或者类别组成。

ü 决策树知识

ü 知识基（浓缩数据）

ü 神经网络权值

神经网络方法经过对训练样本的学习后，所得到的知识是网络连接权值和结点的阈值。一般表示为矩阵和向量

ü 公式知识

14、 关联知识及概念

关联规则挖掘：在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。

应用：购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。

15、 关联规则

关联规则是发现交易数据库中不同商品（项）之间的联系，这些规则找出顾客购买行为模式。

定义1：关联规则是形如A®B的蕴涵式，这里AÌI，BÌI，并且AÇB=F。

关联规则的挖掘一般分为两个过程：

（1）找出所有的频繁项集：找出支持度大于最小支持度的项集，即频繁项集。

（2）由频繁项集产生关联规则：根据定义，这些规则必须满足最小支持度和最小可信度。

n 可信度是对关联规则地准确度的衡量。

n 支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性。有些关联规则可信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，因此也不重要。

n 兴趣度（作用度）描述了项集A对项集B的影响力的大小。兴趣度（作用度）越大，说明项集B受项集A的影响越大。

16、 预测型知识概念 发现方法

17、 异常

（1）定义：Hawkins(1980)给出了异常的本质性的定义：异常是在数据集中与众不同的数据，使人怀疑这些数据并非随机偏差，而是产生于完全不同的机制；聚类算法对异常的定义：异常是聚类嵌于其中的背景噪声；异常检测算法对异常的定义：异常是既不属于聚类也不属于背景噪声的点。他们的行为与正常的行为有很大不同。

（2）异常检测：异常检测是数据挖掘中一个重要方面，用来发现”小的模式”(相对于聚类)，即数据集中间显著不同于其它数据的对象。异常探测应用：电信和信用卡欺骗；贷款审批；药物研究；气象预报；金融领域；客户分类；网络入侵检测；故障检测与诊断等。

（3）异常检测方法的分类：

基于统计（statistical-based)的方法；

基于距离 (distance-based)的方法；

基于偏差(deviation-based)的方法；

基于密度(density-based)的方法；

高维数据的异常探测

18、 数据挖掘算法的三要素

（1）模式记述语言：反映了算法可以发现什么样的知识

（2）模式评价：反映了什么样的模式可以称为知识

（3）模式探索：包括针对某一特定模式对参数空间的探索和对模式空间的探索

19、 数据挖掘系统（几个阶段）

l 第一代数据挖掘系统

支持一个或少数几个数据挖掘算法，这些算法设计用来挖掘向量数据（vector-valued data），这些数据模型在挖掘时候，一般一次性调进内存进行处理。许多这样的系统已经商业化。

l 第二代数据挖掘系统

目前的研究，是改善第一代数据挖掘系统，开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库，和它们具有高性能的接口，具有高的可扩展性。例如，第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式（data mining schema）和数据挖掘查询语言（DMQL）增加系统的灵活性。

l 第三代数据挖掘系统

第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据，并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别（first class）的支持。

l 第四代数据挖掘系统

第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在（ubiquitous）计算设备产生的各种类型的数据。

20、 数据挖掘常用算法

分类（Classification）：预测分类标号（或离散值）；根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据；
预测：建立连续函数值模型，比如预测空缺值
聚类(Clustering)：每个簇中的数据用其中心值代替；忽略孤立点；先通过聚类等方法找出孤立点，这些孤立点可能包含有用的信息；人工再审查这些孤立点
相关规则(Association Rule)；
回归(Regression)；
其他

21、 使用候选相找频繁项知(Apiori)

Apriori是挖掘关联规则的一个重要方法。

u 算法分为两个子问题：

找到所有支持度大于最小支持度的项集（Itemset），这些项集称为频繁集（Frequent Itemset）。
使用第1步找到的频繁集产生规则。

u Apriori 使用一种称作逐层搜索的迭代方法，“K-项集”用于探索“K+1-项集”。

首先，找出频繁“1-项集”的集合。该集合记作L₁。L₁用于找频繁“2-项集”的集合L₂，而L₂用于找L₃，
如此下去，直到不能找到“K-项集”。找每个L_K需要一次数据库扫描。

u 性质：频繁项集的所有非空子集都必须也是频繁的。

u 如果项集B不满足最小支持度阈值min-sup，则B不是频繁的，即

n P（B）<min-sup。

u 如果项A添加到B，则结果项集（即BA）不可能比B更频繁出现。因此，BA也不是频繁的，即

n P（BA）<min-sup。

22、 决策树算法及相关概念

决策树提供了一种展示类似“在什么条件下会得到什么值”这类规则的方法。决策树中最上面的节点称为根节点，是整个决策树的开始。

决策树是一个类似树形结构的流程图，每个内部节点表明在一个属性上的测试，树枝描述测试结果，叶子节点指明分类或分类的分布情况。

¨ 构造决策树的方法采用自上而下递归的方式，如果训练例子集合中的所有例子是同类的，就将其作为一个叶子节点，节点内容为该类别的标记。

¨ 否则，根据某种策略确定一个测试属性，并按属性的各种取值把实例集合划分为若干个子集合，使每个子集上的所有实例在该属性上具有相同的属性值。

¨ 然后，再依次递归处理各个子集，直到得到满意的分类属性为止。

23、 聚类分析：把一个给定的数据对象集合分成不同的簇；

聚类是一种无监督分类法: 没有预先指定的类别；

典型的应用

作为一个独立的分析工具，用于了解数据的分布；
作为其它算法的一个数据预处理步骤；

应用聚类分析的例子：

市场销售: 帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划；
土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区；

24、 几种聚类分析方法

统计分析方法，机器学习方法，神经网络方法等

25、 模糊集

模糊集：不同于经典集合，没有精确边界的集合（允许在分类规则中定义“模糊的”临界值或边界）

定义：设X是对象x的集合，x是X的任一个元素。X上的模糊集合A定义为一组有序对：A＝{（x，uA(X)）|xÎX},其中uA(X)称为模糊集合A的隶属度函数（membership function,MF）MF将集合中的元素映射为0到1之间的隶属度；隶属度为0，或者1，则A就退化为经典集合。

26、 聚类方法性能评价

簇（Cluster）:一个数据对象的集合

ü 在同一个类中，对象之间0具有相似性；

ü 不同类的对象之间是相异的。

一个好的聚类方法要能产生高质量的聚类结果——簇，这些簇要具备以下两个特点：高的簇内相似性；低的簇间相似性
聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现；
聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式；
可伸缩性
能够处理不同类型的属性
能发现任意形状的簇
在决定输入参数的时候，尽量不需要特定的领域知识；
能够处理噪声和异常
对输入数据对象的顺序不敏感
能处理高维数据
能产生一个好的、能满足用户指定约束的聚类结果
结果是可解释的、可理解的和可用的

知识点：

27、数据仓库内的数据特点、访问时间要求

28、数据仓库的数据驱动

29、人工神经网络

30、数据分割

31、数据加载处理

32、关联规则，OLAP

33、商务智能

34、数据仓库的管理层

35、数据仓库环境支持层

36、粒度、数据粒度划分

37、数据挖掘过程

38、数据仓库系统集成测试

39、元数据、数据库的元数据和数据仓库元数据、数据模型建立与应用

40、知识发现系统的结构

41、数据仓库的元数据模型建立与应用。

42、数据仓库的数据特点

43、 数据预处理、数据清理、数据规约、遗传算法

（1）数据预处理

a、为什么需要预处理：数据不完整、含观测噪声、不一致、包含其他不希望的成分；数据清理通过填写空缺值，平滑噪声数据，识别删除孤立点，并不解决不一致来清理数据。

b、污染数据形成的原因：滥用缩写词；数据输入错误；数据中的内嵌控制信息；不同的惯用语；重复记录；丢失值；拼写变化；不同的计量单位；过时的编码；含有各种噪声。

（2）数据清理

a、数据清理的重要性：污染数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务；垃圾进、垃圾出。

b、数据清理处理内容：格式标准化、异常数据清除、错误纠正、重复数据的清除。

（3）数据规约

a、数据集的压缩表示，但是能和原始数据集达到相同或基本相同的分析结果

b、主要策略:数据聚集、维规约、数据压缩、数值规约