笔记（1）：数据挖掘导论

数据挖掘的概念

概念

数据挖掘是从海量数据中发现知识的过程。
很多人把数据挖掘视为另一个流行术语数据中的知识发现（KDD）的同义词，而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。

知识发现步骤

数据清理：消除噪声和删除不一致数据
数据集成：多种数据源可以组合在一起
数据选择：从数据库中提取与分析人物相关的数据
数据变换：通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式
数据挖掘：基本步骤，使用智能方法提取数据模式
模式评估：根据某种兴趣度度量，识别代表知识的真正有趣的模式
知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

可以挖掘什么类型的数据

数据库数据

当数据挖掘用于关系数据库时，可以进一步搜索趋势或数据模式。
关系数据库是数据挖掘的最常见、最丰富的信息源，因此它是我们数据挖掘研究的一种主要数据形式。

数据仓库

数据仓库是一个从多个数据源手机的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。
数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
为便于决策，数据仓库中的数据围绕主题（如顾客、商品、供应商和活动）组织。数据存储从历史的角度提供信息，并且通常是汇总的。
数据仓库用称作数据立方体的多维数据结构建模。其中，每个维对应于模式中的一个或一组属性，而每个单元存放某种聚集度量值。
联机分析处理（OLAP）是数据仓库系统的主要应用，用于支持复杂的分析操作，允许在不同的汇总级别对数据进行汇总。

事务数据

事务数据库的每个记录代表一个事务，如：顾客的一次购物、一个航班订票，或一个用户的网页点击。
通常一个事务由一个唯一标识事务的事务编号和一个事务项构成。

数据矩阵

数据矩阵中的数据对象的所有属性都是具有相同性质的数值型数据

图和网状数据

图和网状数据通常用来表达不同节点之间的联系，比如人际关系网、网站之间的相互链接关系等。

其他类型的数据

与时间相关的序列数据、数据流数据、空间数据、超文本和多媒体数据等

可以挖掘什么类型数据

存在大量数据挖掘功能，包括特征化与区分，频繁模式、关联和相关性挖掘、分类与回归，聚类分析，离群点分析。
数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言，这些任务可以分成两类：描述性和预测性。
描述性任务刻画目标数据中数据的一般性质。
预测性任务在当前数据上进行归纳，以便做出预测。

类/概念描述：特征化与区分

数据特征化：是目标类数据的一般特性或特征的汇总
数据区分：是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较

挖掘频繁模式、关联和相关性

频繁模式是在数据中频繁出现的模式。
存在多种类型的频繁模式，包括频繁项集、频繁子序列和频繁子结构
频繁项集：频繁在事务数据中一起出现的商品集合（例如：在超市的销售中哪些商品会频繁地一起被购买）
关联与相关性：典型的关联规则

分类与回归

分类：找出描述和区分数据类型或概念的模型，以便能够使用模型预测类标号未知的对象的类标号
回归：预测缺失的或难以获得的数值数据值，而不是离散的类标号
相关分析：可能需要再分类和回归之前进行，它试图识别与分类和回归过程显著相关的属性。我们将选取这些属性用于分类和回归过程，其他属性是不相关的，可以不必考虑

聚类分析

不像分类和回归分析标记类的训练数据集，聚类分析数据对象，而不考虑类标号。
对象根据最大化类内相似性、最小化类间相似性的原则进行聚类

离群点分析

离群点：全局或局部范围内偏离一般水平的观察对象（例如：信用卡使用异常）

数据挖掘使用的技术

统计学

统计学是通过对数据进行收集、整理、分析和描述，来达到对研究对象本质的理解和表示的目的的学科。
在实际生活中，通常有一些过程通过理论分析直接获得模型，但可以通过直接和间接测量的方法获得描述目标对象的相关变量的具体数据，用来刻画这些变量之间的关系的数学函数称为统计模型。

机器学习

机器学习主要研究计算机如何像人类学习知识那样自主地分析和处理数据，做出智能的判断，通过获得的新的知识对自身进行发展和完善。

监督学习：分类的过程，有标签
无监督学习：聚类的过程，无标签
半监督学习：考虑如何利用少量有标记的数据和大量未标记的数据来进行学习，其中标记的数据用来学习模型，而未标记的数据用来进一步改进类的边界

数据库系统与数据仓库

数据库系统：为了解决数据处理方面的问题而建立起来的数据处理系统，注重于为用户创建、维护和使用数据库。
数据仓库：汇集了来自多个不同数据源的数据，通过数据仓库，可以在不同维度合并数据，形成数据立方体，便于从不同的角度对数据进行分析和挖掘。

模式识别

本质就是抽象出不同事物中的模式，并根据这些模式对事物进行分类或聚类的过程

高性能计算

突破单个计算机资源不足的限制，使用多个处理器或多台计算机共同完成同一项任务的计算环境