数据挖掘笔记(1)-概念、数据准备

一.概念：

数据挖掘：运用基于计算机的方法，从数据中获得有用之时的整个过程。

两个基本目标：预测和描述。

数据挖掘的基本任务：（1）分类（2）回归（3）聚类（4）总结概括（5）关联建模（6）变化和偏差检测

数据挖掘的过程：陈述问题，阐明假设->收集数据->预处理数据->模型评估(挖掘数据)->解释模型，得出结论

数据仓库的开发过程概括为3个阶段：建模、构建和部署

完成数据挖掘所耗费的精力：数据准备>商业目标>数据挖掘>巩固结果

二：数据准备

2.1 原始数据的表示

数据样本是数据挖掘的基本组成部分。每个样本都用几个特征来描述，每个特征都用不同类型的值。两种常见的类型数值型和分类型。

数值型值包括实型变量和整型变量，如年龄、速度或长度。数值型特征有两个重要的属性：其值有顺序关系和距离关系。

分类型（长叫做符号型）变量没有上述两种关系，分类型变量的两个值可以相等或不等。它们只建立一种等同关系，例如:眼睛颜色、性别、国籍。

具有n个值的分类型变量可以转换成n个二进制数值型变量，即一个二进制数值对应分类型变量的一个值。

另一种基于变量值的变量分类方法是，根据它是连续性变量还是离散型变量来分类。连续型变量也称为定量型或度量型变量。在大型数据集

中，连续型变量用实型或整型值来表示。离散型变量也叫定性型变量。一种特殊的离散型变量是周期变量。

最后，另一种数据分类维度是基于数据与时间有关的行为特征。大多数数据挖掘方法更适合静态数据，挖掘动态数据时，常常需要特殊的考虑

和预处理。

产生大多数数据挖掘问题的原因是，大量的样本具有不同类型的特征。此外，这些样本往往是高维度的，这就意味着它们有极多的可测量特征

。在高维度空间中密度和两点间距离的传统含义改变了，因此需要重新考虑、评估传统概念。

2.2 原始数据的特征

杂乱的数据来源和含义；根据已有的数据甚至丢失的数据来建模。失真数据、方法上错误的步骤选择、滥用数据挖掘工具、模型过于理想化、

未考虑数据中各种不确定性和模糊性的模型-----所有的这些都可能导致数据挖掘方向性错误。

数据挖掘中一个最关键的步骤是初始数据集的准备和转换。

数据准备阶段有两个中心任务：

（1）把数据组织成一种标准形式，以便于数据挖掘工具和其他基于计算机的工具处理（标准形式是一个关系表）。

（2）准备数据集，使其能得到最佳的数据挖掘效果。

2.3 原始数据转换

标准化、数据平整、差值和比率

2.4 对丢失数据的处理

对带有和不带有丢失值的特征生成多种数据挖掘解决方案，然后对他们进行分析和解释。

2.5 时间相关数据

2.6 异常点分析

异常点定义：在大型数据集中通常有一些不符合数据模型的一般规则，这些样本和数据集中的其他数据有很大的不同或不一致，叫做异常点。

异常点的检测方案的主要类型有：

图形或可视化技术、基于统计的技术、基于距离的技术、基于模型的技术（这几种方法的具体介绍略）