基于数据挖掘的人口变动规律1

摘要

1.通过属性规约和属性相关分析对数据进行预处理

2.对预处理后的属性采用信息增益方法构建决策树

3.对决策树表示的知识利用决策表的规则合并方法进行合并

4.最终得出人口变动规律：未婚的高学历人口和未婚、低学历的年轻人口有较高的流动率，老年人口流动率较低，其他人口流动率一般。

什么是数据挖掘？

数据挖掘是从大量不完全，有噪声，模糊，随机的数据中提取隐含在其中的人们事先不知道的，但有用的信息和知识的过程。

为什么进行数据预处理？

由于人口数据中存在着许多与数据挖掘任务不相关，冗余的属性，这些属性可能会减慢数据挖掘的进程，因此需要删除。

进行属性子集选择，通过删除不相关或冗余的属性来减少数据量。目的是为了找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

如何进行属性子集选择？

通常使用压缩搜索空间的启发式算法（贪心算法）。策略是做局部最优选择，期望由此导致全局最优解。

使用以下技术：

1.逐步向前选择：由空属性集作为归约集开始，确定原属性集中最好的属性，将其添加到归约集。然后进行迭代。

2.逐步向后删除：该过程由整个属性集开始。

3.逐步向前选择和逐步向后删除的组合

4.决策树归纳

操作：

①属性消除：它基于以下规则进行：若一个属性（在初始数据集中）有许多不同数值，且（a）该属性无法进行泛化操作（如：没有定义相应的概念层次树），或（b）它更高层次概念是用其它属性描述的，这时该属性就可以从数据集中消去.

②属性泛化：它是基于以下规则进行：若一个属性（在初始数据集中）有许多不同数值，且该属性存在一组泛化操作，则可以选择一个泛化操作对该属性进行处理。

控制泛化过程的方法：

①属性泛化阈值控制：该技术就是对所有属性统一设置一个泛化阈值，或每个属性分别设置一个阈值；若一个属性不同取值个数大于属性泛化阈值，就需要对相应属性作进一步的属性消减或属性泛化操作。数据挖掘系统通常都有一个缺省属性阈值（一般从2到8）

②泛化关系阈值控制：若一个泛化关系中内容不相同的行数（元组数）大于泛化关系阈值，这就需要进一步进行相关属性的泛化工作。否则就不需要作更进一步的泛化。通常数据挖掘系统都预置这一阈值（一般为10到30）

这两个技术可以串行使用，即首先应用属性阈值控制来泛化每个属性；然后再应用泛化关系阈值控制来进一步减少泛化关系的（规模）大小。

根据已有属性集构造新的属性，以帮助数据挖掘过程。

构造属性：变动状态。

确定了目标变量后，需要进行关联度分析，删除那些与目标变量变动状态无关的变量。最终确定可用于数据挖掘的属性。

选择具有最高信息增益的属性作为当前节点的判断属性。

数据挖掘的最终目标是知识发现，因此需要对上面的决策树进行规则提取，清晰地表达出新的知识。将决策树转换成相应的决策表。并且可以进一步优化。

根据优化后的决策表得到结论。

2017-10-14