基于数据挖掘的人口变动规律1

摘要

1.通过属性规约和属性相关分析对数据进行预处理

2.对预处理后的属性采用信息增益方法构建决策树

3.对决策树表示的知识利用决策表的规则合并方法进行合并

4.最终得出人口变动规律:未婚的高学历人口和未婚、低学历的年轻人口有较高的流动率,老年人口流动率较低,其他人口流动率一般。

引言

什么是数据挖掘?

数据挖掘是从大量不完全,有噪声,模糊,随机的数据中提取隐含在其中的人们事先不知道的,但有用的信息和知识的过程。

数据预处理

为什么进行数据预处理?

由于人口数据中存在着许多与数据挖掘任务不相关,冗余的属性,这些属性可能会减慢数据挖掘的进程,因此需要删除。

属性子集选择

进行属性子集选择,通过删除不相关或冗余的属性来减少数据量。目的是为了找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

如何进行属性子集选择?

通常使用压缩搜索空间的启发式算法(贪心算法)。策略是做局部最优选择,期望由此导致全局最优解。

使用以下技术:

1.逐步向前选择:由空属性集作为归约集开始,确定原属性集中最好的属性,将其添加到归约集。然后进行迭代。

2.逐步向后删除:该过程由整个属性集开始。

3.逐步向前选择和逐步向后删除的组合

4.决策树归纳

属性规约(AOI)

操作:

①属性消除:它基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且(a)该属性无法进行泛化操作(如:没有定义相应的概念层次树),或(b)它更高层次概念是用其它属性描述的,这时该属性就可以从数据集中消去.

②属性泛化:它是基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且该属性存在一组泛化操作,则可以选择一个泛化操作对该属性进行处理。

控制泛化过程的方法:

①属性泛化阈值控制:该技术就是对所有属性统一设置一个泛化阈值,或每个属性分别设置一个阈值;若一个属性不同取值个数大于属性泛化阈值,就需要对相应属性作进一步的属性消减或属性泛化操作。数据挖掘系统通常都有一个缺省属性阈值(一般从2到8)

②泛化关系阈值控制:若一个泛化关系中内容不相同的行数(元组数)大于泛化关系阈值,这就需要进一步进行相关属性的泛化工作。否则就不需要作更进一步的泛化。通常数据挖掘系统都预置这一阈值(一般为10到30)

这两个技术可以串行使用,即首先应用属性阈值控制来泛化每个属性;然后再应用泛化关系阈值控制来进一步减少泛化关系的(规模)大小。

属性构造

根据已有属性集构造新的属性,以帮助数据挖掘过程。

构造属性:变动状态。

属性相关分析

确定了目标变量后,需要进行关联度分析,删除那些与目标变量变动状态无关的变量。最终确定可用于数据挖掘的属性。

决策树的构建

选择具有最高信息增益的属性作为当前节点的判断属性。

规则提取与知识发现

数据挖掘的最终目标是知识发现,因此需要对上面的决策树进行规则提取,清晰地表达出新的知识。将决策树转换成相应的决策表。并且可以进一步优化。

结论

根据优化后的决策表得到结论。

2017-10-14

原文地址:https://www.cnblogs.com/helloluo/p/7667574.html