数据挖掘之关联分析三(规则的产生)

规则产生

忽略那些前件和后件为空的规则,每个频繁k项集能够产生(2(2^k-1))个关联规则。将频繁项集Y划分为两个非空子集X和Y-X,使得(X o Y-X)能满足置信度阈值,就可以得到满足条件的规则。
在计算规则的置信度时并不需要再次扫描事务数据集,因为产生规则的频繁项集和它们的子集也都是频繁项集,我们在提取频繁项集时,已经计算过它们的支持度计数,因而不需要再扫描所有的数据集。

基于置信度的剪枝

置信度不像支持度那样具有任何单调性。但是具有以下定理
定理:如果规则(X o Y-X)不满足置信度阈值,则形如$ X' o Y-X'$的规则也一定不满足置信度阈值,其中X'是X的子集。X'的支持度计数根据置信度计算公式可推理得到

Apriori算法中规则的产生

Apriori算法使用一种逐层方法来产生关联规则,其中层数对应于规则的构建中的项数。初始提取规则后件只有一个项的所有高置信度规则,然后使用这些规则来产生新的候选规则。

如果$ {acd} o {b} (和) {abd} o {c} (是两个高置信度的规则,则通过合并两个规则的后件产生候选规则,如果格中的任意结点置信度较低,则根据定理应该剪去该枝,假设) {bcd} o a $具有较低的置信度,则根据定理的条件剪去左右子集的枝。


数据挖掘之关联分析一(基本概念)
数据挖掘之关联分析二(频繁项集的产生)
数据挖掘之关联分析三(规则的产生)
数据挖掘之关联分析四(连续属性处理)
数据挖掘之关联分析五(序列模式)
数据挖掘之关联分析六(子图模式)
数据挖掘之关联分析七(非频繁模式)

原文地址:https://www.cnblogs.com/beaver-sea/p/4740830.html