Weka学习之关联规则分析

步骤：

（一）选择数据源

（二）选择要分析的字段

（三）选择需要的关联规则算法

（四）点击start运行

（五）分析结果

算法选择：

Apriori算法参数含义

1.car：如果设为真，则会挖掘类关联规则而不是全局关联规则。
2.classindex：类属性索引。如果设置为-1，最后的属性被当做类属性。
3.delta：以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。
4.lowerBoundMinSupport：最小支持度下界。
5.metricType：度量类型，设置对规则进行排序的度量依据。可以是：置信度（类关联规则只能用置信度挖掘），提升度(lift)，杠杆率(leverage)，确信度(conviction)。
在 Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度，它们分别是：
a)Lift ： P(A,B)/(P(A)P(B)) Lift=1时表示A和B独立。这个数越大(>1)，越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度.
b)Leverage :P(A,B)-P(A)P(B)
Leverage=0时A和B独立，Leverage越大A和B的关系越密切
c) Conviction:P(A)P(!B)/P(A,!B) （!B表示B没有发生） Conviction也是用来衡量A和B的独立性。从它和lift的关系（对B取反，代入Lift公式后求倒数）可以看出，这个值越大, A、B越关联。
6.minMtric ：度量的最小值。
7.numRules：要发现的规则数。
8.outputItemSets：如果设置为真，会在结果中输出项集。
9.removeAllMissingCols：移除全部为缺省值的列。
10.significanceLevel ：重要程度。重要性测试（仅用于置信度）。
11.upperBoundMinSupport：最小支持度上界。从这个值开始迭代减小最小支持度。
12.verbose：如果设置为真，则算法会以冗余模式运行。

FPgrowph决策树算法

FP的全称是Frequent Pattern，在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。

http://www.cnblogs.com/tomcattd/p/3478678.html