算法学习笔记：关联分析（转）

刚接触数据挖掘，就免不了要听到沃尔玛的啤酒与尿布的典故，是不是真的就不知道了，确定的是这个典故用的就是关联分析。

一、概念理解

置信度、支持度、提升度是评价关联规则的三个重要指标。

样本100，条件A=》结果B，A：60，B40，同时发生A和B：30

则：

条件支持度=P(A)=条件A60/样本100=0.6

结果支持度=P(B)=结果B40/样本100=0.4(在sas中称为预期置信度)

规则支持度=P(A&B)=30/100=0.3

规则置信度=P(B|A)=P(A&B)/P(A)=30/60=0.5,即同时发生的记录数除以样本数，

提升度=P(B|A)/P(B)=0.5/0.4=1.25

，注意不要混淆了条件支持度和规则支持度，网文好多只说支持度，实际上有的指的条件支持度、有的值规则支持度，我今天搞了一早上才恍然大悟，效率低啊，自我鄙视一下。

在spss的apriori的运行结果中还有部署能力的概念，观察了一下，发现：部署能力=条件支持度-规则支持度，就是说还有多少人有发展空间，比如有10人，符合条件的有7人，同时如何条件和结果的有4人，那部署能力就是7-4=3人了。

二、算法

关联分析基本就是Apriori算法，没用过其他的。

apriori算法的具体实现就不说，暂时我也说不清楚，我只追求会用，不求甚解，只知道大概步骤就是：1、根据设置的条件支持度找出频繁项集；2、分析找出来的这些频繁项集，得出规则；3、找出大于或等于给定置信度的规则。

一般各个dm软件跑apriori算法的时候都需要设置：最小条件支持度，最小规则置信度，有的还需要设置最大前项数，spss的modeler就需要设置这三个。