【数据挖掘技术】关联规则（Apriori算法）

一、关联规则中的频繁模式

关联规则（Association Rule）是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型，关联规则数据挖掘的主要目的是找出：

【频繁模式】：
Frequent Pattern，即多次重复出现的模式和并发关系（Cooccurrence Relationships），即同时出现的关系，频繁和并发关系也称为关联（Association）.

二、应用关联规则的经典案例：沃尔玛超市中“啤酒和尿不湿”的经典营销案例

购物篮分析（Basket Analysis）:通过分析顾客购物篮中商品之间的关联，可以挖掘顾客的购物习惯，从而帮助零售商可以更好地制定有针对性的营销策略。

以下列举一个最简单也最经典的关联规则的例子：婴儿尿不湿—>啤酒[支持度=10%,置信度=70%]

这个规则表明，在所有顾客中，有10%的顾客同时购买了婴儿尿不湿和啤酒，而在所有购买了婴儿尿不湿的顾客中，占70%的人同时还购买了啤酒。发现这个关联规则后，超市零售商决定把婴儿尿不湿和啤酒摆在一起进行销售，结果明显提高了销售额，这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。

三、支持度（Support）和置信度（Confidence）

事实上，支持度和置信度是衡量关联规则强度的两个重要指标，他们分别反映着所发现规则有用性和确定性。

【支持度】
        规则X->Y的支持度：事物全集中包含X U Y的事物百分比。Support（A B）= P（A B）
 
        支持度主要衡量规则的有用性，如果支持度太小，则说明相应规则只是偶发事件，在商业实践中，偶发事件很可能没有商业价值。

【置信度】
        规则X->Y的置信度：既包括X又包括Y的事物占所有包含了X的事物数量的百分比。Confidence（A B）= P（B|A）

        置信度主要衡量规则的确定性（可预测性），如果置信度太低，那么从X就很难可靠的推断出Y来，置信度太低的规则在实践应用中也没有太大用途。

四、Apriori算法

【基本概念】

1 【资料库（Transaction Database）】：存储着二维结构的记录集（D)；
2 【所有项集（Items）】：所有项目的集合(I)；
3 【记录 （Transaction ）】：在资料库里的一笔记录(T,T属于D);
4 【项集（Itemset）】：同时出现的项的集合。定义为：k-itemset（k项集），k-itemset ? T。除非特别说明，否则下文出现的k均表示项数；
5 【候选 集（Candidate itemset）】：通过向下合并得出的项集。定义为C[k]；
6 【强规则】：经过关联规则分析后，针对某些人推销（根据某规则）比盲目推销（一般来说是整个数据）的比率，这个比率越高越好；
7 【剪枝步】只有当子集都是频繁集的候选集才是频繁集，这个筛选的过程就是剪枝步；

Apriori算法是众多的关联规则数据挖掘算法中最著名的算法，其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。

该算法具体分为以下两步进行：

生成所有的频繁项目集。一个频繁项目集（Frequent Itemset）是一个支持度高于最小支持度阀值（min-sup）的项目集。
从频繁项目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值（min-conf）的规则。

然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递归的方法。

 【Apriori算法】
      Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。
      step1: 通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1;
      step2: 利用L1找频繁2项集的集合L2;
      step3: L2找L3，
      ...
      stepn: 如此下去，直到不能再找到任何频繁k项集。
      最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。

其中，Apriori算法具有这样一条性质：任一频繁项集的所有非空子集也必须是频繁的。因为假如P(I)< 最小支持度阈值，当有元素A添加到I中时，结果项集（A∩I）不可能比I出现次数更多。因此A∩I也不是频繁的。

然而，可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。

五、关联规则算法的用途

关联规则算法不但在数值型数据集的分析中有很大用途，而且在纯文本文档和网页文件中，也有重要作用。比如发现单词间的并发关系以及Web的使用模式等，这些都是Web数据挖掘、搜索及推荐的基础。