数据挖掘之关联分析的基本概念

6.关联分析

6.1.Problem Definition

　　关联分析（Association Analysis）是指从大量的数据集中，搜索出有强关联的规则（Rule），但是这个计算过程通常计算成本很高。建立关联规则的两个重要判据是：Support以及Confidence。Support简单地讲，就是指在数据集中，包含规则中所有Item的条目越多，Support越大，就越能够排除偶然因素的影响。而Confidence则是，当规则前件出现时，规则后件出现地越多，Confidence越大。我们在关联分析中所要做的工作，就是找出所有超过特定阈值的关联规则。

　　但是对于一个条目，它包含了许多个Item，理论上所能够构成的规则特别多，如何有效快速地从这些规则中筛选出那些有用的规则是关联分析的重点。因此，我们通常将关联分析分成两部分：（1）Frequent Itemset Generation，从可能的Itemset中找出比较频繁出现的那些Itemset；（2）Rule Generation：则是在（1）之后，形成强关联规则。

6.2.Frequent Itemset Generation

　　这部分工作的计算复杂度高，我们通常用来减少（1）候选itemset的个数；（2）减少比较的次数来降低计算复杂度。

6.2.1.The Apriori Principle

作者：Chenny Chen
出处：http://www.cnblogs.com/XjChenny/
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。