Mining Sequential Patterns by PrefixSpan算法

prefixspan算法韩家炜老师在2001年提出的序列模式算法，该算法和他在2000提出的FP_growth算法有很大的相似之处，都避免产生候选序列。

prefixspan算法的核心是产生前缀和对应的后缀，每次递归都将合适的后缀变为前缀。难点是类似：<a x>，<(a x)>和<(_ x)>，后两种可以做一类处理。现以下图所示的超市购物数据详细讲解，阈值是2=4*50%。

概念介绍：每行数据叫序列，可以理解某人第一天买了商品a,b,c,第二天又买了商品a,b,c，第三天买了商品a,c。某天买的总商品叫项目如：a,b,c。每件商品叫元素如a。

第一步：按每个元素排序，每个元素在一个序列中即使出现多次，也只算一次，然后删除不满足阈值的元素，这里只删除了元素g,结果如下图：

第二步：找前缀分别为a,b,c,d,e,f的后缀，那么这些后缀是相互独立，互不影响的。这是算法的关键。前缀a和b的后缀如下图：

这里的下划线"_"表示它就是前缀，并且该项目还有其他元素。

第三步：在各个后缀中分别递归的讲后缀变成前缀。以前缀a为例。前缀为<a b>的后缀是：

后面的4表示前缀为<a b>出现了4次，分别是下面两次,第三次是空的，表示前缀<a b>后面没有项目了。前缀为<(a b)>的后缀是：

注意前缀<a b>和<(a b)>是有区别的。前者表示元素a,b在不同的项目里面，而后者表示元素a,b必须在同一个项目里面。这代表了两种不同的情况。这一步可以一直递归下去，知道全部后缀变成前缀为止。下面就前缀<a b>继续分析，它会生成前缀为<a b c>的后缀：

此时，再没有合适的后缀可以转换成前缀了，结束递归。前缀为<a (b c)>的后缀：

这个后缀还可以继续转换成前缀，有：

此时，再没有合适的后缀可以转换成前缀了，结束递归。于是整个前缀为<a b>的所有情况的找出来了。类似的可以找出前缀为b,c,d,e,f的部分。

论文下载：地址