序列模式挖掘小笔

序列模型在关联模型的基础上进一步考虑了事务间的顺序，譬如客户购买商品时会先买床然后再买床上用品登登。所以序列模型的研究是有一定意义的。

书上指出两个适应本规则的应用，web数据挖掘中，从用户浏览网页的顺序中挖掘网站的浏览模型；文本挖掘中，根据刺在句中的顺序挖掘语言模式。

sequence：是经过排序的项集。序列s可用用<a1a2...ar>表示，其中ai就是一个项集，可以表示为{x1,x2,...,xk}。那么r即为序列s的基数，k为s的长度。

长度为k的序列称为k-序列。

序列模式的目标：给出一个序列数据库(sequence database),找出所有满足用户指定的最小支持度的序列。每个这样的序列称为一个频繁序列称为频繁序列

（frequent sequence）或者一个序列模式(sequence pattern).

挖掘算法:

GSP算法。和Apriori算法基本一致，但在产生candidate时合并和剪枝上有很大差别。

合并的时候，比较两个序列s1和s2，如果s1去掉第一项目和s2去掉最后一项目的其他项目相同，则将s2的尾项加至s1末尾。

注：此处项目不是项集！书上还点出了合并有几种情况及特殊情况的处理。

MS-GPS算法。使用了最小支持度（MIS）的概念，具体实现只是将将看懂，复述起来比较困难，需要以后多研究。

PrefixSpan 算法，是利用频繁项目作为前缀找出所有匹配的序列模式，和GPS算法的区别是GPS算法是通过广度优先遍历，而本算法是通过深度优先遍历，不生成候选序列，仅针对前缀情况的局部项目计数出现频率。劣处暂时没有概念，需要真正研究本算法时可以考虑下在什么情况下用本算法较好，什么情况应该规避该算法。

同样的也有多最小支持度挖掘的MS-PS算法，不深入研究。。。

经典的序列模式挖掘没有定义规则生成，但事实上可以几类数据挖掘也是可行的。

书中介绍的规则包括：

1、序列规则（sequential rules）

2、标签序列规则（Label sequential rules）

3、分类序列规则 (class sequential rules)

序列模式挖掘 小笔

序列模式挖掘小笔