《数据挖掘:理论与算法》学习笔记(九)—关联规则

关联规则

隐藏在大型数据集中的令人感兴趣的联系
在这里插入图片描述
例子:
在这里插入图片描述
关联规则的强度可以用它的支持度和置信度度量

支持度与置信度

在这里插入图片描述
关联规则的支持度
支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。
因此,支持度通常用来删除那些不令人感兴趣的规则。
在这里插入图片描述
关联规则的置信度(相当于条件概率)
置信度通过规则进行推理的可靠性。对于给定的规则 X>Y,置信度越高,Y 在包含X 的事务中出现的可能性就越大。
在这里插入图片描述
例子
在这里插入图片描述

先验原理

如果一个项集是频繁的,则它的所有子集一定也是频繁的

Apriori算法

第一个关联规则挖掘算法,开创性地使用基于支持度的剪枝技术,系统地控制侯选项集指数增长。其核心是基于两阶段频集思想的递推算法
主要步骤(以购物车为例)

    • 首先会生成所有单个物品的项集列表
    • 扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉
    • 对剩下的集合进行组合以生成包含两个元素的项集
    • 接下来重新扫描交易记录,去掉不满足最小支持度的项集,重复进行直到所有项集都被去掉

序列模式:

原文地址:https://www.cnblogs.com/cy0628/p/14128404.html