R语言入门视频笔记--10--数据挖掘

这里来挖掘超市购物车数据。

名词：

1、挖掘数据集：购物篮数据

2、挖掘目标：关联规则

3、关联规则：牛奶=>鸡蛋[支持度=2%，置信度=60%]

4、指出度：分析中的全部事务的2%同时购买了牛奶和鸡蛋

5、置信度：购买牛奶的篮子同时也购买了鸡蛋

6、最小支持阈值和最小置信阈值：由挖掘者或领域专家设定

7、项集：由商品组成的集合

8、k-项集：k个项组成的集合

9、频繁项集：满足最小支持度的项集，频繁k-项集一般记为Lk

10、强关联规则：满足最小支持度阈值和最小置信度阈值的规则

在R里面有一个arules包用于分析购物篮问题

library(arules)　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　#调用这个包

data("Groceries")　　　　　　　　　　　　　　　　　　　　　　　　　　　　 #调用这个数据集
r<-apriori(Groceries,parameter = list(support=0.01,confidence=0.5))　　　　　　#这是调用这个包的一个函数，及其参数

summary(r)　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 #查看结果
inspect(r)　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　#也是查看结果

然后就。。。。。。。结束啦！！！就这么，简单

其中这个结果中会有一个值：lift　　这是一个类似相关系数的指标　　当lift=1的时候表示L和R独立　　但当这个lift值越大的时候，越表明L和R存在在一个购物篮不是一个偶然现象