数据分析-----关联分析

关联分析:

构造一个关联系数矩阵,两个属性的值介于-1到1之间。

大于0,两者为正关联,<0,两者为负关联。  0 无关联,接近1或-1是比较强的关联。

关联规则:

寻找数据集内的属性之间存在的频繁关联,前提--->结论

举例子:

确定哪些产品最常被一起购买。

有这么一波人买早点,3个人同时购买牛奶和糕点,买糕点的有4个,买牛奶的是7个。

则置信度:糕点->牛奶 3/4 

     牛奶->糕点 3/7

置信度是出现某些物品时,另外一个物品出现的概率。

支持度:3/10  (糕点,牛奶)

A和B同时出现的概率。

我们寻找的是置信度高和支持度高的关联规则。

常用算法一:

Apriori算法,1.将项集连接构成候选集,2.去掉非频繁集合

FPgrowth算法,1将数据集中事务映射到一棵树Fp-tree上面,2从树上挖掘频繁项集

原文地址:https://www.cnblogs.com/liuguangshou123/p/13447116.html