机器学习:基于关联规则的多标签分类器

•什么是多标签分类

      之前我们提到的分类问题主要是单标签分类问题,即每个实例只属于一个类别,又叫二分类问题(即使是多标签分类也是采用了二分类方法);多标签就是每个实例,可能同时属于多个类别,较复杂些。

•什么是多标签分类

      之前我们提到的分类问题主要是单标签分类问题,即每个实例只属于一个类别,又叫二分类问题(即使是多标签分类也是采用了二分类方法);多标签就是每个实例,可能同时属于多个类别,较复杂些。

•几个重要的定义。

  支持度:事务D中同时包含X和Y的百分比,概率。

  置信度:D中事务已经包含X的情况下,包含Y的百分比,条件概率。

  满足最小支持度阈值和最小置信度阈值,则认为这个关联规则是有趣的。

例子,表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。

TID

网球拍

网 球

运动鞋

羽毛球

1

1

1

1

0

2

1

1

0

0

3

1

0

0

0

4

1

0

1

0

5

0

1

1

1

6

1

1

0

0

考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。

•1挖掘大频率项集

       主要利用了向下封闭属性:如果一个项集是频繁项目集,那么它的非空子集必定是频繁项目集。

    

        算法: 

    (1)先生成1-频繁项目集,再利用1-频繁项目集生成2-频繁项目集。

    (2)然后根据2-频繁项目集生成3-频繁项目集。

    (3)依次类推,直至生成所有的频繁项目集

•2生成强关联规则
•从频繁项目集合中生成满足最低置信度的关联规则;

     (1)先生成所有的1-后件(后件只有一项)强关联规则;

     (2)然后再生成2-后件强关联规则;

     (3)依次类推,直至生成所有的强关联规则。

•3构造分类器

  1对生成的关联规则集合进行排序,按照置信度,支持度,集合基数,标签频度依次排序。

  2排序后的第一条关联规则开始,若这条规则至少覆盖一个训练实例,将这条规则加入分类器,并且同时删除所有属性属于规则体的实例。

  3迭代步骤2,直到所有的实例被删除或说的规则都被测试过停止。

  (步骤2,3中,约简了大部分规则集)

  4若最后,存在没有类别的训练实例,使用默认规则:将类别出现频度最大的标签给这个实例。

•4预测类别

    1有序规则集中第一条规则开始,若规则体完全包含于测试实例的属性集,则该实例具有这条规则的标签;

  2循环步骤1,直到没有完全包含测试实例属性集的规则,停止。

    3若没有规则集的规则体完全包含于测试实例的属性集,我们取第一条有交集的规则,将其标签赋给测试实例。

  4若不存在与测试实例属性集有交集的规则体,则使用默认规则:将最大频度的标签赋给测试实例。

原文地址:https://www.cnblogs.com/rongyux/p/5342693.html