大规模层次分类问题研究及其进展_何力

  摘自《大规模层次分类问题研究及其进展_何力》

  大规模层次分类问题的研究尚处于起步阶段,结合实际应用需求和大规模层次分类问题研究现状,我们认为未来的研究方向主要有如下几个方面:

  (1)类别层次中稀有类别的分类方法研究在大规模层次分类中,稀有类别在类别层次中非常普遍.在ODP目录、雅虎目录等主流Web分类目录中,70%左右类别的实例个数不足10个.由于稀有类别的实例 非常少,这使得难以发现稀有类别的规律性,降低了分类器的学习效果.对此,现有方法利用邻居类别来增加稀有类别的训练样本,即将稀有类别在类别层次中的邻居类别的实例也作为稀有类别的训练样本.这种方法以稀有类别所在的类别路径或者子树的特征代表稀有类别的特征,而由于稀有类别自身实例相对稀少,这将导致稀有类别淹没到其所在的类别路径或者子树当中,最终导致分类结果发生漂移.因此,稀有类别分类是大规模层次分类中一个亟待解决的问题.
  (2)类别层次中深层类别的分类方法研究在大规模层次分类中,类别层次的深度一般比较深,称之为深层次结构(deep hierarchy)。例如,雅虎目录的类别层次深度为16,ODP目录的类别层次深度为12.类别层次的这种结构特点,导致深层类别的分类准确率下降明显.现有方法在处理深层类别类问题的时候,通常采用扁平化策略,通过去除一部分中间节点和概念节点以降低类别层次高度、减少错误传播而提高分类准确率,这类方法通过降低类别层次高度,一定程度上可以减小错误传播.导致深层类别分类性能比较差的原因除了错误传播问题之外,另外还有两个因素:一是深层类别中许多类别是稀有类别;二是随着目录深度的增加.相邻类别之间的相似性增强.现有研究并未将这两个因素考虑在内.因此,未来对深层类别分类问题的研究可以从这两个方面入手.
  (3)半监督的类别层次结构调整方法研究在类别层次的使用过程中,用户往往会根据需要调整类别层次结构,例如增加或删除一些节点.尤其是对于网络资源目录这种类别层次,随着互联网的快速发展,信息分类目录需要不断扩展,在目录结构扩展过程中,需要将已有的实例重新指定到新目录中,这个过程如果由人工完成,则会产生巨大的工作量.因此,在人工调整目录结构之后,需要将目录中已有实例自动指定到新目录中的类别,这就需要一种半监督的类别层次结构调整方法,以保证类别层次的可扩展性.
  (4)有向无环图和有向有环图的分类方法研究目前的大规模层次分类方法研究主要针对树形类别层次的分类问题,对于有向无环图和有向有环图两种类别层次的分类问题研究很少,而在实际应用中,类别往往会被组织成有向无环图,甚至更复杂的有向有环图.例如,维基百科分类目录的类别体系就是一个复杂的有向有环图,而ODP目录则是一个有向无环图,因为该目录中的一些类别节点有多个父节点.所以在面向实际应用时,就需要对有向无环图和有向有环图这两种类型的大规模层次分类问题进行研究.

 

  我的想法:针对(1)将稀有类别在类别层次中的邻居类别的实例也作为稀有类别的训练样本,

原文地址:https://www.cnblogs.com/hardworkingbee/p/4372128.html