论文阅读(1)篇章关系分析研究综述

0. 摘要

1. 引言


(1)有利于篇章文本结构化

(2)具有广泛的应用价值

  • 篇章的因果关系:用于自动问答和事件关系抽取;

  • 对比关系:用于研究情感分析;

  • 扩展关系:用于自动文摘和篇章关键词抽取。

  • 另外,在机器翻译中也得到广泛应用。

2. 语料资源

RSTDT、PDTB、HIT-CDTB

RSTDT、PDTB和HIT-CDTB之间的差异

其次介绍三种语料的 标注过程基本组成相应的实例分析

2.1 三种语言学资源的区别



2.2 RST篇章树库(RSTDT)概述



  • 修辞结构:是指篇章内各片段间,依靠 语义修辞关系 进行相互连接,构成整体篇章关系层次结构。

  • 基本篇章单元(EDU):对篇章文本进行切分,目的是 形成若干句型独立且能表达一定语义的片段

针对 RSTDT 中定义的 修辞结构关系,列举实例如图1所示。根据上述标注方法:

  • 首先根据文本语义将原句切分为三个EDU;

  • 然后识别相邻EDU间的修辞关系,并将原句表示成层次化的树形结构。

  • 如图1所示,EDU2与EDU3存在 “对比(Con trast)”关系,而 EDU2和EDU3整体 与 EDU1存在 “时序之后( Temporal-After)”关系,形成修辞关系结构树。

  • 根据“卫星中心”理论,箭头由表示修饰的辅助成分 (Satellite)指向语义关系的中心(Nucle-us)

2.3 宾州篇章树库(PDTB)概述

小结:

  • 论元: 由 连接词 衔接的两个片段

  • 由连接词引导的论元 记为Arg2,另一论元为Arg1。Arg1和Arg2组成“论元对”

  • 显隐式篇章关系,是PDTB根据论元间是否包含连接词进行划分的。

针对目前研究重点关注的显式与隐式关系类型,具体实例分析如下:

  • PDTB中的显式关系,如例1所示,由连接词“but(但是)” 引导的 Arg1和Arg2间 的篇章关系属于 “对比( Comparison)”关系。

  • 相对地,隐式关系如例2所示,论元对之间无连接词,但能 根据语义 推断 论元对 之间属于“时序(Temporal)”关系。

    • 例2中用方括号注明的 “Implicit=at the time” 是人为添加的,表明论元间的隐式连接词为“ at the time(当时)”。

2.4 中文篇章树库(HIT-CDTB)概述

3. 篇章关系分析任务及评测方法

3.1 修辞结构关系分析

3.2 篇章语义关系分析(基于PDTB和HIT-CDTB)

目前篇章语义分析,主要针对 篇章片段中的语义连接关系 进行识别并分类。

  • 任务定义

PDTB 和 HIT-CDTB语料都是针对 篇章语义分析研究 展开标注的。

其中,关于显隐式篇章关系的研究较多,下面以PDTB为例进行介绍。

  • 评测方法

    • 分别针对 各个篇章语义关系的分类性能篇章语义关系分类的整体性能 进行评测。

    • 其中,通过 构建多个分类器 预测 各个 篇章语义关系的分类结果。

    • 如,评估 因果关系 的分类性能,可以将该类别的实例作为正例,其他关系类别的实例作为负例。

      • 由此,构建二元分类器。
    • 通过 准确率P、召回率R、F值、精确率Accuracy 等评测指标,分析该篇章语义关系分类器性能。

    • 在评估 篇章语义关系整体分类性能 时,采用 多元分类器,通过 精确率 衡量分类性能。

原文地址:https://www.cnblogs.com/douzujun/p/13667607.html