信息抽取学习笔记

MCU评测任务已经增加到5个：①场景模板填充（scenariotemplate,ST）：定义了描述场景的模板及槽填充规范；②命名实体（namedentity,NE）识别：识别出文本中出现的专有名称和有意义的数量短语，并加以归类；③共指（co-reference,CR）关系确定：识别出给定文本中的参照表达（referringexpressions），并确定这些表达之间的共指关系；④模板元素（templateelement,TE）填充：类似于人名和组织机构名识别，但是，要求系统必须识别出实体的描述和名字，如果一个实体在文本中被提到了多次，使用了几种可能的描述和不同的名字形式，要求系统都要把它们识别出来，一个文本中的每个实体只有一个模板元素［GrishmanandSundheim,1996］；⑤模板关系（templaterelation,TR）：确定实体之间与特定领域无关的关系。

ACE旨在定义一种通用的信息抽取标准，不再限定领域和场景，而是从语义的角度制订一套更为系统化的信息抽取框架，这个框架将信息抽取归结为建立在一定本体论（ontology）基础上的实体、关系、事件的抽取，从而适用于更广泛的领域和不同类型的文本。在评测任务设计上，ACE对MUC的任务进行了融合，评测内容包含：实体检测与跟踪（entitydetectionandtracking,EDT）、数值检测与识别（valuedetectionandrecognition,VDR）、时间识别和规范化（timeexpressionrecognitionandnormalization,TERN）、关系检测与描述（relationdetectionandcharacterization,RDC）、事件检测与描述（eventdetectionandcharacterization,EDC）和实体翻译（entitytranslation,ET）等。

不管系统采用什么样的实现方法，必须解决的关键问题应该包括如下几个方面：①命名实体识别；②句法分析，尤其是短语或语块分析等浅层句法分析和依存句法分析；③共指分析和歧义消解；④实体关系识别：确定文本中两个实体之间在某一时间范围内所存在的关系；⑤事件识别：识别多个实体之间的存在关系，包括经历一段时间之后实体状态以及实体之间关系的改变。另外，语篇的分析，包括语篇的结构分析和逻辑分析也是不可忽视的一个问题。当然，对于汉语文本而言，自动分词问题始终是一个无法绕过的拦路虎。

开放式信息抽取的重点：开放式实体抽取、实体消歧和开放式实体关系抽取

信息抽取工具包：Gate https://gate.ac.uk/

articles:

https://www.rroij.com/open-access/a-study-of-information-extraction-tools-foronline-english-newspapers-pdfcomparative-analysis.php?aid=46978

http://www.bearcave.com/misl/misl_tech/nlp.html

http://www.cs.utexas.edu/~ml/papers/text-kddexplore-05.pdf

http://www.cs.nyu.edu/grishman/tarragona.pdf

http://keg.cs.tsinghua.edu.cn/jietang/publications/Tang-et-al-Information_Extraction.pdf

https://en.wikipedia.org/wiki/Information_extraction