跟我读论文丨ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别

摘要：本文是对ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别这一论文工作进行初步解读。

本文分享自华为云社区《ACL2021 NER | BERT化隐马尔可夫模型用于多源弱监督命名实体识别》，作者： JuTzungKuei 。

论文：Li Yinghao, Shetty Pranav, Liu Lucas, Zhang Chao, Song Le. BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition[A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 6178–6190.

链接：https://aclanthology.org/2021.acl-long.482.pdf

代码：https://github.com/Yinghao-Li/CHMM-ALT

0、摘要

研究内容：使用多个弱监督数据的噪音标签学习NER
噪音数据：不全、不准、矛盾
提出一个条件隐马尔可夫模型（CHMM：conditional hidden Markov model）

利用BERT的上下文表示能力，增强了经典的HMM模型
从BERT嵌入中学习词的转移和发射概率，推断潜在的真标签

用交替训练方法(CHMM-ALT)进一步完善CHMM

用CHMM推导出的标签对BERT-NER模型进行微调
BERT-NER的输出作为额外的弱源来训练CHMM

四份数据集上达到SOTA

1、介绍

NER是许多下游信息抽取任务的基础任务：事件抽取、关系抽取、问答

有监督、需要大量标注数据
许多领域有知识源：知识库、领域词典、标注规则
可以用来匹配语料库，从多角度，快速生成大规模的噪声训练数据

远程监督NER：只使用知识库作为弱监督，未使用多源标注的互补信息
现有利用HMM方法，有局限性：one-hot词向量或不建模
贡献：

CHMM：聚合多源弱标签
交替训练方法CHMM-ALT：轮流训练CHMM和BERT-NER，利用彼此的输出进行多回路，以优化多源弱监督NER性能
四份基准数据集获得SOTA

2、方法

CHMM-ALT 训练两个模型：多源标签聚合器CHMM和BERT-NER 模型，轮流作为彼此的输出

阶段I：CHMM根据K个源x_{1:K}^{(1:T)}x1:K(1:T)，生成一个去噪标签y^{*(1:T)}y∗(1:T)，微调BERT-NER模型输出widetilde{y}^{(1:T)}y(1:T)，作为额外的标注源，添加到原始弱标签集合x_{1:K+1}^{(1:T)} = {x_{1:K}^{(1:T)} , widetilde{y}^{(1:T)}}x1:K+1(1:T)={x1:K(1:T),y(1:T)}
阶段II：CHMM和BERT-NER在几轮循环中互相改进，每轮循环，先训练CHMM，后微调BERT-NER，更新前者的输入
CHMM 提高Precision，BERT-NER提高Recall

隐马尔可夫模型

不细解

3、结果

号外号外：想了解更多的AI技术干货，欢迎上华为云的AI专区，目前有AI编程Python等六大实战营供大家免费学习。

点击关注，第一时间了解华为云新鲜技术~