[文献记录] Few-shot Learning for Named Entity Recognition in Medical Text 医学文本中命名实体识别的小样本学习

Few-shot Learning for Named Entity Recognition in Medical Text

小样本学习第一篇
文献地址：https://arxiv.org/abs/1811.05468

电子健康记录很重要，但是都是自然语言形式，解锁这些信息有重大意义。长短期记忆（LSTM）类型的递归神经网络（RNN）和卷积神经网络（CNN）的组合已成功应用于为基于CoNLL的NER任务，并达到当前的最佳性能，神经网络的主要局限在于需要大量带注释文本，对于电子健康记录很麻烦。因此，在几乎没有注释的示例可用时，改善神经网络的性能仍然是生物医学研究中的高度优先事项。

我们首先设定目标，以在i2b2 2009的NER任务上优化性能，同时仅使用10个随机选择的带注释的释出的摘要。从69.3%优化到78.87%

CoNLL2003包含英语新闻专栏文章，并注明不属于前三类中任何一组的人员，位置，组织和杂项名称

数据

i2b2 2009 用于监督训练测试
i2b2 2010&2012 CoNLL-2003用于预训练权重
其他三个用于词嵌入

preview

而在以无监督方式使用的数据集中，原始注释被忽略（请参见表2）。我们已将i2b2b 2009数据限制为仅从完整训练数据集中抽取的10个随机样本。

基线模型

（1）Single pre-training：使用其它单个数据集分别预训练，并设置了对比实验：所有层使用预训练权重、仅BLSTM使用、所有层除BLSTM、不使用预训练权重。
（2）Hyperparameter tuning：包括optimizers、pre-training dataset、SGD learning rate、batch normalization(是否使用)、word embedding（是否trainable）以及learning rate decay (constant or time scheduled)。
（3）Combined pre-training：利用多个数据集串联预训练模型，并在目标数据集训练时加载权重。
（4）Customized word embeddings：word embedding是否使用GloVE或者在医药数据集上重新用FastText训练。
（5）Optimizing OOV words：Remove trailing “:”, “;”, “.” and “-”、Remove quotations、Remove leading “+”

2.3单一预训练

网络参数分别针对三个不同的NER任务中的每一个进行了预训练，其中两个与目标任务属于同一个域（i2b2 2010和i2b2 2012，医学文本），而一个属于不同的域（CoNLL-2003，非医学文字）。
比较了三种不同的初始化策略：用预训练的权重初始化所有层；仅初始化图层merge_BLSTM（其他图层随机初始化）；并初始化除merge_BLSTM以外的所有内容（merge_BLSTM随机初始化）。在所有情况下，words_input的嵌入都不会经过训练，而是冻结为GloVE的值。

2.4超参数调整

优化器SGD or Nadam
训练数据集i2b2 2010 or 2012
SGD学习率0.04 or 0.08
batch normalization (with or without)
weights of layer ‘words_input’
trained on the objective task or frozen to GloVE values

2.5合并预训练

为了测试我们的目标任务是否受益于联合预训练，现在我们结合了从i2b2 2010和2012进行学习。这是通过在两个可能的方向上依次从每个数据集学习来实现的：首先在i2b2 2010上训练随机初始化的模型，然后继续在i2b2 2012上进行训练；或先在2010年再在2012年进行训练。无论哪种情况，在进行客观任务训练时，将从第二轮训练中获得的最终权重用作初始值。

2.6

大概说GloVE可能不准，要自己训练。我们的第四项改进包括开发在CRIS，MIMIC III或BioNLP-2016上训练过的自己的词嵌入。

2.7优化OOV words

我们的最后一项改进是在文本预处理中添加了以下两个步骤：

删除尾随的“：”，“;”，“。” 和“-”。
删除引号
删除开头的“ +”

3.1

words_input 用GloVE初始化，char和case的input随机初始化U(-0.5,0.5)。所有其他参数都是根据Keras（版本2.2.0）默认值随机初始化的。分成64批次。 Nadam 69.3%

3.2

通过在i2b2 2010上进行预训练（平均F1比基线增加+ 3.06％）或在i2b2 2012上进行的图层初始化（+ 1.58％）表现要好于在CoNLL-2003上进行预训练的权重（+ 0.52％），并且比随机初始化的权重还好（69.3％）。此外，初始化所有层都比仅初始化BLSTM（71.21％）或除BLSTM层之外的所有其他初始化项（70.65％）更好。

3.3

调整超参数是第二项经过测试的改进，它是通过单次预训练在性能最佳的模型上实施的。
在所有评估的超参数中，影响最大的是优化器，Nadam平均达到70.41％，SGD 50.56％。第二个最重要的超参数是用于神经网络预训练的数据，其中i2b2 2010达到+ 2.34％，i2b2 2012达到+ 1.58％。如图3所示，其他超参数（批处理规范化，可训练的嵌入，学习率和学习率衰减）的影响尚无定论。因此，我们将优化器固定为Nadam并继续使用i2b2 2010进行预训练，而拒绝使用其他参数。超参数更改。