[NLP]初步了解机器阅读理解

简介

1、机器阅读理解(Machine Reading Comprehension,即MRC)是指通过阅读从文本中抽取信息并理解意义的过程。

2、MRC四大任务:完形填空,多项选择,答案抽取,自由回答

  • 完形填空:原文中除去若干关键词,需要模型填入正确的单词或短语

  • 多项选择:模型需要从给定的若干选项中选出正确答案

  • 答案抽取:回答限定是文章的一个子句,需要模型在文章中标注正确答案的起始和终止位置。

  • 自由回答:不限定模式生成答案的形式,允许模型自由生成回答数据

 

MRC方法

1、特征+传统机器学习

2、BERT以前:各种神奇的QA架构

3、BERT以后:预训练+微调+trick

 

MRC总体架构

 

1、Embedding:处理方法有one-hot,word2vec,elmo,glove,bert

2、Feature extraction:处理方法包括CNN,RNN,Transformer

3、Context-query interaction:使用注意力机制

4、answer prediction:包括word predicton(完形填空); option prediction(多项选择); span extractor(答案抽取); answer generator(答案生成 或者 自由回答)

 

评测指标

1、Accuracy:一共m个问题答对了n个(n/m)

2、F1: 2*P*R / (P+R)

3、Rouge-L:

R= 最长公共子序列 / m(m表示标准答案单词个数)

P= 最长公共子序列 / n (n表示模型答案单词个数)

F=(1 + belta)^2 R*P/ (R + belta^2 * P)

4、BLEU :

 

原文地址:https://www.cnblogs.com/mj-selina/p/13709267.html