论文阅读 | Text Categorization by Learning Predominant Sense of Words as Auxiliary Task

论文地址：https://www.aclweb.org/anthology/P19-1105/

研究的问题:

关注的是结合语义的文本分类问题，以往的研究，比如用word2vec的方法，是将单词映射到一个隐空间中。但是word2vec对于一个单词，它的表示是固定的，所以无法解决一词多义的问题。

解决的一个思路，在限定了领域的情况下，会大大减少一词多义的情况，但仍然存在。ELMO、BERT这种也对语义建模的模型可以反映一词多义，但它们是无监督的模型，没有将每个词映射到它们所对应的领域。

总体来说，模型是一个多任务学习模型，在完成文本分类任务的同时，预测每个单词的主要含义。

研究方法：

主要框架如下图所示。

可以看到，文本的编码使用transformer，取encoder的输出矩阵，记为

从中提出需要识别领域的词，通过一个全连接层。这里其实也是一个分类任务，输出的维数是所有目标词的领域数，也是通过softmax输出结果。

在得到了分类结果之后，在替换相应的单词向量，得到。

将中所有向量合并得到一个文档向量，将它通过一个全连接层得到最终的分类结果。

最终的损失函数如下：

评价：

做的是一个有监督的情况下得到句子的向量表示，用于文本分类任务。对于多义词，使用有监督的模型得到它的领域和语义表示。也是一种很好的思路。之前看到过一篇做有监督的关键词提取的论文，也是用有监督的方法替换一般的用无监督方法得到的东西。不过本文只在文本分类上进行了实验，没有在其他NLP任务的实验结果。也没有跟BERT、ELMO这样的模型比，只是放在了future work当中。