少量数据文本分类避免过拟合的方法

1 概述

  虽说现在深度学习在文本分类上取得了很大的进步,但是很多时候在工业界没有与之匹配的数据量,在少量数据的情况下,使用深度学习很容易出现过拟合,而此时使用传统的TF-IDF加机器学习又无法取得良好的效果。针对这种情况,我们来看看在使用深度学习时有哪些方法也尽量地避免过拟合。

2 过拟合的处理方法

1)L1和L2正则化

  对模型中的权重系数加上L1或L2正则处理,将无关的权重系数惩罚到一个很小的值,甚至为0。

2)Dropout 正则化

  Dropout正则化一般使用在全连接层中。 

3)提早停止

  当发现在继续迭代时,验证集上的损失开始上升时,即使此时训练集上的损失在下降,也应该停止迭代。

4)数据增强

  在图像中我们知道可以通过对图片进行翻转,裁剪,缩放,调整对比度等来进行数据增强,那么在文本中又该如何增强数据呢?

  a)同义词替换

  在有些论文中提出了同义词替换,但在使用word2vec词嵌入时,同义词之间的向量是非常相似的,也就是说你输入到模型中的数据实际上没有什么变化,此时的效果并不会很好。

  b)反向翻译

  利用机器翻译的技术将原始的句子翻译成一种目标语言,然后又将这种目标语言重新翻译回来,例如英文文本分类时,先将英文翻译成西班牙语,然后又反向翻译为英文,利用这种方法可以得到两个不同的句子。有时候能取得不错的效果。

  c)文档裁剪

  如果此时是长文本分类时,有时候一篇长文本中的主要思想会重复好几次,此时我们只要把这含有中心思想的几处给裁剪出来,就可以将一个长文本裁剪成多个文本。

  d)生成对抗网络

  生成对抗网络已经被用在图像中的数据增强中,也可以尝试用在文本中。

5)迁移学习

  a)预训练词向量

  例如常用的word2vec,glove等

  b)句子向量

  直接将文档用句子向量表示,例如facebook和谷歌的句编码器,或者skip-thought等。

  c)预训练的语言模型

  例如ULMFiT,BERT等。

  d)多任务学习

  可以构建多个任务协同学习

6)特征工程

  人工从文本中抽取特征工程,然后利用较小的模型来建模。

原文地址:https://www.cnblogs.com/jiangxinyang/p/10219709.html