文本领域数据增强技术

CV领域:图片的旋转、灰化、随机裁剪 -> 并不会改变其语义 => few shot learning、self-supervised learning。

NLP领域:改变sequence的顺序会改变语义。

词语替换

基于WordNet进行词语替换(近义词替换)。

词嵌入替代

基于相似度做词语的替换,相似度衡量方法有dot product、cosine similarity、Jaccard similarity等

gensim.Word2vec.most_similarity()就是这种方法典型的应用。

TF-IDF 替代

TF-IDF分数较低的单词不能提供有用的信息,因此可以在不影响句子的ground-truth的情况下替换它们。

This virus has spread worldwide.

A virus has spread worldwide.

但这种方法的效果并不佳。

回译(Back Translation)

一种语言的句子翻译成另一种或多种语言,再翻译回来。

这种方法效果明显,但是缺点是需要较多的翻译模型,百度谷歌等提供翻译API接口可使用。

EDA:Easy Data Augmentation

  1. 随机插入(Insertion)
  2. 随机替换(Swap):同义词的随机替换
  3. 随机删除(Delete)

缺点:引入了噪声

自助式样本生成

(待完善)


其它方法

除了数据增强,还有一些其他方法可以弥补数据不足的问题:

  • Transfer learning

  • contractive learning

原文地址:https://www.cnblogs.com/elisha/p/14024903.html