文本领域数据增强技术

CV领域：图片的旋转、灰化、随机裁剪 -> 并不会改变其语义 => few shot learning、self-supervised learning。

NLP领域：改变sequence的顺序会改变语义。

基于WordNet进行词语替换（近义词替换）。

基于相似度做词语的替换，相似度衡量方法有dot product、cosine similarity、Jaccard similarity等

gensim.Word2vec.most_similarity()就是这种方法典型的应用。

TF-IDF分数较低的单词不能提供有用的信息，因此可以在不影响句子的ground-truth的情况下替换它们。

This virus has spread worldwide.

A virus has spread worldwide.

但这种方法的效果并不佳。

一种语言的句子翻译成另一种或多种语言，再翻译回来。

这种方法效果明显，但是缺点是需要较多的翻译模型，百度谷歌等提供翻译API接口可使用。

缺点：引入了噪声

（待完善）

除了数据增强，还有一些其他方法可以弥补数据不足的问题：