对话机器人学习篇（五）--- NLP

NLP

一. 词向量

表示词的向量，可认为是词的特征向量或表征

词嵌入，把词映射为实数域向量

离散表示：

One-hot表示

词袋模型：通过先构建一个包含语料库中所有词的词典，然后根据词典完成对每个词的向量化，进而完成文本向量化。

问题：维度灾难；未保留次序；语义鸿沟（通过向量无法表示两个词是否为同义词）

TF-IDF：一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency）

TF_IDF=TF*IDF ：可以看出，当w在文档中出现的次数增大时，而TF-IDF的值是减小的

字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。

统计模型：一个句子是由多个词语按顺序组合构成。统计语言模型就是计算这个组合出现的概率。

N-gram模型：为了保持词的顺序，做了一个滑窗的操作，这里的n表示的就是滑窗的大小，例如2-gram模型，也就是把2个词当做一组来处理，然后向后移动一个词的长度，再次组成另一组词，把这些生成一个字典，按照词袋模型的方式进行编码得到结果。改模型考虑了词的顺序。

n-gram模型假设一个词的出现只与它前面的固定数目的词有关系，相当于做了一个n-1阶的Markov的假设，认为一个词的出现只与它前面n-1个词相关，即

缺点：

对于一般的NLP问题，是可以使用离散表示文本信息来解决问题的，但对于要求精度较高的场景就不适合了。

无法衡量词向量之间的关系。
词表的维度随着语料库的增长而膨胀。
n-gram词序列随语料库增长呈指数型膨胀，更加快。
离散数据来表示文本会带来数据稀疏问题，导致丢失了信息，与我们生活中理解的信息是不一样的。

分布式表示

用一个词附近的其它词来表示该词，一个词是由这个词的周边词汇一起来构成精确的语义信息

共现矩阵：词共同出现，词文档的共现矩阵主要用于发现主题(topic)，用于主题模型，如LSA

局域窗中的word-word共现矩阵可以挖掘语法和语义信息，例如：

I like deep learning.
I like NLP.
I enjoy flying

有以上三句话，设置滑窗为2，可以得到一个词典：{"I like","like deep","deep learning","like NLP","I enjoy","enjoy flying","I like"}。

我们可以得到一个共现矩阵(对称矩阵)：

中间的每个格子表示行和列组成的词组在词典中共同出现的次数，也就体现了共现的特性。

缺点：

向量维数随着词典大小线性增长。
存储整个词典的空间消耗非常大。
一些模型如文本分类模型会面临稀疏性问题。
模型会欠稳定，每新增一份语料进来，稳定性就会变化。

神经网络表示

NLNLM：定义一个前向窗口大小，其实和上面提到的窗口是一个意思。把这个窗口中最后一个词当做y，把之前的词当做输入x，通俗来说就是预测这个窗口中最后一个词出现概率的模型

（和n-gram模型功能一样，输入是词序列，输出是概率）

Word2Vec：实际是一种浅层的神经网络模型，它有两种网络结构，**分别是CBOW（Continues Bag of Words）连续词袋和Skip-gram；

CBOW：获得中间词两边的的上下文，然后用周围的词去预测中间的词，把中间词当做y，把窗口中的其它词当做x输入，x输入是经过one-hot编码过的，然后通过一个隐层进行求和操作，最后通过激活函数softmax，可以计算出每个单词的生成概率

（图中目标词 Wt 前后只取了各两个词，所以窗口的总大小是2）

Skip-gram：与CBOW相反，通过当前词来预测窗口中上下文词出现的概率模型，把当前词当做x，把窗口中其它词当做y，依然是通过一个隐层接一个Softmax激活函数来预测其它词的概率

（图中目标词 Wt 前后只取了各两个词，所以窗口的总大小是2）

ULMFIT：通用语言模型的微调，搞定一项NLP任务，不再需要从0开始训练模型，拿来ULMFiT，用少量数据微调一下，它就可以在新任务上实现更好的性能

ELMo：用语言模型（language model）来获取词嵌入，同时也把词语所处句、段的语境考虑进来。

BERT：Bidirectional Encoder Representations from Transformers，意思是来自Transformer的双向编码器表示，也是一种预训练语言表示的方法

Auto Keras：执行AutoML任务的开源库

层次softmax和负采样替换输出层softmax，降低复杂度

参考链接：https://zhuanlan.zhihu.com/p/44599645

层次softmax（Hierarchical Softmax）：

基于层级sotfmax的CBOW：

负采样（Negative Sampling）：随机采样代替softmax

负采样实际上是采样负例来帮助训练的手段，其目的与层次softmax一样，是用来提升模型的训练速度。我们知道，模型对正例的预测概率是越大越好，模型对负例的预测概率是越小越好。由于正例的数量少，很容易保证每个正例的预测概率尽可能大，而负例的数量特别多，所以负采样的思路就是根据某种负采样的策略随机挑选一些负例，然后保证挑选的这部分负例的预测概率尽可能小。所以，负采样策略是对模型的效果影响很大，word2vec常用的负采样策略有均匀负采样、按词频率采样等等。