nlp

计算机并不能理解一个词语的意思,它是将词语转换成空间及位置从而进行理解,Word2vec是词嵌入的一种方式,将计算机不可计算的词语转换成可以计算的向量,主要有两种训练的方法,CBOW和skip-Gram,CBOW是用周围词来预测中心词,skip-Gram是用中心词来预测周围词,在训练过程中,相似的词基本上都在同一方向上,因此我们可以通过计算余弦相似度来计算两个词之间的角度。

计算机在对于单词的理解基础上继续对句子进行理解,之前通过tf-idf算法,通过计算词频将句子转化成向量,但是这样忽略了词语的顺序,并不能很好的去理解句子。后来有了seq2seq语言生成模型,对于句子了解的主要是对词向量进行编码得到句向量,通过另一个循环神经网络进行解码,得到想要的输出。通过这个语言生成模型我们可以把句子转化成我们想要的形式。进而通过这个模型也了解了自然语言处理的几个方向。

原文地址:https://www.cnblogs.com/zhang12345/p/15333789.html