NLP学习笔记05---文本的分布式表达

1.One-hot表示方法的缺点

向量的大小与词典的长度相等

主要缺点:<1>不能表示语义相似度   <2>向量很稀疏

2.分布式表示(Distributed Representation)---词向量

输入足够多的数据(10^10的单词)

词向量代表单词的意思。word2vec,某种意义上可以理解成词的意思

上图的坐标轴,可见意思相近的词聚集在一起(可以表示两个词的语义相似度)

原文地址:https://www.cnblogs.com/luckyplj/p/12761257.html