Word2Vec小心得

今天终于想明白了分层softmax的作用:

哈夫曼树的作用是什么??用平均最小的长度编码!编码是为了解码成信息!

神经概率语言模型:有映射层,隐藏层,输出层,假设隐藏层是300维,输出层是和单词的数量相等的,因为传统Softmax的原因,比如有10000的词,那么参数就是300*10000=3000000 300万。。每次更新更300万的参数,速度可想而知。

刚开始我想把它变成树,每个非叶子节点的300维,非叶子节点的个数为叶子节点的个数-1=9999,300*9999=2999700,并没有减少参数,但是,每次更新的参数确是极大减少了,平均为logN=100  100*300=30000

所以层次的作用在于加速和快速寻找词。

原文地址:https://www.cnblogs.com/mdumpling/p/8609290.html