txNLP 262-282

txNLP 262-282

one-hot中只有一个非零向量，相对集中。而对于分布式表示，向量中有大量的非零向量，相对分散，把词的信息分布到各个向量中去了。这一点跟并行计算里的分布式并行相像。

Global Generation of Distributed Representation

在cs224n中Richard Socher说他们实验后发现是U+V的效果比较好

D=1以上下文方式出现在语料库中，D=0没有以上下文方式出现在语料库中。

负样本过大，需要抽样。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/wqbin/p/12718971.html