（论文笔记）Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

利用点击数据学习web搜索的深度学习模型

【总结】

该模型可以得到query和item的低维度向量表示，也可以得到二者的余弦语义相似度。

学习过程是通过最大化后验概率的极大似然估计得到的参数。

【模型解读】

A.输入：

1）x是词表长度的向量，维度大，一般是one-hot太大了，所以需要降；

2）Q为query， D为doc，包含正样本（曝光点击的doc），负样本4个（曝光但是未点击的doc），类似word2vec中的负采样；

B.中间过程：

1）经过word hashing ，将x的维度降下来（ngram方法）；

2）多层线性层+tanh激活函数l1层 l2层；

C.输出：

1）得到的y为低纬度的稠密语义表示向量，128维；

2）query分别和正/负doc计算余弦相似度R；

3）得到余弦相似度后加上平滑因子计算softmax：

3）学习目标就是最大化query和点击的正样本的相关性后验概率的极大似然估计：

【优缺点】

论文提的优缺点：

♥️1.采用word hashing ，解决了lsa等用奇异值分解造成的维度高的问题，因为对于英文来说ngram有限

♥️2.ngram可以有效表示新词；（？）

♥️3.有监督的学习语义表示，不是直接把无监督模型得到的词向量在输入端作为输入了。

♥️4.免人工特征

1.word hashing可能有冲突（冲突不大）；

2.词袋模型损失了上下文信息；

3.在排序中，搜索引擎的排序由多种因素决定，由于用户点击时doc的排名越靠前，点击的概率就越大，如果仅仅用点击来判断是否为正负样本，噪声比较大；

个人认为的优缺点：

1.对中文来说ngram的方法略落后，而且会忽略掉一些专有名词的含义，远距离的文字信息会丢失，全局信息；

【参考链接】

更多改进的model参考：+lstm or dnn➡️cnn