query扩展方法汇总

1、基于用户日志

1.1、计算query term和doc term的条件概率

论文标题:Probabilistic Query Expansion using Query Logs

论文整体架构分为3部分:1、计算了query端的分布和doc端分布的不同,给出了计算方法,并通过数据论证了两者语义上的差别。2、给出了概率计算公式。3、简述了如何利用概率公式进行query扩展。

  • query空间和doc空间的gap
    query端的数据分布和doc端的数据分布是不一样的,这个是众所周知的,但是有没有一些定量的值来衡量呢?作者给出了计算方式
    计算doc的向量空间,对于每一篇doc来说,我们可以获得其向量空间({W_{1}^{(d)},W_{2}^{(d)}......W_{n}^{(d)}}) ,n表示向量空间的维度,对于每一个(W_{i}^{(d)})来说,其计算方式如下图所示,利用的就是tf-idf算法。

    接下来计算query的向量空间,在文章中叫virtual document,意思是虚拟空间。对于每一篇doc来说,我们都能获得它的点击query,通过点击query,我们可以获得virtual document vector,计算方式依旧是上图,只不过这里tf-idf计算的空间为query端的结果。
    当我们得到每一篇doc的向量和其对应的query向量时(这里是一一对应关系),则我们就能计算两者的相似性了,计算公式为

    最终,我们会得到每篇doc的相似度结果,经作者论证,表明query端和doc端的确存在很大的鸿沟。
    那么,问题来了,我们怎样来解决这个鸿沟呢?解决的办法就是利用点击日志。
  • 根据点击日志计算query和doc的term条件概率
    这张图表明了用户的点击行为,最左边的query terms表明单词的term信息,比如”北京的大学“分词后是”北京“”大学“(去除停用词后),那么query term中就包含了这两个词,同理,doc端也可以得到document terms,相应的,每个query、doc都和其term有连线。若query和doc有点击行为,则query和doc有连线,这样,就构成了下图。

    条件概率计算公式为下图,这里的(D_{k})表示有点击的doc所对应的线的连接
  • 应用于query扩展
    如下图所示,对于未知的(Q)来说,分别计算对应的条件概率,并提取概率最大的term进行扩展。

2、基于翻译模型

2.1

论文题目:Learning to Rewrite Queries
这篇文章其实给了query扩展的一个整体的框架,第一步:挖掘扩展词,第二步:对扩展词进行排序。

  • 挖掘扩展词
    这里并没有详细的介绍挖掘扩展词的算法,这块内容简单的介绍了下翻译模型如何应用于query的扩展,并且可以利用多种方式共同挖掘,最终得到(q,r)的pair对。
  • 对扩展词进行排序
    这里介绍了排序的三种方式,pair-wise,point-wise,list-pair-wise三种方式。
  • 学习目标
原文地址:https://www.cnblogs.com/stephen-goodboy/p/14005693.html