[IR课程笔记]Query Refinement and Relevance Feedback

相关反馈的两种类型:

“真实”的相关反馈:

   1. 系统返回结果

   2. 用户提供一些反馈

   3. 系统根据这些反馈,返回一些不同的,更好的结果

“假定”的相关反馈

   1. 系统得到结果但是并不返回结果

   2. 系统根据这些结果改善query

   3. 根据改善后的query得到结果并返回

Rocchio's Modified Query

Modified query vector = Original query vector + Mean of relevant documents found by original query - Mean of non-relevant documents found by original query

Q0表示原始query

R表示相关文档集

S表示无关文档集

Local Context Analysis (LCA)

算法过程:

用户输入一个query,通过这个query来检索文章:找到与这个query最相关的文章,使用一个300个词的滑动窗口,来获取文章。

然后找到候选term:首先对文章进行词性标注,选择所有的名词作为候选term。

计算term的权重:

  

En(c,w)的含义:当c,w相互独立时,同时出现的期望 N*(nw/N)(nc/N)

co_degree为什么要减一? 防止nc非常小的情况。

根据权重挑选出新的term 加入query中,完善query,从而得到新的结果。

         

原文地址:https://www.cnblogs.com/leeshum/p/4926459.html