[IR课程笔记]Query Refinement and Relevance Feedback

相关反馈的两种类型：

“真实”的相关反馈：

1. 系统返回结果

2. 用户提供一些反馈

3. 系统根据这些反馈，返回一些不同的，更好的结果

“假定”的相关反馈

1. 系统得到结果但是并不返回结果

2. 系统根据这些结果改善query

3. 根据改善后的query得到结果并返回

Rocchio's Modified Query

Modified query vector = Original query vector + Mean of relevant documents found by original query - Mean of non-relevant documents found by original query

Q0表示原始query

R表示相关文档集

S表示无关文档集

Local Context Analysis (LCA)

算法过程：

用户输入一个query，通过这个query来检索文章：找到与这个query最相关的文章，使用一个300个词的滑动窗口，来获取文章。

然后找到候选term:首先对文章进行词性标注，选择所有的名词作为候选term。

计算term的权重：

En(c,w)的含义：当c,w相互独立时，同时出现的期望 N*（n_w/N）(n_c/N)

co_degree为什么要减一？防止n_c非常小的情况。

根据权重挑选出新的term 加入query中，完善query，从而得到新的结果。