Information Retrieval

【Information Retrieval】

　1、信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。

　2、布尔检索模型

　3、文档（document）是信息检索系统的检索对象，它们可以是一条条单独的记录或者是一本书的各章。

　4、所有文档组成的文档集（collection），有时也称为语料库（corpus）。

　5、检索系统的效果（effectiveness）：

　　1）正确率：返回的结果中真正和信息需求相关的文档所占的百分比。

　　2）召回率：所有和信息需求真正相关的文档中被检索系统返回的百分比。

　6、倒排索引（inverted index），是一个从词项（term，词项的集合也叫 dictionary / vocabulary / lexicon）到倒排记录表（posting list / inverted list）的一张表，所有词的倒排记录表构成全休倒排记录表（postings）。

　7、建立索引主要步骤：

　8、建立倒排索引

　　给定一个文档集,我们假定每篇文档都有一个唯一的标识符即编号(docID)。在索引构建过程中,我们可以给每篇新出现的文档赋一个连续的整数编号。在上述的前 3 步处理结束后, 对每篇文档建立索引时的输入就是一个归一化的词条表,也可以看成二元组(词项,文档 ID) 的一个列表(参见图 1-4)。建立索引最核心的步骤是将这个列表按照词项的字母顺序进行排序, 之后我们得到下图中部显示的结果,其中一个词项在同一文档中的多次出现会合并在一起 1, 最后整个结果分成词典和倒排记录表两部分。

　　在最终得到的倒排索引中,词典和倒排记录表都有存储开销。前者往往放在内存中,而后者由于规模大得多,通常放在磁盘上。

　9、倒排记录表的存储方式：

　　1）单链表。

　　2）变长数组，定长数组链表。

11. 查询优化, 对于下述查询, 一个启发式的想法是, 按照词项的文档频率(也就是倒排记录表的长度)从小到大依次进行处理,如果我们先合并两个最短的倒排记录表,那么所有中间结果的大小都不会超过最短的倒排记录表

　　Brutus AND Caesar AND Calpurnia