现代信息检索 小笔

信息检索:ARSOA,从文档集合中返回满足用户需求的相关信息的过程。研究信息的获取(acquisition)、表示(representation)、存储(stotage)、组织(organization)和访问(access)。

 
信息检索的两种研究方式:
以计算机为中心: IR的工作主要是建立索引、对用户查询进行处理、排序算法等等
以用户为中心: IR的主要工作是考察用户的行为、理解用户的需求、这些行为和需求如何影响检索系统的组织
 
IR系统的组成部分

1、用户接口(user interface)
     输入查询(query)
     返回排序后的排序文档并对其可视化
     Feedback
用户的两种任务:retrieval和browsing
IR两种模式:pull or push
2、文本处理(text operations)
     中文分词(chinese word segmentation)
     词干还原(stemming)
     停用词消除(stopword removal)
3、查询处理(query operations) 对经过文本处理后的查询进行进一步处理,得到查询的内部表示(Query Representation)
          查询扩展(query expansion) 利用同义词或近义词
          查询重构(query reconstruction)利用feedback
4、文本标引(indexing)  对经过文本处理后的文本进行进一步处理,得到文本的内部表示(Text Representation),通常基于标引项(Term)来表示
     向量化、概率计算
     组成成倒排表进行存储
5、搜索(searching)
6、排序(ranking)
7、Logical view 指的是查询或者文本的表示,通常采用一些关键词或者标引项(index term)来表示一段查询或者文本。
原文地址:https://www.cnblogs.com/lake19901126/p/2592263.html