lucene中的一些名词的解释

这里的名词主要是信息检索导论中的一些解释：

Information need

人们为什么要搜索？因为有需求。这种需求被称为“信息需求”。搜索技术正是满足人们信息需求背后的技术。

Search Index

Index 是集中存放文本信息的地方。它的结构、构建、更新、使用是搜索技术的核心部分。

Document

Document 是人们搜索时希望获取的信息单元。比如对于百度、Google 来讲，一个网页就是一个 Document。在论坛里搜索时，Document 则对应于一篇帖子。

Query

用户的 Information Need 的形式是：告诉搜索引擎自己想要搜索什么内容，搜索引擎返回若干符合要求的 Document。“想要搜索什么内容”，就是 Query。Query 可以很简单：最基本的 Query，如搜索所有包含“苹果”的 Document。也可以更复杂一点：搜索包含”苹果“但不包含”梨子“的Document。当然，还可以更复杂地多....

Token

一个 Document 里的信息在被加入到 Index 之前需要先被分解为 token。粗略的讲，一个 token 就是一个词语。比如“我喜欢苹果”这句话里就有三个 token: “我”， “喜欢”，和“苹果”。

Term

一个 Document 可能包含多个同样的 token 。去掉重复的 token，这个集合中的每个元素就叫一个 term。比如 “我喜欢我家”，有四个 token，“我”，“喜欢”，“我”，“家”；但只有三个 terms：“我”，“喜欢”，“家”。

Vocabulary/Dictionary

Term 的集合称为这个集合的 vocabulary 或者 dictionaray。

Posting/Postings list

在 Index 中。为了快速搜索到包含某个 term 的所有 Document，一个 term 会有一个包含该 term 的所有的 document 的 ID 列表，这个列表称为 postings list. 其中每个元素，或者更确切的说，每一个 (term, DocID) 对，称为一个 posting

转自：https://www.cnblogs.com/lins05/p/3164203.html

诸位正值青春年少，一定恣情放纵，贪恋香艳梅施之情，喜欢风流雅韵之事，洒脱木拘。然而诸位可知，草上露一碰即落，竹上霜一触即溶，此种风情难于长久。