【死磕ES】三、基本概念

Elastic Stack生态圈

主要围绕两个概念：高可用和拓展性

高可用：简称 HA，是系统一种特征或者指标，体现如下两点：

拓展性：将原来节点和增量数据重新从 10 个节点分布到 100 个节点，应对数据的猛增；

节点：是一个ES实例，本质上就是一个java进程，一个机器上可以运行多个实例，但是生产环境建议一台机器上只运行一个ES实例；

节点类型

分片

主分片：用来解决数据水平扩展的问题

副本分片：用来备份数据，提高数据的高可用性。副本分片是主分片的拷贝

1、举例

1）正排索引

2）倒排索引

2、倒排索引核心组成

词条（Term）：索引里面最小的存储和查询单元，对于英文来说是一个单词，对于中文来说一般指分词后的一个词。
词典（Term Dictionary）：或字典，是词条 Term 的集合。搜索引擎的通常索引单位是单词，单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
倒排表（Post list）：一个文档通常由多个词组成，倒排表记录的是某个词在哪些文档里出现过以及出现的位置。

每条记录称为一个倒排项（Posting）。倒排表记录的不单是文档编号，还存储了词频等信息。
倒排文件（Inverted File）：所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件被称之为倒排文件，倒排文件是存储倒排索引的物理文件。

词典和倒排表是 Lucene 中很重要的两种数据结构，是实现快速检索的重要基石。词典和倒排文件是分两部分存储的，词典在内存中而倒排文件存储在磁盘上。

举例：