Elasticsearch系统学习(十)-document路由原理及读增删改内部原理

一、document路由原理

image

1.1、document路由到shard

一个index数据会被分为多片,每片都会存在一个shard中,一个document只会存在一个shard中,当客户端创建document时,es需要决定将这个document存放于哪个shard中,这个过程就叫做:document routing

1.2、路由算法

shard = hash(routing) % number_of_primary_shards

1)举例说明:

一个index有3个primary shard,P0,P1,P2,每次增删改查一个document的时候,都会带过来一个routing number,默认就是这个document的_id(可能是手动指定,也可能是自动生成,routing = _id,假设_id=1,会将这个routing值,传入一个hash函数中,产出一个routing值的hash值,假设hash(routing) = 21,然后将hash函数产出的值对这个index的primary shard的数量求余数,21 % 3 = 0,就决定了,这个document就放在P0上。
决定一个document在哪个shard上,最重要的一个值就是routing值,默认是_id,也可以手动指定,相同的routing值,每次过来,从hash函数中,产出的hash值一定是相同的
无论hash值是多少,对number_of_primary_shards求余数,结果一定是在0~number_of_primary_shards-1之间这个范围内的。

2)_id or custom routing value

默认的routing就是_id,也可以在发送请求的时候,手动指定一个routing value,比如说put /index/type/id?routing=user_id
手动指定routing value是很有用的,可以保证说,某一类document一定被路由到一个shard上去,那么在后续进行应用级别的负载均衡,以及提升批量读取的性能的时候,是很有帮助的

3)primary shard数量是不可变的

二、document内部增删改原理

image

(1)客户端选择一个node发送请求过去,这个node就是coordinating node(协调节点)
(2)coordinating node,对document进行路由,将请求转发给对应的node(有primary shard)
(3)实际的node上的primary shard处理请求,然后将数据同步到replica node
(4)coordinating node,如果发现primary node和所有replica node都搞定之后,就返回响应结果给客户端

三、写一致性及quorum机制

3.1、写一致性原理

我们在发送任何一个增删改操作的时候,比如说put /index/type/id,都可以带上一个consistency参数,指明我们想要的写一致性是什么?如put /index/type/id?consistency=quorum

consistency取值

one:要求我们这个写操作,只要有一个primary shard是active活跃可用的,就可以执行
all:要求我们这个写操作,必须所有的primary shard和replica shard都是活跃的,才可以执行这个写操作
quorum:默认的值,要求所有的shard中,必须是大部分的shard都是活跃的,可用的,才可以执行这个写操作

3.2、quorum机制

写之前必须确保大多数shard都可用,int( (primary + number_of_replicas) / 2 ) + 1,当number_of_replicas>1时才生效

举例说明

3个primary shard,number_of_replicas=1,总共有3 + 3 * 1 = 6个shard
quorum = int( (3 + 1) / 2 ) + 1 = 3
所以,要求6个shard中至少有3个shard是active状态的,才可以执行这个写操作

注意

1)如果节点数少于quorum数量,可能导致quorum不齐全,进而导致无法执行任何写操作

3个primary shard,replica=1,要求至少3个shard是active,3个shard按照shard&replica机制,必须在不同的节点上,如果说只有2台机器的话,是不是有可能出现说,3个shard都没法分配齐全,此时就可能会出现写操作无法执行的情况,es提供了一种特殊的处理场景,当number_of_replicas>1时才生效,因为一个primary shard,replica=1,此时就2个shard,(1 + 1 / 2) + 1 =2,要求必须有2个shard是活跃的,但是可能就1个node,此时就1个shard是活跃的,如果不特殊处理的话,导致我们的单节点集群就无法工作

2)quorum不齐全时,wait,默认1分钟,timeout,100,30s

等待期间,期望活跃的shard数量可以增加,最后实在不行,就会timeout
在写操作的时候,加一个timeout参数,比如说put /index/type/id?timeout=30,设定quorum不齐全的时候,es的timeout时长,可以缩短,也可以增长

四、document读请求内部原理

image

1、客户端发送请求到任意一个node,成为coordinate node
2、coordinate node对document进行路由,将请求转发到对应的node,此时会使用round-robin随机轮询算法,在primary shard以及其所有replica中随机选择一个,让读请求负载均衡
3、接收请求的node返回document给coordinate node
4、coordinate node返回document给客户端
5、特殊情况:document如果还在建立索引过程中,可能只有primary shard有,任何一个replica shard都没有,此时可能会导致无法读取到document,但是document完成索引建立之后,primary shard和replica shard就都有了

原文地址:https://www.cnblogs.com/hujinzhong/p/11451322.html