基于ElasticSearch的标签系统的架构治理

原有标签系统重度依赖elasticsearch，支持了公司70+接入方使用。支持了几个业务条线的客户分析及API服务。

整个Elasticsearch 集群共计存储了10T+的数据(无副本模式)。

整个ElasticSearch 集群涉及了几个场景的使用：

我们遇到的问题:

集群在数据写入的情况下，因为使用bulk 的方式 load，导致集群的search能力和 _aggs 能力性能急遽下降，导致了API服务的不稳定，甚至是不可用。
集群在_scroll 情况和用户画像的情况下，内存急速消耗，导致长时间的GC，进而影响API服务的可用性和业务使用
索引SHARD 分配不合理，极其容易导致 _search 导致的负载过高，甚至 shard 丢失，进而Elasticsearch 集群变红，导致服务不可用。
Elasticsearch 的写入只能进行限速的导入，从而导致数据的时效无法达到业务的要求。单一大索引，导入时间在40小时+, 从而导致业务时效口碑较差。
若干大索引同时写入过程中，集群负载过高，导致集群直接飘红，无法服务。因为若干导数作业的时序性无法保证，所以集群的稳定性只能靠人为自行监控排查。因为事件经常在半夜，苦不堪言。

集群飘红，是多因素导致的。

ElasticSearch集群飘红的原因有很多。总的来说，可以分成3类。

IO过高一般有两种，一种是iowait多高，这种情况下需要更好的ssd硬盘。即便是SSD硬盘的情况下，我们也同样碰到了IO过高。(公司内网不方便截图)。当然这种IO过高，定位了原因是文件系统在做其他读写，进行了限速写入就恢复了。(在HDD硬盘上，这种IOwait 会更多)

另外一种是 ES进程内的文档插入/更新参数不合理导致的IO过高。如bulk的byteSize设置不合理，refreshInterval 设置成1s 导致的Segment Merge 问题，以及Replica设置成3导致的副本分发IO问题(translog)。

流量过大，主要是上游未做保护的流量穿透。比如_search 高峰可达30w/s。这种请求的堆积，正常情况下，只会堆积请求，但与写入请求同时发生时，容易引起FGC，进而导致节点脱离。

GC 算法需要优化，在JDK11 的新GC算法前， CMS和G1的表现算是比较差的。CMS经常会GC时间过长，导致节点的健康检查无法及时通过，进而被集群判定为挂了，导致集群飘红，影响业务。

从上述各场景定性的分析，按照场景和资源消耗情况进行整理出来大致的方案。

为啥不定量？因为No Measurement！而且在资源不稳定的情况下，各种数字已经失真了。

因此改进方案分成4路分别改进：

重点产出成果有三个：

Hive2ES 工具。参考DiDi 的 fastindex 实现。可以把原来40h+的导数任务并行到2h。同时对Elasticsearch的负载由原来的Cpu&io 变成了纯IO影响。后续会单独来描述这一内容
异步取批数据服务。可以稳定的提供取批功能，原来平均取批时间从20min到5min。并且稳定高效，支持断点续传
画像服务产品。独立的画像数据服务。提供高性能的key value 查找服务，支持定制化DSL定义，可以跨集群/跨索引/跨接口的提供服务。