10.多shard场景下relevence score可能不准确

主要知识点

一、多shard场景下relevance score不准确的原因

如果你个index有多个shard的话，可能搜索结果的排序会不准确。主要原因是TF/IDF的算法，es在计算IDF值时，默认只会计算当前shard的IDF值，而不会把整个index作为基数来计算，这样做的目的当前是为了性能，这也是多shard场景下relevance score不准确的原因。

二、多shard场景下relevence score可能不准确解决方式

1、生产环境下，数据量大，es会尽可能实现均匀分配。在生产环境中，一般数据量都是很大，在大数据量的概率学背景下，es都是在多个shard中均匀路由数据的，路由的时候根据_id实现负载均衡，此时各个shard中的个数基本一致。因此IDF值也基本一致。

2、在测试环境下，可以在建立索引时将primary shard设置为1个（number_of_shards=1），如果说只有一个shard，那么当然所有的document都在这个shard里面，就没有这个问题了。

3、测试环境下，搜索附带search_type=dfs_query_then_fetch参数，此时在计算一个doc的相关度分数的时候，就会将所有shard中的doc来做为IDF的基数，这样做能确保准确性。但是在生产环境下，不推荐设置这个参数，因为性能很差。