Elasticsearch---基于scroll技术滚动搜索大量数据

如果一次性要查出来比如10万条数据,那么性能会很差,此时一般会采取用scoll滚动查询,一批一批的查,直到所有数据都查询完处理完

使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来
scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的
采用基于_doc进行排序的方式,性能较高
每次发送scroll请求,我们还需要指定一个scoll参数,指定一个时间窗口,每次搜索请求只要在这个时间窗口内能完成就可以了

GET /test_index/test_type/_search?scroll=1m
{
  "query": {
    "match_all": {}
  },
  "sort":["_doc"],
  "size":3
}
//结果
{
  "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAABlEFlhIb1FOME82U3llb202bER1Zm95VkEAAAAAAAAZRRZYSG9RTjBPNlN5ZW9tNmxEdWZveVZBAAAAAAAAGUYWWEhvUU4wTzZTeWVvbTZsRHVmb3lWQQAAAAAAABlHFlhIb1FOME82U3llb202bER1Zm95VkEAAAAAAAAZSBZYSG9RTjBPNlN5ZW9tNmxEdWZveVZB",
  "took": 2,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 10,
    "max_score": null,
    "hits": [
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "AVsxkqabZ1jIX97EnDWz",
        "_score": null,
        "_source": {
          "test_filed": "auto_id"
        },
        "sort": [
          0
        ]
      },
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "12",
        "_score": null,
        "_source": {
          "test_field": "test_12"
        },
        "sort": [
          0
        ]
      },
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "2",
        "_score": null,
        "_source": {
          "test_field": "test_test_external_vesion"
        },
        "sort": [
          0
        ]
      }
    ]
  }
}

获取的结果会有一个scroll__id,下次再发送scroll请求的时候,必须带上这个scroll_id

GET /_search/scroll
{
  "scroll":"1m",
 "scroll_id":"DnF1ZXJ5VGhlbkZldGNoBQAAAAAAABmIFlhIb1FOME82U3llb202bER1Zm95VkEAAAAAAAAZjBZYSG9RTjBPNlN5ZW9tNmxEdWZveVZBAAAAAAAAGYoWWEhvUU4wTzZTeWVvbTZsRHVmb3lWQQAAAAAAABmLFlhIb1FOME82U3llb202bER1Zm95VkEAAAAAAAAZiRZYSG9RTjBPNlN5ZW9tNmxEdWZveVZB"
}
      </div>
原文地址:https://www.cnblogs.com/jpfss/p/10823479.html