Elasticsearch聚合语句

聚合的范围是search query过滤出的数据

四种聚合类型：

一、Bucketing

桶聚合，常规的分类然后计算每个分类的文档数量

二、Metric

分类并对一组文档进行sum、avg等数学运算

三、Matrix

可在多个字段上计算，生成矩阵结果

四、Pipeline

对聚合的结果再次聚合

Pipeline aggregations 会在所有的聚类执行完毕之后才执行

聚合语句的结构

"aggs" : {
    "<aggregation_name>" : {
        "<aggregation_type>" : {
            <aggregation_body>
        }
        [,"meta" : {  [<meta_data_body>] } ]?
        [,"aggregations" : { [<sub_aggregation>]+ } ]?
    }
    [,"<aggregation_name_2>" : { ... } ]*
}

Terms Aggregation

会根据字段的值动态构建buckets

{
    "aggs" : {
        "genres" : {
            "terms" : { "field" : "genre" }
        }
    }
}

{
    ...
    "aggregations" : {
        "genres" : {
            "doc_count_error_upper_bound": 0, 
            "sum_other_doc_count": 0, 
            "buckets" : [ 
                {
                    "key" : "jazz",
                    "doc_count" : 10
                },
                {
                    "key" : "rock",
                    "doc_count" : 10
                },
                {
                    "key" : "electronic",
                    "doc_count" : 10
                },
            ]
        }
    }
}

当字段的值很多的时候，elasticsearch只会返回部分buckets，sum_other_doc_count表示没有被返回的 buckets 中 document 的数量之和

size

默认情况下，elasticsearch只会返回按照doc_count降序排序的前10个terms，可以配置size参数来修改这一默认行为

terms聚合的结果是不精确的

https://mp.weixin.qq.com/s/V4cGqvkQ7-DgeSvPSketgQ

比如设置size = 3，表示希望返回TOP3的结果

每个索引分片会取自己分片上TOP3返回协调节点，协调节点汇总后再取汇总结果的TOP3

因此，这个结果是跟全量取TOP3不一样的，所以说terms聚合的结果是不精确的

size 和 shard_size 有什么区别？

size：是聚合结果的返回值，客户期望返回聚合排名前三，size值就是 3。
shard_size: 每个分片上聚合的数据条数。shard_size 原则上要大于等于 size（若设置小于size，实则没有意义，elasticsearch 会默认置为size）

请求的size值越高，结果将越准确，但计算最终结果的成本也将越高。

推荐设置 shard_size 为比较大的值，官方推荐：size*1.5+10

Order

buckets的排序可以由order参数定义

按doc数量升序排序：

{
    "aggs" : {
        "genres" : {
            "terms" : {
                "field" : "genre",
                "order" : { "_count" : "asc" }
            }
        }
    }
}

按terms的字符升序排序：

{
    "aggs" : {
        "genres" : {
            "terms" : {
                "field" : "genre",
                "order" : { "_term" : "asc" }
            }
        }
    }
}

按子聚类的结果排序：

{
    "aggs" : {
        "genres" : {
            "terms" : {
                "field" : "genre",
                "order" : { "max_play_count" : "desc" }
            },
            "aggs" : {
                "max_play_count" : { "max" : { "field" : "play_count" } }
            }
        }
    }
}

min_doc_count

默认值为1，表示只返回doc_count大于等于1的buckets

{
    "aggs" : {
        "tags" : {
            "terms" : {
                "field" : "tags",
                "min_doc_count": 10
            }
        }
    }
}

Nested Aggregation

针对nested字段的聚合，比如

{
    ...

    "product" : {
        "properties" : {
            "resellers" : { 
                "type" : "nested",
                "properties" : {
                    "name" : { "type" : "text" },
                    "price" : { "type" : "double" }
                }
            }
        }
    }
}

求价格最低的产品的聚合语句可以写成：

{
    "query" : {
        "match" : { "name" : "led tv" }
    },
    "aggs" : {
        "resellers" : {
            "nested" : {
                "path" : "resellers"
            },
            "aggs" : {
                "min_price" : { "min" : { "field" : "resellers.price" } }
            }
        }
    }
}

需要在顶层聚类的path字段填入nested的字段名称，然后，在子聚类中再针对子字段聚类

Date Histogram Aggregation 日期直方图

比如，想要统计每天的商品销量

GET /goods/_search
{
  "query": {
      "bool": {
        "filter": [
          {
            "range": {
              "date_list": {
              "gte": "2020-8-1",
              "lt": "2020-8-2"
              }
            }
          }
        ]
      }
  },
  "size": 0,
  "aggs": {
    "date_count": {
      "date_histogram": {
        "field": "date_list",
        "format": "yyyy-MM-dd",
        "interval": "day"
      }
    }
  }
}

根据过滤的结果数据，以天为间隔聚类绘制直方图

{
  "took": 82,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 34841,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "date_count": {
      "buckets": [
        {
          "key_as_string": "2020-06-02",
          "key": 1591056000000,
          "doc_count": 17
        },
        {
          "key_as_string": "2020-06-03",
          "key": 1591142400000,
          "doc_count": 387
        },
...

会出现6月的聚类结果是因为date_list是一组数据，可能某个document的这个字段即包含8月2日又包含6月2日，那么它将即被放到8-2的桶也被放到6-2的桶

时间间隔

时间间隔单位的可选项：year, quarter, month, week, day, hour, minute, second

精确指定时间间隔：1.5h也可以写成90m

时间格式

在es内部，日期被表示为一个64位的时间戳（milliseconds-since-the-epoch），这正是bucket key字段的值。key_as_string字段的格式可以由format参数决定

如果不指定format，则es会选此字段mapping的第一个日期格式

offset

当使用day作为时间间隔的时候，每个桶的范围是0点至0点，设置offset为+6h表示将桶的范围改为6am to 6am

GET my_index/_search?size=0
{
  "aggs": {
    "by_day": {
      "date_histogram": {
        "field":     "date",
        "interval":  "day",
        "offset":    "+6h"
      }
    }
  }
}

Keyed Response

将keyed标签置为true表示bucket将以hashmap格式返回，key_as_string作为key

POST /sales/_search?size=0
{
    "aggs" : {
        "sales_over_time" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "1M",
                "format" : "yyyy-MM-dd",
                "keyed": true
            }
        }
    }
}

Response：

{
    ...
    "aggregations": {
        "sales_over_time": {
            "buckets": {
                "2015-01-01": {
                    "key_as_string": "2015-01-01",
                    "key": 1420070400000,
                    "doc_count": 3
                },
                "2015-02-01": {
                    "key_as_string": "2015-02-01",
                    "key": 1422748800000,
                    "doc_count": 2
                },
                "2015-03-01": {
                    "key_as_string": "2015-03-01",
                    "key": 1425168000000,
                    "doc_count": 2
                }
            }
        }
    }
}

Missing value

如果不定义missing，date字段缺失的文档将被忽略。这样定义后，这些文档会被归入2000/01/01桶

POST /sales/_search?size=0
{
    "aggs" : {
        "sale_date" : {
             "date_histogram" : {
                 "field" : "date",
                 "interval": "year",
                 "missing": "2000/01/01" 
             }
         }
    }
}

根据聚合的结果进行过滤

https://elasticsearch.cn/article/13501

每个IP登录次数超过5次的IP

{
  "aggs": {
    "IP": {
      "terms": {
        "field": "IP",
        "size": 3000,
        "order": {
          "_count": "desc"
        },
        "min_doc_count": 5
      }
    }
  },
  "size": 0
}

会筛选出大于或等于5的buckets

每个IP登录人数超过2的IP

{
  "aggs": {
    "IP": {
      "terms": {
        "field": "IP",
        "size": 3000,
        "order": {
          "distinct": "desc"
        },
        "min_doc_count": 5
      },
      "aggs": {
        "distinct": {
          "cardinality": {
            "field": "IP.keyword"
          }
        },
        "dd":{
          "bucket_selector": {
            "buckets_path": {"userCount":"distinct"},
            "script": "params.userCount > 2"
          }
        }
      }
    }
  },
  "size": 0
}

bucket_selector必须出现在子聚合中，并且只能针对子聚合的数字结果过滤，script必须返回一个bool

Post Filter

post filter允许用户在执行聚合函数之后再对hits做过滤，比如：

GET /shirts/_search
{
  "query": {
    "bool": {
      "filter": {
        "term": { "brand": "gucci" } 
      }
    }
  },
  "aggs": {
    "colors": {
      "terms": { "field": "color" } 
    },
    "color_red": {
      "filter": {
        "term": { "color": "red" } 
      },
      "aggs": {
        "models": {
          "terms": { "field": "model" } 
        }
      }
    }
  },
  "post_filter": { 
    "term": { "color": "red" }
  }
}

由于aggs的范围取决于query，因此不能在一开始就过滤出颜色为红色的