聚合查询(Bucket聚合)

上一篇讲了Elasticsearch聚合查询中的Metric聚合：Elasticsearch(8) --- 聚合查询(Metric聚合)

说明 本文主要参考于Elasticsearch 官方文档 7.3版本。 Bucket Aggregations

概念：Bucket 可以理解为一个桶，它会遍历文档中的内容，凡是符合某一要求的就放入一个桶中，分桶相当与 SQL 中的 group by。

这篇博客讲的桶的关键字有：Terms Aggregation 、Filter Aggregation、Histogram Aggregation、Range Aggregation 、Date Aggregation。

一、创建索引、数据

1、创建索引

DELETE cars

PUT cars

{

  "mappings": {

      "properties": {

        "price": {

          "type":"long"

        },

        "color": {

          "type":"keyword"

        },

        "brand": {

          "type":"keyword"

        },

        "sellTime": {

          "type":"date"

        }

      }

    }

}

属性字段：价格、颜色、品牌、销售时间

2、添加索引数据

POST /cars/_bulk

{ "index": {}}

{ "price" : 80000, "color" : "red", "brand" : "BMW", "sellTime" : "2014-01-28" }

{ "index": {}}

{ "price" : 85000, "color" : "green", "brand" : "BMW", "sellTime" : "2014-02-05" }

{ "index": {}}

{ "price" : 120000, "color" : "green", "brand" : "Mercedes", "sellTime" : "2014-03-18" }

{ "index": {}}

{ "price" : 105000, "color" : "blue", "brand" : "Mercedes", "sellTime" : "2014-04-02" }

{ "index": {}}

{ "price" : 72000, "color" : "green", "brand" : "Audi", "sellTime" : "2014-05-19" }

{ "index": {}}

{ "price" : 60000, "color" : "red", "brand" : "Audi", "sellTime" : "2014-06-05" }

{ "index": {}}

{ "price" : 40000, "color" : "red", "brand" : "Audi", "sellTime" : "2014-07-01" }

{ "index": {}}

{ "price" : 35000, "color" : "blue", "brand" : "Honda", "sellTime" : "2014-08-12" }

3、查看是否成功

命令

GET /_cat/count/cars?v

可以看到该索引存在，并且有8条文档数据。

二、Terms Aggregation

官方7.3文档：Terms Aggregation

概念 : 根据某一项的每个唯一的值的聚合。

1、根据品牌分桶

GET cars/_search?size=0

{

    "aggs" : {

        "genres" : {

            "terms" : { "field" : "brand" }

        }

    }

}

返回结果

2、分桶后只显示文档数量前3的桶

GET cars/_search?size=0

{

    "aggs" : {

        "cars" : {

            "terms" : {

                "field" : "brand",

                "size" : 3

            }

        }

    }

}

从图中可以看出文档数量前三的桶。

3、分桶后排序

GET cars/_search?size=0

{

    "aggs" : {

        "genres" : {

            "terms" : {

                "field" : "brand",

                "order" : { "_count" : "asc" }

            }

        }

    }

}

4、显示文档数量大于3的桶

GET cars/_search?size=0

{

    "aggs" : {

        "brands" : {

            "terms" : {

                "field" : "brand",

                "min_doc_count": 3

            }

        }

    }

}

5、使用精确指定的词条进行分桶

GET /cars/_search?size=0

{

    "aggs" : {

        "JapaneseCars" : {

             "terms" : {

                 "field" : "brand",

                 "include" : ["BMW", "Audi"]

             }

         }

    }

}

这里也只展示些常用的，更多有关Terms Aggregation那就看官网吧。

三、 Filter Aggregation

官方文档： Filter Aggregation 和 Filters Aggregation

Filter概念：指具体的域和具体的值，可以说是在 Terms Aggregation 的基础上进行了过滤，只对特定的值进行了聚合。

1、过滤获取品牌为BMW的桶，并求该桶平均值

GET /cars/_search?size=0

{

    "aggs" : {

        "brands" : {

            "filter" : { "term": { "brand": "BMW" } },

            "aggs" : {

                "avg_price" : { "avg" : { "field" : "price" } }

            }

        }

    }

}

2、过滤获取品牌为BMW的或者color为绿色的桶

Filters概念 : Filter Aggreagtion 只能指定一个过滤条件，响应也只是单个桶。如果想要只对多个特定值进行聚合，使用 Filter Aggreagtion 只能进行多次请求。

而使用 Filters Aggreagation 就可以解决上述的问题，它可以指定多个过滤条件，也是说可以对多个特定值进行聚合。

GET /cars/_search?size=0

{

  "size": 0,

  "aggs" : {

    "cars" : {

      "filters" : {

        "filters" : {

          "colorBucket" :   { "match" : { "color" : "red"   }},

          "brandBucket" : { "match" : { "brand" : "Audi" }}

        }

      }

    }

  }

}

四、Histogram Aggreagtion

官方文档：Histogram Aggreagtion

概念 Histogram与Terms聚合类似，都是数据分组，区别是Terms是按照Field的值分组，而Histogram可以按照指定的间隔对Field进行分组

1、根据价格区间为10000分桶

GET /cars/_search?size=0

{

    "aggs" : {

        "prices" : {

            "histogram" : {

                "field" : "price",

                "interval" : 10000

            }

        }

    }

}

2、根据价格区间为10000分桶，同时如果桶中没有文档就不显示桶

上面的分桶我们可以发现价格在5000～6000 的文档没有也显示为0，我们想把如果桶中没有文档就不显示该桶

GET /cars/_search?size=0

{

    "aggs" : {

        "prices" : {

            "histogram" : {

                "field" : "price",

                "interval" : 10000,

                 "min_doc_count" : 1

            }

        }

    }

}

五、Range Aggregation

官方文档：Range Aggregation

概念: 根据用户传递的范围参数作为桶，进行相应的聚合。在同一个请求中，可以传递多组范围，每组范围作为一个桶。

1、根据价格区间分桶

GET /cars/_search?size=0

{

    "aggs" : {

        "price_ranges" : {

            "range" : {

                "field" : "price",

                "ranges" : [

                    { "to" : 50000 },

                    { "from" : 5000, "to" : 80000 },

                    { "from" : 80000 }

                ]

            }

        }

    }

}

我们也可以指定key的名称

GET /cars/_search?size=0

{

    "aggs" : {

        "price_ranges" : {

            "range" : {

                "field" : "price",

                "ranges" : [

                    { "key" : "xiaoyu",  "to" : 50000 },

                    {  "key" : "baohan", "from" : 5000, "to" : 80000 },

                    {  "key" : "dayu", "from" : 80000 }

                ]

            }

        }

    }

}

六、 Date Aggregation

官方文档： Date Histogram Aggregation 和 Date Range Aggregation

Date Histogram概念 针对于时间格式数据的直方图聚合，基本的特性与 Histogram Aggregation 一致。

1、按月分桶显示每个月的销量

注意 官方文档这里不是interval而是calendar_interval，但是按照这样操作会报错，因为我看的7.3的文档，而我部署的es是7.1版本。说明这个地方7.3有了改进。

POST /cars/_search?size=0

{

    "aggs" : {

        "sales_over_time" : {

            "date_histogram" : {

                "field" : "sellTime",

                "interval" : "1M",

                "format" : "yyyy-MM-dd"

            }

        }

    }

}

2、根据指定时间区间分桶

Date Range概念 ：针对于时间格式数据的范围聚合，基本的特性与 Range Aggreagtion 一致。

POST /cars/_search?size=0

{

    "aggs": {

        "range": {

            "date_range": {

                "field": "sellTime",

                "format": "MM-yyyy",

                "ranges": [

                    { "to": "now-10M/M" },

                    { "from": "now-10M/M" }

                ]

            }

        }

    }

}

上面的意思是10个月前的分为一个桶，10个月前之后的分为一个桶

参考

1、Elasticsearch核心技术与实战---阮一鸣(eBay Pronto平台技术负责人

2、ES7.3版官方聚合查询API

3、Elasticsearch聚合——Bucket Aggregations

4、ElasticSearch-聚合bucket

 我相信，无论今后的道路多么坎坷，只要抓住今天，迟早会在奋斗中尝到人生的甘甜。抓住人生中的一分一秒，胜过虚度中的一月一年！(14）

Elasticsearch(9) --- 聚合查询(Bucket聚合)的更多相关文章

Elasticsearch(8) --- 聚合查询(Metric聚合)
Elasticsearch(8) --- 聚合查询(Metric聚合) 在Mysql中,我们可以获取一组数据的最大值(Max).最小值(Min).同样我们能够对这组数据进行分组(Group).那么 ...
ElasticSearch的高级复杂查询：非聚合查询和聚合查询
一.非聚合复杂查询(这儿展示了非聚合复杂查询的常用流程) 查询条件QueryBuilder的构建方法 1.1 精确查询(必须完全匹配上,相当于SQL语句中的“=”) ① 单个匹配 termQuery ...
ES[7.6.x]学习笔记（十）聚合查询
聚合查询,它是在搜索的结果上,提供的一些聚合数据信息的方法.比如:求和.最大值.平均数等.聚合查询的类型有很多种,每一种类型都有它自己的目的和输出.在ES中,也有很多种聚合查询,下面我们看看聚合查询的 ...
Elasticsearch使用系列-基本查询和聚合查询+sql插件
Elasticsearch使用系列-ES简介和环境搭建 Elasticsearch使用系列-ES增删查改基本操作+ik分词 Elasticsearch使用系列-基本查询和聚合查询+sql插件 Elas ...
django基础之day04，聚合查询和分组查询
聚合查询: 聚合函数必须用在分组之后,没有分组其实默认整体就是一组 Max Min Sum Avg Count 1.分组的关键字是:aggretate 2.导入模块 from django.db.mo ...
Es学习第九课，聚合查询和复合查询
ES除了实现前几课的基本查询,也可以实现类似关系型数据库的聚合查询,如平均值sum.最小值min.最大值max等等我们就用上一课的数据作为参考来举例聚合查询 sum聚合 sum是一个求累加值的聚合 ...
SQL基础教程（第2版）第3章聚合与排序：3-1 对表进行聚合查询
3-1 对表进行聚合查询 ● 使用聚合函数对表中的列进行计算合计值或者平均值等的汇总操作.● 通常,聚合函数会对NULL以外的对象进行汇总.但是只有COUNT函数例外,使用COUNT(*)可以查出包含 ...
Django学习——图书相关表关系建立、基于双下划线的跨表查询、聚合查询、分组查询、F查询、Q查询、admin的使用、使用脚本调用Django、Django查看源生sql
0 图书相关表关系建立 1.5个表 2.书籍表,作者表,作者详情表(垂直分表),出版社表,书籍和作者表(多对多关系) 一对一多对多本质都是一对多外键关系 3.一对一的关系,关联字段可以写在任意一 ...
java使用elasticsearch分组进行聚合查询（group by）-项目中实际应用
java连接elasticsearch 进行聚合查询进行相应操作一:对单个字段进行分组求和 1.表结构图片: 根据任务id分组,分别统计出每个任务id下有多少个文字标题 .SQL:select id ...

随机推荐

Streaming-大数据的未来
分享一篇关于实时流式计算的经典文章,这篇文章名为Streaming 101: The world beyond batch 那么流计算如何超越批处理呢? 从这几个方面说明:实时流计算系统,数据处理模式 ...
图数据库 Nebula Graph 的数据模型和系统架构设计
Nebula Graph:一个开源的分布式图数据库.作为唯一能够存储万亿个带属性的节点和边的在线图数据库,Nebula Graph 不仅能够在高并发场景下满足毫秒级的低时延查询要求,而且能够提供极高的 ...
JSONP跨域的script标签请求为什么不受同源策略的限制？
在复习跨域的时候,复习到了JSONP跨域,大家都知道JSONP跨域是通过动态创建script标签,然后通过其src属性进行跨域请求的,前端需要一个数据处理的回调函数,而服务端需要配合执行回调函数,放入 ...
Unity3D 基于ShadowMap的平滑硬阴影
前言传统的ShadowMap在明暗边缘处都会有很难看的锯齿,因此一般得到的结果会比较难看,常规的解决办法都会在使用ShadowMap渲染阴影的时候通过背面剔除把这种缺陷隐藏掉,最后剩下一个影子.但是 ...
学会spss就能找到数据分析工作吗
大学课堂上学习了spss,老师也讲了很多知识,但是现在准备毕业了,我做的实习工作就是用业内的数据进行最新的行业研究.现在真正需要用到spss进行分析了,我却看不懂老板给的数据和分析要求,难道这就是理 ...
【管理学】PDCA
FZU - 2150-Fire Game BFS-枚举
Fire Game 题意: 两个小朋友可以任选一块草地点火,草地可以不同,也可以相同,问最少的烧光草地的时间. 思路: 一开始看到这个以为是联通块计数,没想到这道题通过枚举两个起始点作为队列的初始点, ...
HDU 6394 Tree 分块 || lct
Tree 题意: 给你一颗树, 每一个节点都有一个权值, 如果一个石头落在某个节点上, 他就会往上跳这个的点的权值步. 现在有2种操作, 1 把一个石头放在 x 的位置询问有跳几次才跳出这棵树, 2 ...
CodeM 资格赛 B 可乐思维
分析: 我们假设购买一种可乐p瓶,我们可以得到期望:p*(m/n*a[i]+(n-m)/n*b[i]),由这个式子我们可以看出唯一的变量是i,所以可以遍历i找出式子的最大值 #include &l ...
PAT 天梯杯 L2-024 部落 dfs，连通块
L2-024. 部落时间限制 120 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者陈越在一个社区里,每个人都有自己的小圈子,还可能同时属于很多不 ...

Elasticsearch(9) --- 聚合查询(Bucket聚合)