search（12）- elastic4s-聚合=桶+度量

这篇我们介绍一下ES的聚合功能（aggregation）。聚合是把索引数据可视化处理成可读有用数据的主要工具。聚合由bucket桶和metrics度量两部分组成。

所谓bucket就是SQL的GROUPBY，如下：

GET /cartxns/_search

{

  "size" : ,

  "aggs": {

    "color": {

      "terms": {"field": "color.keyword"}

    }

  }

}

...

  "aggregations" : {

    "color" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" :

        },

        {

          "key" : "blue",

          "doc_count" :

        },

        {

          "key" : "green",

          "doc_count" :

        }

      ]

    }

  }

上面这个例子中是以color.keyword为bucket的。elastic4是如下表现的：

val aggTerms = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").includeExactValues("red","green")

  ).sourceInclude("color","make").size()

  println(aggTerms.show)

  val termsResult = client.execute(aggTerms).await

  termsResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  termsResult.result.aggregations.terms("colors").buckets.foreach(b => println(s"${b.key},${b.docCount}"))

输出为：

POST:/cartxns/_search?

StringEntity({"size":,"_source":{"includes":["color","make"]},"aggs":{"colors":{"terms":{"field":"color.keyword","include":["red","green"]}}}},Some(application/json))

Map(color -> red, make -> honda)

Map(color -> red, make -> honda)

Map(color -> green, make -> ford)

red,

green,

下面的avg_price是个简单的度量：

POST /cartxns/_search

{

  "aggs":{

    "colors":{

      "terms":{"field":"color.keyword"},

      "aggs":{

        "avg_price":{

          "avg":{"field":"price"}

        }

      }

    }

  }

}

...

  "aggregations" : {

    "colors" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" : ,

          "avg_price" : {

            "value" : 32500.0

          }

        },

        {

          "key" : "blue",

          "doc_count" : ,

          "avg_price" : {

            "value" : 20000.0

          }

        },

        {

          "key" : "green",

          "doc_count" : ,

          "avg_price" : {

            "value" : 21000.0

          }

        }

      ]

    }

  }

terms定义bucket。在terms下加上aggs-avg表示符合某个backet条件文件的平均定价avg_price。elastic4是如下表达的：

  val aggTermsAvg = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").subAggregations(

      avgAgg("avg_price","price")

    )

  ).sourceInclude("color","make").size()

  println(aggTermsAvg.show)

  val avgResult = client.execute(aggTermsAvg).await

  avgResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  avgResult.result.aggregations.terms("colors").buckets

    .foreach(b => println(s"${b.key},${b.docCount},${b.avg("avg_price").value}"))

...

POST:/cartxns/_search?

StringEntity({"size":,"_source":{"includes":["color","make"]},"aggs":{"colors":{"terms":{"field":"color.keyword"},"aggs":{"avg_price":{"avg":{"field":"price"}}}}}},Some(application/json))

Map(color -> red, make -> honda)

Map(color -> red, make -> honda)

Map(color -> green, make -> ford)

red,,32500.0

blue,,20000.0

green,,21000.0

然后，我们可以在bucket里再增加bucket，如下：

POST /cartxns/_search

{

  "aggs":{

    "colors":{

      "terms":{"field":"color.keyword"},

      "aggs":{

        "avg_price":{"avg":{"field":"price"}},

        "makes":{"terms":{"field":"make.keyword"}}

      }

    }

  }

}

...

  "aggregations" : {

    "colors" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "honda",

                "doc_count" :

              },

              {

                "key" : "bmw",

                "doc_count" :

              }

            ]

          },

          "avg_price" : {

            "value" : 32500.0

          }

        },

        {

          "key" : "blue",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" :

              },

              {

                "key" : "toyota",

                "doc_count" :

              }

            ]

          },

          "avg_price" : {

            "value" : 20000.0

          }

        },

        {

          "key" : "green",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" :

              },

              {

                "key" : "toyota",

                "doc_count" :

              }

            ]

          },

          "avg_price" : {

            "value" : 21000.0

          }

        }

      ]

    }

  }

elastic4示范：

  val aggTAvgT = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").subAggregations(

      avgAgg("avg_price","price"),

      termsAgg("makes","make.keyword")

    )

  ).size()

  println(aggTAvgT.show)

  val avgTTResult = client.execute(aggTAvgT).await

  avgTTResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  avgTTResult.result.aggregations.terms("colors").buckets

    .foreach { cb =>

      println(s"${cb.key},${cb.docCount},${cb.avg("avg_price").value}")

      cb.terms("makes").buckets.foreach(mb => println(s"${mb.key},${mb.docCount}"))

    }

...

POST:/cartxns/_search?

StringEntity({"size":,"aggs":{"colors":{"terms":{"field":"color.keyword"},"aggs":{"avg_price":{"avg":{"field":"price"}},"makes":{"terms":{"field":"make.keyword"}}}}}},Some(application/json))

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> green, make -> ford, sold -> --)

red,,32500.0

honda,

bmw,

blue,,20000.0

ford,

toyota,

green,,21000.0

ford,

toyota,

最后，我们再在最内层的bucket增加min,max两个metrics：

POST /cartxns/_search

{

  "size":,

  "aggs":{

    "colors":{

      "terms":{"field":"color.keyword"},

      "aggs":{

        "avg_price":{"avg":{"field":"price"}},

        "makes":{"terms":{"field":"make.keyword"},

        "aggs":{

          "max_price":{"max":{"field":"price"}},

          "min_price":{"min":{"field":"price"}}

        }

       }

      }

    }

  }

}

...

  "aggregations" : {

    "colors" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "honda",

                "doc_count" : ,

                "max_price" : {

                  "value" : 20000.0

                },

                "min_price" : {

                  "value" : 10000.0

                }

              },

              {

                "key" : "bmw",

                "doc_count" : ,

                "max_price" : {

                  "value" : 80000.0

                },

                "min_price" : {

                  "value" : 80000.0

                }

              }

            ]

          },

          "avg_price" : {

            "value" : 32500.0

          }

        },

        {

          "key" : "blue",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" : ,

                "max_price" : {

                  "value" : 25000.0

                },

                "min_price" : {

                  "value" : 25000.0

                }

              },

              {

                "key" : "toyota",

                "doc_count" : ,

                "max_price" : {

                  "value" : 15000.0

                },

                "min_price" : {

                  "value" : 15000.0

                }

              }

            ]

          },

          "avg_price" : {

            "value" : 20000.0

          }

        },

        {

          "key" : "green",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" : ,

                "max_price" : {

                  "value" : 30000.0

                },

                "min_price" : {

                  "value" : 30000.0

                }

              },

              {

                "key" : "toyota",

                "doc_count" : ,

                "max_price" : {

                  "value" : 12000.0

                },

                "min_price" : {

                  "value" : 12000.0

                }

              }

            ]

          },

          "avg_price" : {

            "value" : 21000.0

          }

        }

      ]

    }

  }

elastic4示范：

  val aggTAvgTMM = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").subAggregations(

      avgAgg("avg_price","price"),

      termsAgg("makes","make.keyword").subAggregations(

        maxAgg("max_price","price"),

        minAgg("min_price","price")

      )

    )

  ).size()

  println(aggTAvgTMM.show)

  val avgTTMMResult = client.execute(aggTAvgTMM).await

  avgTTMMResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  avgTTMMResult.result.aggregations.terms("colors").buckets

    .foreach { cb =>

      println(s"${cb.key},${cb.docCount},${cb.avg("avg_price").value}")

      cb.terms("makes").buckets.foreach { mb =>

        println(s"${mb.key},${mb.docCount},${mb.avg("min_price").value},${mb.avg("max_price").value}")

      }

    }

...

POST:/cartxns/_search?

StringEntity({"size":,"aggs":{"colors":{"terms":{"field":"color.keyword"},"aggs":{"avg_price":{"avg":{"field":"price"}},"makes":{"terms":{"field":"make.keyword"},"aggs":{"max_price":{"max":{"field":"price"}},"min_price":{"min":{"field":"price"}}}}}}}},Some(application/json))

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> green, make -> ford, sold -> --)

red,,32500.0

honda,,10000.0,20000.0

bmw,,80000.0,80000.0

blue,,20000.0

ford,,25000.0,25000.0

toyota,,15000.0,15000.0

green,,21000.0

ford,,30000.0,30000.0

toyota,,12000.0,12000.0

search（12）- elastic4s-聚合=桶+度量的更多相关文章

elasticsearch聚合--桶（Buckets）和指标（Metrics）的概念
写在前面的话:读书破万卷,编码如有神--------------------------------------------------------------------主要内容包括: 聚合的两个核 ...
第六章：Django 综合篇 - 12：聚合内容 RSS/Atom
Django提供了一个高层次的聚合内容框架,让我们创建RSS/Atom变得简单,你需要做的只是编写一个简单的Python类. 一.范例要创建一个feed,只需要编写一个Feed类,然后设置一条指向F ...
010-elasticsearch5.4.3【四】-聚合操作【一】-度量聚合【metrics】-min、max、sum、avg、count
一.概述度量类型聚合主要针对的number类型的数据,需要ES做比较多的计算工作参考向导:地址 import org.elasticsearch.search.aggregations.Aggre ...
Elastic Stack 笔记（七）Elasticsearch5.6 聚合分析
博客地址:http://www.moonxy.com 一.前言 Elasticsearch 是一个分布式的全文搜索引擎,索引和搜索是 Elasticsarch 的基本功能.同时,Elasticsear ...
翻译 | Placing Search in Context The Concept Revisited
翻译 | Placing Search in Context The Concept Revisited 原文摘要 [1] Keyword-based search engines are in w ...
Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...
031 Spring Data Elasticsearch学习笔记---重点掌握第5节高级查询和第6节聚合部分
Elasticsearch提供的Java客户端有一些不太方便的地方: 很多地方需要拼接Json字符串,在java中拼接字符串有多恐怖你应该懂的需要自己把对象序列化为json存储查询到结果也需要自己 ...
ElasticSearch 2 (37) - 信息聚合系列之内存与延时
ElasticSearch 2 (37) - 信息聚合系列之内存与延时摘要控制内存使用与延时版本 elasticsearch版本: elasticsearch-2.x 内容 Fielddata ...
ElasticSearch 聚合函数
一.简单聚合桶 :简单来说就是满足特定条件的文档的集合. 指标:大多数指标是简单的数学运算(例如最小值.平均值.最大值,还有汇总),这些是通过文档的值来计算. 桶能让我们划分文档到有意义的集合, ...

随机推荐

终于明白if __name__ == '__main__':了
其实很简单 if __name__ == '__main__': 就是一个判断 __name__是系统变量 __name__有一个特性,在当前文件运行是__main__,调用文件就是调用文件的路径了 ...
[护网杯2018] easy_laravel
前言题目环境 buuoj 上的复现,和原版的题目不是完全一样.原题使用的是 nginx + mysql 而 buuoj 上的是 apache + sqlite composer 这是在 PHP5.3 ...
【5min+】为你的.NET应用进行一次全方位体检
系列介绍 [五分钟的dotnet]是一个利用您的碎片化时间来学习和丰富.net知识的博文系列.它所包含了.net体系中可能会涉及到的方方面面,比如C#的小细节,AspnetCore,微服务中的.net ...
fasttext 和pysparnn的安装
pytorch 中序列化容器nn.Sequential
按下图顺序搭建以及执行
关于VUE的路由地址问题
目前我们VUE的项目都是单页面应用,路由地址全都是#以不同的锚点去分发,根目录就是 http://localhost:8080/index#/ (至于为什么不是http://localhost:8 ...
反向代理负载均衡之nginx
一.集群 1.1 什么是集群集群是一组相互独立的.通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理.一个客户与集群相互作用时,集群像是一个独立的服务器.集群配置是用于提高可用性 ...
python读取txt批量创建文件
python读取txt批量创建文件 pythonbatchfile 前几天有个小问题, 需要批量建立很多文件夹,, 所以手动写了个小的脚本, 后续可以直接使用读取目录文件, 然后直接创建相应的文件 ...
Spring Boot中的Properties
文章目录简介使用注解注册一个Properties文件使用属性文件 Spring Boot中的属性文件 @ConfigurationProperties yaml文件 Properties环境变量 ...
java制作一个简单的抽签程序
首先需要导入import java.util.Random;才能使用随机类Random:Random生成随机数介绍:https://www.cnblogs.com/prodigal-son/p/128 ...

search（12）- elastic4s-聚合=桶+度量

search（12）- elastic4s-聚合=桶+度量的更多相关文章

随机推荐

热门专题