Elasticsearch聚合语句
聚合的范围是search query过滤出的数据
四种聚合类型:
一、Bucketing
桶聚合,常规的分类然后计算每个分类的文档数量
二、Metric
分类并对一组文档进行sum、avg等数学运算
三、Matrix
可在多个字段上计算,生成矩阵结果
四、Pipeline
对聚合的结果再次聚合
Pipeline aggregations 会在所有的聚类执行完毕之后才执行
聚合语句的结构
"aggs" : {
"<aggregation_name>" : {
"<aggregation_type>" : {
<aggregation_body>
}
[,"meta" : { [<meta_data_body>] } ]?
[,"aggregations" : { [<sub_aggregation>]+ } ]?
}
[,"<aggregation_name_2>" : { ... } ]*
}
Terms Aggregation
会根据字段的值动态构建buckets
{
"aggs" : {
"genres" : {
"terms" : { "field" : "genre" }
}
}
}
返回:
{
...
"aggregations" : {
"genres" : {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets" : [
{
"key" : "jazz",
"doc_count" : 10
},
{
"key" : "rock",
"doc_count" : 10
},
{
"key" : "electronic",
"doc_count" : 10
},
]
}
}
}
当字段的值很多的时候,elasticsearch只会返回部分buckets,sum_other_doc_count
表示没有被返回的 buckets 中 document 的数量之和
size
默认情况下,elasticsearch只会返回按照doc_count降序排序的前10个terms,可以配置size
参数来修改这一默认行为
terms聚合的结果是不精确的
https://mp.weixin.qq.com/s/V4cGqvkQ7-DgeSvPSketgQ
比如设置size = 3
,表示希望返回TOP3
的结果
每个索引分片会取自己分片上TOP3
返回协调节点,协调节点汇总后再取汇总结果的TOP3
因此,这个结果是跟全量取TOP3
不一样的,所以说terms聚合的结果是不精确的
size 和 shard_size 有什么区别?
- size:是聚合结果的返回值,客户期望返回聚合排名前三,size值就是 3。
- shard_size: 每个分片上聚合的数据条数。shard_size 原则上要大于等于 size(若设置小于size,实则没有意义,elasticsearch 会默认置为size)
请求的size值越高,结果将越准确,但计算最终结果的成本也将越高。
推荐设置 shard_size 为比较大的值,官方推荐:size*1.5+10
Order
buckets的排序可以由order
参数定义
按doc数量升序排序:
{
"aggs" : {
"genres" : {
"terms" : {
"field" : "genre",
"order" : { "_count" : "asc" }
}
}
}
}
按terms的字符升序排序:
{
"aggs" : {
"genres" : {
"terms" : {
"field" : "genre",
"order" : { "_term" : "asc" }
}
}
}
}
按子聚类的结果排序:
{
"aggs" : {
"genres" : {
"terms" : {
"field" : "genre",
"order" : { "max_play_count" : "desc" }
},
"aggs" : {
"max_play_count" : { "max" : { "field" : "play_count" } }
}
}
}
}
min_doc_count
默认值为1,表示只返回doc_count大于等于1的buckets
{
"aggs" : {
"tags" : {
"terms" : {
"field" : "tags",
"min_doc_count": 10
}
}
}
}
Nested Aggregation
针对nested
字段的聚合,比如
{
...
"product" : {
"properties" : {
"resellers" : {
"type" : "nested",
"properties" : {
"name" : { "type" : "text" },
"price" : { "type" : "double" }
}
}
}
}
}
求价格最低的产品的聚合语句可以写成:
{
"query" : {
"match" : { "name" : "led tv" }
},
"aggs" : {
"resellers" : {
"nested" : {
"path" : "resellers"
},
"aggs" : {
"min_price" : { "min" : { "field" : "resellers.price" } }
}
}
}
}
需要在顶层聚类的path字段填入nested
的字段名称,然后,在子聚类中再针对子字段聚类
Date Histogram Aggregation 日期直方图
比如,想要统计每天的商品销量
GET /goods/_search
{
"query": {
"bool": {
"filter": [
{
"range": {
"date_list": {
"gte": "2020-8-1",
"lt": "2020-8-2"
}
}
}
]
}
},
"size": 0,
"aggs": {
"date_count": {
"date_histogram": {
"field": "date_list",
"format": "yyyy-MM-dd",
"interval": "day"
}
}
}
}
根据过滤的结果数据,以天为间隔聚类绘制直方图
{
"took": 82,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 34841,
"max_score": 0,
"hits": []
},
"aggregations": {
"date_count": {
"buckets": [
{
"key_as_string": "2020-06-02",
"key": 1591056000000,
"doc_count": 17
},
{
"key_as_string": "2020-06-03",
"key": 1591142400000,
"doc_count": 387
},
...
会出现6月的聚类结果是因为date_list
是一组数据,可能某个document的这个字段即包含8月2日又包含6月2日,那么它将即被放到8-2的桶也被放到6-2的桶
时间间隔
时间间隔单位的可选项:year, quarter, month, week, day, hour, minute, second
精确指定时间间隔:1.5h
也可以写成90m
时间格式
在es内部,日期被表示为一个64位的时间戳(milliseconds-since-the-epoch),这正是bucket key字段的值。key_as_string
字段的格式可以由format
参数决定
如果不指定format
,则es会选此字段mapping的第一个日期格式
offset
当使用day作为时间间隔的时候,每个桶的范围是0点至0点,设置offset
为+6h
表示将桶的范围改为6am to 6am
GET my_index/_search?size=0
{
"aggs": {
"by_day": {
"date_histogram": {
"field": "date",
"interval": "day",
"offset": "+6h"
}
}
}
}
Keyed Response
将keyed
标签置为true
表示bucket将以hashmap格式返回,key_as_string
作为key
POST /sales/_search?size=0
{
"aggs" : {
"sales_over_time" : {
"date_histogram" : {
"field" : "date",
"interval" : "1M",
"format" : "yyyy-MM-dd",
"keyed": true
}
}
}
}
Response:
{
...
"aggregations": {
"sales_over_time": {
"buckets": {
"2015-01-01": {
"key_as_string": "2015-01-01",
"key": 1420070400000,
"doc_count": 3
},
"2015-02-01": {
"key_as_string": "2015-02-01",
"key": 1422748800000,
"doc_count": 2
},
"2015-03-01": {
"key_as_string": "2015-03-01",
"key": 1425168000000,
"doc_count": 2
}
}
}
}
}
Missing value
如果不定义missing
,date
字段缺失的文档将被忽略。这样定义后,这些文档会被归入2000/01/01
桶
POST /sales/_search?size=0
{
"aggs" : {
"sale_date" : {
"date_histogram" : {
"field" : "date",
"interval": "year",
"missing": "2000/01/01"
}
}
}
}
根据聚合的结果进行过滤
https://elasticsearch.cn/article/13501
每个IP登录次数超过5次的IP
{
"aggs": {
"IP": {
"terms": {
"field": "IP",
"size": 3000,
"order": {
"_count": "desc"
},
"min_doc_count": 5
}
}
},
"size": 0
}
会筛选出大于或等于5的buckets
每个IP登录人数超过2的IP
{
"aggs": {
"IP": {
"terms": {
"field": "IP",
"size": 3000,
"order": {
"distinct": "desc"
},
"min_doc_count": 5
},
"aggs": {
"distinct": {
"cardinality": {
"field": "IP.keyword"
}
},
"dd":{
"bucket_selector": {
"buckets_path": {"userCount":"distinct"},
"script": "params.userCount > 2"
}
}
}
}
},
"size": 0
}
bucket_selector
必须出现在子聚合中,并且只能针对子聚合的数字结果过滤,script必须返回一个bool
Post Filter
post filter允许用户在执行聚合函数之后再对hits
做过滤,比如:
GET /shirts/_search
{
"query": {
"bool": {
"filter": {
"term": { "brand": "gucci" }
}
}
},
"aggs": {
"colors": {
"terms": { "field": "color" }
},
"color_red": {
"filter": {
"term": { "color": "red" }
},
"aggs": {
"models": {
"terms": { "field": "model" }
}
}
}
},
"post_filter": {
"term": { "color": "red" }
}
}
由于aggs的范围取决于query,因此不能在一开始就过滤出颜色为红色的
Elasticsearch聚合语句的更多相关文章
- ElasticSearch聚合分析
聚合用于分析查询结果集的统计指标,我们以观看日志分析为例,介绍各种常用的ElasticSearch聚合操作. 目录: 查询用户观看视频数和观看时长 聚合分页器 查询视频uv 单个视频uv 批量查询视频 ...
- ElasticSearch聚合(转)
ES之五:ElasticSearch聚合 前言 说完了ES的索引与检索,接着再介绍一个ES高级功能API – 聚合(Aggregations),聚合功能为ES注入了统计分析的血统,使用户在面对大数据提 ...
- Elasticsearch聚合问题
在测试Elasticsearch聚合的时候报了一个错误.具体如下: GET /megacorp/employee/_search { "aggs": { "all_int ...
- elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket(允许嵌套)进行group by,统计下分组结果,包括min/max/avg
分析 Elasticsearch有一个功能叫做聚合(aggregations),它允许你在数据上生成复杂的分析统计.它很像SQL中的GROUP BY但是功能更强大. 举个例子,让我们找到所有职员中最大 ...
- ElasticSearch 聚合函数
一.简单聚合 桶 :简单来说就是满足特定条件的文档的集合. 指标:大多数 指标 是简单的数学运算(例如最小值.平均值.最大值,还有汇总),这些是通过文档的值来计算. 桶能让我们划分文档到有意义的集合, ...
- elasticsearch聚合--桶(Buckets)和指标(Metrics)的概念
写在前面的话:读书破万卷,编码如有神--------------------------------------------------------------------主要内容包括: 聚合的两个核 ...
- Elasticsearch聚合初探——metric篇
Elasticsearch是一款提供检索以及相关度排序的开源框架,同时,也支持对存储的文档进行复杂的统计--聚合. 前言 ES中的聚合被分为两大类:Metric度量和bucket桶(原谅我英语差,找不 ...
- Elasticsearch聚合 之 Histogram 直方图聚合
Elasticsearch支持最直方图聚合,它在数字字段自动创建桶,并会扫描全部文档,把文档放入相应的桶中.这个数字字段既可以是文档中的某个字段,也可以通过脚本创建得出的. 桶的筛选规则 举个例子,有 ...
- Elasticsearch聚合 之 Date Histogram聚合
Elasticsearch的聚合主要分成两大类:metric和bucket,2.0中新增了pipeline还没有研究.本篇还是来介绍Bucket聚合中的常用聚合--date histogram.参考: ...
随机推荐
- 附002.Nginx全系列大总结
Nginx全系列总结如下,后期不定期更新. 欢迎基于学习.交流目的的转载和分享,禁止任何商业盗用,同时希望能带上原文出处,尊重ITer的成果,也是尊重知识. 若发现任何错误或纰漏,留言反馈或右侧添加本 ...
- sql 大小写查询 字符串替换 小写xx 改为大写XX
--sql 大小写查询 select * from 表 where 字段 collate Chinese_PRC_CS_AS='xx' --替换 小写xx 改为大写XX update 表 set ...
- 五分钟快速搭建 Serverless 免费邮件服务
1. 引言 本文将带你快速基于 Azure Function 和 SendGrid 构建一个免费的Serverless(无服务器)的邮件发送服务,让你感受下Serverless的强大之处. 该服务可以 ...
- 【Go语言学习】匿名函数与闭包
前言 入坑 Go 语言已经大半年了,却没有写过一篇像样的技术文章,每次写一半就搁笔,然后就烂尾了. 几经思考,痛定思痛,决定金盆洗手,重新做人,哦不,重新开始写技术博文. 这段时间在研究Go语言闭包的 ...
- SQLyog无操作一段时间后重新操作会卡死问题(解决办法)
这种是因为一段时间不操作后,服务器将空闲连接丢弃了,而客户端(sqlyog)不知道,导致长时间无响应,而超时之后,sqlyog 使用了新的连接,所以又可以顺畅操作了. 将会话空闲时间默认改为自定义,填 ...
- format 进阶
'''format(数字,str(算术式)+"d或者f") d 表示 int f 表示 float ''' format(5,str(2*4)+"d") '' ...
- SpringMVC文件上传下载(单文件、多文件)
前言 大家好,我是bigsai,今天我们学习Springmvc的文件上传下载. 文件上传和下载是互联网web应用非常重要的组成部分,它是信息交互传输的重要渠道之一.你可能经常在网页上传下载文件,你可能 ...
- SET DYNAMICS 365 COLORS AND LOGO USING THEMES
https://carldesouza.com/dynamics-365-colors-logo-themes/ BEFORE WE START, I NEED YOUR HELP. I AM SPE ...
- Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:i5nw Python机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读 ...
- .Net Core下基于Emit的打造AOP
之前的基于DispatchProxy的AOP组件,实现了属性注入,但是这个依旧有很多限制 比如不支持构造器注入,继承DispatchProxy的子类必须是公开类 个人有点代码洁癖,不喜欢这种不能控制的 ...