elasticsearch 聚合之 date_histogram 聚合
1、背景
此处来简单学习一下 elasticsearch
的 date_histogram
直方图聚合。它和普通的直方图histogram
聚合差不多,但是date_histogram
只可于 日期或日期范围
类型的值一起使用。
2、bucket_key如何计算
- 假设我们存在如下时间
2022-11-29 23:59:59
。 - 在
es
中时间为2022-11-29 23:59:59 +0000
,因为上方的时间没有时区,所以会自动加上0时区
,对应的时间戳为1669766399000
- 此处假设以
1d
为单位来聚合 - 聚合统计中
time_zone
的值为+0800
- bucket_key计算公式为
bucket_key = localToUtc(Math.floor(utcToLocal(value) / interval) * interval))
计算步骤如下:(此处是我自己的理解,如果不对欢迎指出)
utcToLocal(value)
= 1669766399000(utc的值
)+
8*60*60*1000(time_zone +8的值
) = 1669795199000Math.floor(utcToLocal(value) / interval) * interval)
= Math.floor(1669795199000 / (24*60*60*1000)) * (24*60*60*1000) = 1669766400000localToUtc(...)
=1669766400000-
86060*1000=1669737600000key_as_string
=utc时间1669737600000转换成东八区时间展示为=2022/11/30 00:00:00
3、前置知识
- 日期(
date
)类型的字段在es
中是以long
类型的值保存的。 es
中默认 默认的时区是0时区
。- 如果我们有一个东八区的时间,那么在es中是如何存储的呢?
- 假设存在如下mapping
"invoked_time": {
"type": "date",
"format": ["yyyy-MM-dd HH:mm:ss"]
}
- 如果我们此时存在 如下
东八区
时间2022-11-29 12:12:12
,那么在 es 会存储为2022-11-29 12:12:12 +0000
对应的时间戳,为什么会加上+0000
,因为我们自己的时间字符串中没有时区,就会加上默认的0时区。
4、日历和固定时间间隔
既然我们是根据时间来进行聚合,那么必然就会涉及到这么一个问题。假设以天为单位来聚合,那么1天
到底是固定
的24小时
呢,还是可变
的呢? 因为存在时区
的关系,在有的国家,在某些时区下,一天就不一定是24个小时。因此在es
中提供了calendar-aware time intervals
, 和 fixed time intervals.
两种类型。
4.1 Calendar intervals 日历间隔
日历感知间隔使用calendar_interval参数配置。
它可以自动感应到日历中的时区变化。它的单位只能是单数,不可是复数,比如2d
就是错误的。
日历间隔 可用的单位为:分钟 (1m
)、小时 (1h
)、天 (1d
)、星期 (1w
)、月 (1M
)、季度 (1q
)、年 (1y
)
举个例子:1m
是从何时开始的,何时结束的?.
所有的分钟都从00
秒开始。一分钟是指定时区中第一分钟的00秒和下一分钟的00秒之间的时间间隔,用于补偿任何介于其间的闰秒,因此整点后的分钟数和秒数在开始和结束时是相同的。
4.2 Fixed intervals 固定间隔
固定间隔使用fixed_interval参数进行配置。
与日历感知间隔相比,固定间隔是固定数量的SI
单位,无论它们落在日历的哪个位置,都不会偏离。一秒总是由1000ms组成
。这允许以支持的单位的任意倍数指定固定间隔。但是,这意味着固定间隔不能表示其他单位,例如月,因为一个月的持续时间不是固定的数量。尝试指定月或季度等日历间隔将引发异常。
固定间隔 可用的单位为:
毫秒 (ms
)
秒 (s
)
定义为每个1000毫秒
分钟 (m
)
所有分钟都从00秒开始。 定义为每个60秒(60,000毫秒)
小时 (h
)
所有小时都从00分00秒开始。 定义为每60分钟(3,600,000毫秒)
天 (d
)
所有天都在尽可能早的时间开始,通常是00:00:00(午夜)。 定义为24小时(86,400,000毫秒)
5、数据准备
5.1 准备mapping
PUT /index_api_invoked_time
{
"settings": {
"number_of_shards": 1
},
"mappings": {
"properties": {
"id": {
"type": "long"
},
"api": {
"type": "keyword"
},
"invoked_time": {
"type": "date",
"format": ["yyyy-MM-dd HH:mm:ss"]
}
}
}
}
5.2 准备数据
PUT /index_api_invoked_time/_bulk
{"index":{"_id":1}}
{"api":"/user/infos","invoked_time": "2022-11-26 00:00:00"}
{"index":{"_id":2}}
{"api":"/user/add"}
{"index":{"_id":3}}
{"api":"/user/update","invoked_time": "2022-11-26 23:59:59"}
{"index":{"_id":4}}
{"api":"/user/list","invoked_time": "2022-11-27 00:00:00"}
{"index":{"_id":5}}
{"api":"/user/export","invoked_time": "2022-11-29 23:59:59"}
{"index":{"_id":6}}
{"api":"/user/detail","invoked_time": "2022-12-01 01:00:00"}
6、聚合案例
6.1 dsl
POST /index_api_invoked_time/_search
{
"size": 0,
"aggregations": {
"agg_01": {
"date_histogram": {
"field": "invoked_time",
"calendar_interval": "1d",
"min_doc_count": 0,
"missing": "2022-11-27 23:59:59",
"time_zone": "+08:00",
"offset":"+10h",
"extended_bounds": {
"min": "2022-11-26 10:00:00",
"max": "2022-12-03 10:00:00"
}
}
}
}
}
6.2 java代码
@Test
@DisplayName("日期直方图聚合")
public void test01() throws IOException {
SearchRequest request = SearchRequest.of(searchRequest ->
searchRequest.index("index_api_invoked_time")
.size(0)
.aggregations("agg_01", agg ->
agg.dateHistogram(dateAgg ->
// 聚合的字段
dateAgg.field("invoked_time")
// 聚合的单位,日历感知 单位为天,此时的一天不一定为24小时,因为夏令时时,有些国家一天可能只有23个小时
.calendarInterval(CalendarInterval.Day)
// 固定间隔, 此处可以指定 1天就是24小时
// .fixedInterval()
// 如果聚合的桶中,没有文档也返回
.minDocCount(0)
// 对于文档中,聚合字段缺失,此处给一个默认值,默认情况是此文档不参与聚合
.missing(DateTime.of("2022-11-27 23:59:59", DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss")))
// 时区
.timeZone("+08:00")
// 偏移,偏移是在时间在对应的时区调整之后,再去偏移
.offset(time -> time.time("+10h"))
// 如果返回的桶数据不在这个边界中,则给默认值,不会对数据进行过滤。
.extendedBounds(bounds ->
bounds.min(FieldDateMath.of(f -> f.expr("2022-11-26 10:00:00")))
.max(FieldDateMath.of(f -> f.expr("2022-12-03 10:00:00")))
)
)
)
);
System.out.println("request: " + request);
SearchResponse<String> response = client.search(request, String.class);
System.out.println("response: " + response);
}
6.3 聚合结果
7、完整代码
8、参考文档
- https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-datehistogram-aggregation.html#date-histogram-missing-value
- https://www.pipiho.com/es/7.7/cn/search-aggregations-bucket-datehistogram-aggregation.html
elasticsearch 聚合之 date_histogram 聚合的更多相关文章
- ElasticSearch 2 (35) - 信息聚合系列之近似聚合
ElasticSearch 2 (35) - 信息聚合系列之近似聚合 摘要 如果所有的数据都在一台机器上,那么生活会容易许多,CS201 课商教的经典算法就足够应付这些问题.但如果所有的数据都在一台机 ...
- ElasticSearch 2 (34) - 信息聚合系列之多值排序
ElasticSearch 2 (34) - 信息聚合系列之多值排序 摘要 多值桶(terms.histogram 和 date_histogram)动态生成很多桶,Elasticsearch 是如何 ...
- ElasticSearch 2 (31) - 信息聚合系列之时间处理
ElasticSearch 2 (31) - 信息聚合系列之时间处理 摘要 如果说搜索是 Elasticsearch 里最受欢迎的功能,那么按时间创建直方图一定排在第二位.为什么需要使用时间直方图? ...
- Elasticsearch(9) --- 聚合查询(Bucket聚合)
Elasticsearch(9) --- 聚合查询(Bucket聚合) 上一篇讲了Elasticsearch聚合查询中的Metric聚合:Elasticsearch(8) --- 聚合查询(Metri ...
- java操作elasticsearch实现组合桶聚合
1.terms分组查询 //分组聚合 @Test public void test40() throws UnknownHostException{ //1.指定es集群 cluster.name 是 ...
- ElasticSearch 2 (37) - 信息聚合系列之内存与延时
ElasticSearch 2 (37) - 信息聚合系列之内存与延时 摘要 控制内存使用与延时 版本 elasticsearch版本: elasticsearch-2.x 内容 Fielddata ...
- ElasticSearch 2 (38) - 信息聚合系列之结束与思考
ElasticSearch 2 (38) - 信息聚合系列之结束与思考 摘要 版本 elasticsearch版本: elasticsearch-2.x 内容 本小节涵盖了许多基本理论以及很多深入的技 ...
- ElasticSearch 2 (36) - 信息聚合系列之显著项
ElasticSearch 2 (36) - 信息聚合系列之显著项 摘要 significant_terms(SigTerms)聚合与其他聚合都不相同.目前为止我们看到的所有聚合在本质上都是简单的数学 ...
- ElasticSearch 2 (33) - 信息聚合系列之聚合过滤
ElasticSearch 2 (33) - 信息聚合系列之聚合过滤 摘要 聚合范围限定还有一个自然的扩展就是过滤.因为聚合是在查询结果范围内操作的,任何可以适用于查询的过滤器也可以应用在聚合上. 版 ...
- ElasticSearch 2 (32) - 信息聚合系列之范围限定
ElasticSearch 2 (32) - 信息聚合系列之范围限定 摘要 到目前为止我们看到的所有聚合的例子都省略了搜索请求,完整的请求就是聚合本身. 聚合与搜索请求同时执行,但是我们需要理解一个新 ...
随机推荐
- 在vm中安装centos7
步骤: 1.打开VMware Worktation,点击"创建新的虚拟机": 2.一般选择"典型(推荐)",之后下一步. 3.选择"稍后安装操作系统& ...
- 使用kubeoperator安装k8s集群时自带的traefik-ingress-controller
前提 承接上一篇文章:https://www.cnblogs.com/sanduzxcvbnm/p/15740596.html traefik-ingress-controller和nginx-ing ...
- NSIS使用SHFileOperation函数移动文件夹
SHFileOperation是一种外壳函数,用它可以实现各种文件操作,如文件的拷贝.删除.移动等,该函数使用起来非常简单,它只有一个指向SHFILEOPSTRUCT结构的参数.使用SHFileOpe ...
- 「产品运营」研发效能之DevOps平台如何运营?
有人常说「酒香不怕巷子深」.不是的,如果这个巷子是酒吧街,那最深的那家酒吧肯定是租金最便宜的.酒吧的地段好坏已经在租金价格上体现出来了.现在已经不是那个工具缺乏.有个工具就拍手称快.欣然去试用的时代了 ...
- Linux文本相关命令
Linux文本相关命令 目录 Linux文本相关命令 文本排序命令 文本去重命令 基础命令cut 文本三剑客 sed awk grep 文本排序命令 sort 常用参数: -n:以数值大小进行排序 - ...
- Filter 筛选器(一)之 ActionFilter-- IAsyncActionFilter 和 ActionFilterAttribute
微软官网例子:Filter筛选器 使用场景(执行顺序): IAsyncActionFilter 使用异步actionFilter 只需要实现 他的 :OnActionExecutionAsync 方法 ...
- Vue学习之--------深入理解Vuex之多组件共享数据(2022/9/4)
在上篇文章的基础上:Vue学习之--------深入理解Vuex之getters.mapState.mapGetters 1.在state中新增用户数组 2.新增Person.vue组件 提示:这里使 ...
- JUC(7)四大函数式接口
文章目录 1.四大函数式接口(必须掌握) 1.1 function 1.2 Predicate 1.3 Consumer 1.4 Supplier 1.四大函数式接口(必须掌握) 1.lambda表达 ...
- 驱动开发:内核枚举Registry注册表回调
在笔者上一篇文章<驱动开发:内核枚举LoadImage映像回调>中LyShark教大家实现了枚举系统回调中的LoadImage通知消息,本章将实现对Registry注册表通知消息的枚举,与 ...
- AT24C02
AT24C02是一款拥有256bytes(32Page)的EEPROM. 一 :特点(部分) 1:双线接口: 2:双向数据传输协议: 3:400KHz波特率: 4:硬件写保护: 5:最大5ms写入同步 ...