Elasticsearch中关于transform的一个问题?
背景:现在有一个业务,派件业务,业务员今天去派件(扫描产生一条派件记录),派件可能会有重复派件的情况,第二天再派送(记录被更新,以最新的派件操作为准)。现在需要分业务员按天统计每天的派件数量。
es版本:7.15.1
1、创建索引:
PUT t_test_001
{
"settings": {
"number_of_shards": 1,
"number_of_replicas": 1
},
"mappings": {
"properties": {
"city_id": {
"type": "long"
},
"city_name": {
"type": "keyword"
},
"create_time": {
"type": "date"
},
"push_date": {
"type": "date"
},
"update_time": {
"type": "date"
}
}
}
}
2、插入测试数据
POST /t_test_001/_bulk
{ "index": {}}
{ "order_no" : 1,"employee":"张三", "create_time" : "2021-12-06T08:00:00.000Z", "push_date" : "2021-12-06T08:00:00.000Z", "update_time" : "2021-12-06T08:00:00.000Z"}
{ "index": {}}
{ "order_no" : 2,"employee":"张三", "create_time" : "2021-12-06T08:00:00.000Z", "push_date" : "2021-12-06T08:00:00.000Z", "update_time" : "2021-12-06T08:00:00.000Z"}
{ "index": {}}
{ "order_no" : 3,"employee":"张三", "create_time" : "2021-12-07T00:00:00.000Z", "push_date" : "2021-12-07T00:00:00.000Z", "update_time" : "2021-12-07T00:00:00.000Z"}
{ "index": {}}
{ "order_no" : 4,"employee":"张三", "create_time" : "2021-12-07T00:00:00.000Z", "push_date" : "2021-12-07T00:00:00.000Z", "update_time" : "2021-12-07T00:00:00.000Z"}
{ "index": {}}
{ "order_no" : 5,"employee":"王五", "create_time" : "2021-12-06T08:00:00.000Z", "push_date" : "2021-12-06T08:00:00.000Z", "update_time" : "2021-12-06T08:00:00.000Z"}
{ "index": {}}
{ "order_no" : 6,"employee":"王五", "create_time" : "2021-12-06T08:00:00.000Z", "push_date" : "2021-12-06T08:00:00.000Z", "update_time" : "2021-12-06T08:00:00.000Z"}
{ "index": {}}
{ "order_no" : 7,"employee":"王五", "create_time" : "2021-12-07T00:00:00.000Z", "push_date" : "2021-12-07T00:00:00.000Z", "update_time" : "2021-12-07T00:00:00.000Z"}
{ "index": {}}
{ "order_no" : 8,"employee":"王五", "create_time" : "2021-12-07T00:00:00.000Z", "push_date" : "2021-12-07T00:00:00.000Z", "update_time" : "2021-12-07T00:00:00.000Z"}
3、查询一下看看
GET /t_test_001/_search
{
"size": 10
}
结果:
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 8,
"relation" : "eq"
},
"max_score" : 1.0,
"hits" : [
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "GLztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 1,
"employee" : "张三",
"create_time" : "2021-12-06T08:00:00.000Z",
"push_date" : "2021-12-06T08:00:00.000Z",
"update_time" : "2021-12-06T08:00:00.000Z"
}
},
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "Gbztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 2,
"employee" : "张三",
"create_time" : "2021-12-06T08:00:00.000Z",
"push_date" : "2021-12-06T08:00:00.000Z",
"update_time" : "2021-12-06T08:00:00.000Z"
}
},
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "Grztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 3,
"employee" : "张三",
"create_time" : "2021-12-07T00:00:00.000Z",
"push_date" : "2021-12-07T00:00:00.000Z",
"update_time" : "2021-12-07T00:00:00.000Z"
}
},
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "G7ztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 4,
"employee" : "张三",
"create_time" : "2021-12-07T00:00:00.000Z",
"push_date" : "2021-12-07T00:00:00.000Z",
"update_time" : "2021-12-07T00:00:00.000Z"
}
},
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "HLztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 5,
"employee" : "王五",
"create_time" : "2021-12-06T08:00:00.000Z",
"push_date" : "2021-12-06T08:00:00.000Z",
"update_time" : "2021-12-06T08:00:00.000Z"
}
},
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "Hbztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 6,
"employee" : "王五",
"create_time" : "2021-12-06T08:00:00.000Z",
"push_date" : "2021-12-06T08:00:00.000Z",
"update_time" : "2021-12-06T08:00:00.000Z"
}
},
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "Hrztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 7,
"employee" : "王五",
"create_time" : "2021-12-07T00:00:00.000Z",
"push_date" : "2021-12-07T00:00:00.000Z",
"update_time" : "2021-12-07T00:00:00.000Z"
}
},
{
"_index" : "t_test_001",
"_type" : "_doc",
"_id" : "H7ztkn0BDKE3xmcewwIG",
"_score" : 1.0,
"_source" : {
"order_no" : 8,
"employee" : "王五",
"create_time" : "2021-12-07T00:00:00.000Z",
"push_date" : "2021-12-07T00:00:00.000Z",
"update_time" : "2021-12-07T00:00:00.000Z"
}
}
]
}
}
4、创建一个transform,将数据按天、业务员 聚合
PUT _transform/t_test_transform
{
"id": "t_test_transform",
"source": {
"index": [
"t_test_001"
]
},
"dest": {
"index": "t_test_x"
},
"frequency": "60s",
"sync": {
"time": {
"field": "update_time",
"delay": "60s"
}
},
"pivot": {
"group_by": {
"employee": {
"terms": {
"field": "employee"
}
},
"push_date": {
"date_histogram": {
"field": "push_date",
"calendar_interval": "1d"
}
}
},
"aggregations": {
"sum_all": {
"value_count": {
"field": "_id"
}
}
}
}
}
5、开启transform
POST _transform/t_test_transform/_start
6、查看transform转换的索引结果
GET /t_test_x/_search
{}
结果:如图,张三2021-12-06和07号各派送两单:
7、12月7号,订单order_no = 1的单子再次被张三派送;数据被更新
POST /t_test_001/_update/GLztkn0BDKE3xmcewwIG
{
"doc": {
"push_date": "2021-12-07T03:27:12.000Z",
"update_time": "2021-12-07T03:27:12.000Z"
}
}
注意模拟操作数据的真实性,更新时间在上一个检查点之后!
8、预期transfrom转换的结果是:张三12-6号的派单统计数据由2减少为1;12-7号的派单数据从2增加到3。
9、查询transform转换的索引结果
GET /t_test_x/_search
{}
结果:张三12-6号的派单统计数据为2没有减少,不符合预期;12-7号的派单数据为3,符合预期。
10,再查询一下原始数据:
GET /t_test_001/_search
{}
11、再统计一下数据:
GET /t_test_001/_search
{
"size": 0,
"aggs": {
"employee": {
"terms": {
"field": "employee"
},
"aggs": {
"push_date": {
"date_histogram": {
"field": "push_date",
"calendar_interval": "1d"
}
}
}
}
}
}
结果很显然:张三 12-06号配送量为1,12-07号配送量为3!!!而transform统计的结果,此时就错了!!!这个怎么理解呢?是他es的transform不支持这种场景数据变化的聚合,还是说这是一个bug呢?我理解,可能是因为考虑到性能的原因,es的transform在这种场景下是有这种问题的。
若有错误之处,望大家指正。谢谢。
Elasticsearch中关于transform的一个问题?的更多相关文章
- ELASTICSEARCH 中暂时移除一个节点
ELASTICSEARCH 中暂时移除一个节点 版权声明 本站原创文章 由 萌叔 发表 转载请注明 萌叔 | http://vearne.cc 前言 在维护ES集群的过程中,我们会经常遇到将某个ES实 ...
- 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
- 在Elasticsearch中查询Term Vectors词条向量信息
这篇文章有点深度,可能需要一些Lucene或者全文检索的背景.由于我也很久没有看过Lucene了,有些地方理解的不对还请多多指正. 更多内容还请参考整理的ELK教程 关于Term Vectors 额, ...
- 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
- 一文带您了解 Elasticsearch 中,如何进行索引管理(图文教程)
欢迎关注笔者的公众号: 小哈学Java, 每日推送 Java 领域干货文章,关注即免费无套路附送 100G 海量学习.面试资源哟!! 个人网站: https://www.exception.site/ ...
- Elasticsearch中使用groovy脚本处理boolean字段的一个问题
Elasticsearch中使用groovy脚本获取文档的bool字段值时,得到的值是字符的 'T' 或者 'F' ,而不是bool值 true 和 false . 比如文档中有一个字段是 { &qu ...
- 如何在Elasticsearch中安装中文分词器(IK+pinyin)
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组. ...
- elasticsearch中常用的API
elasticsearch中常用的API分类如下: 文档API: 提供对文档的增删改查操作 搜索API: 提供对文档进行某个字段的查询 索引API: 提供对索引进行操作,查看索引信息等 查看API: ...
- elasticsearch中的API
elasticsearch中的API es中的API按照大类分为下面几种: 文档API: 提供对文档的增删改查操作 搜索API: 提供对文档进行某个字段的查询 索引API: 提供对索引进行操作 查看A ...
随机推荐
- F. Mattress Run 题解
F. Mattress Run 挺好的一道题,对于DP的本质的理解有很大的帮助. 首先要想到的就是将这个拆成两个题,一个dp光求获得足够的夜晚的最小代价,一个dp光求获得足够的停留的最小代价. 显然由 ...
- poj 2960 S-Nim (SG)
题意: K个数,s1...sk. m个状态,对于某一个状态,有L堆石子,每人每次取的石子个数只能是s1...sk的一个,且只能在一堆中取. 输出m个状态是先手胜还是先手败,先手胜输出W,否则输出L. ...
- linux 文件描述符和inode 的理解和区别
inode 或i节点是指对文件的索引.如一个系统,所有文件是放在磁盘或flash上,就要编个目录来说明每个文件在什么地方,有什么属性,及大小等.就像书本的目录一样,便于查找和管理.这目录是操作系统需要 ...
- VSCode Java 开发环境配置 详细教程
VSCode Java 开发环境配置 详细教程 配置java 下载 用于现在大多数使用者用的是java 8,小白的我先安装java 8好了,^ w ^. 下载地址:Java 8 | Java SE 打 ...
- vue3快速上手
前言 虽然Vue3肯定是未来的趋势,但还不是很成熟,实际开发中用的也不多,建议学Vue3之前先掌握Vue2,将Vue3作为未来的知识储备. Vue3快速上手 Vue3简介 2020年9月18日,Vue ...
- 学信网改绑手机号码,但是忘记了老号码怎么办?利用node.js + puppeteer 跑脚本实现改绑手机号
最近登录学信网发现自己学信网上绑定的手机号码不是目前自己使用的手机号码,于是想改绑手机号,但是发现不记得之前的手机号码了: 于是百度各种方法都无济于事:也不想重新注册账号,最后看见一篇文章通过Pyth ...
- Java学习(十)
今天学习的是参数的传入,感觉这个和c++差不多. 传一个参数进去,要看这个参数是地址还是一个值,如果是值的话那无论在方法中如何加减,也只是另一个局部变量的事情了,与该参数无关,在原方法中参数的值保持不 ...
- [第三章]c++学习笔记1(this指针)
this指针作用,其作用就是指向成员函数所作用的对象 使用例 为了返回c1,使用this指针,来指向作用的对象 使用空指针调用hello,调用hello欲使其作用在p指向的对象上,然而p没指向任何对象 ...
- CAP 5.2 版本发布通告
前言 今天,我们很高兴宣布 CAP 发布 5.2 版本正式版,在这个版本中,我们主要致力于更好的优化使用体验以及支持新的 Transport,同时在该版本也进行了一些 bug 修复的工作. 自从 5. ...
- 菜鸡的Java笔记 第二十八 - java 包的定义
包的主要作用以及定义 包的导入操作 系统常见的开发包 jar 程序命令 包的定义 在任何的操作系统之中都有一个统一的共识:同一个目录下不能够存在有相同的文 ...