ElasticSearch中"distinct","count"和"group by"的实现

最近在业务中需要使用ES来进行数据查询，在某些场景下需要对数据进行去重，以及去重后的统计。为了方便大家理解，特意从SQL角度，方便大家能够理解ES查询语句。

1 - distinct

SELECT DISTINCT(user_id) FROM table WHERE user_id_type = 3;

{

  "query": {

    "term": {

      "user_id_type": 3

    }

  },

  "collapse": {

    "field": "user_id"

  }

}

{

  ...

  "hits": {

    "hits": [

      {

        "_index": "es_qd_mkt_visitor_packet_dev_v1_20180621",

        "_type": "ad_crowd",

        "_source": {

          "user_id": "wx2af8414b502d4ca2_oHtrD0Vxv-_8c678figJNHmtaVQQ",

          "user_id_type": 3

        },

        "fields": {

          "user_id": [

            "wx2af8414b502d4ca2_oHtrD0Vxv-_8c678figJNHmtaVQQ"

          ]

        }

      }

    ]

  }

}

总结：使用collapse字段后，查询结果中[hits]中会出现[fields]字段，其中包含了去重后的user_id

2 - count + distinct

SELECT COUNT(DISTINCT(user_id)) FROM table WHERE user_id_type = 3;

{

  "query": {

    "term": {

      "user_id_type": 3

    }

  },

  "aggs": {

    "count": {

      "cardinality": {

        "field": "user_id"

      }

    }

  }

}

{

  ...

  "hits": {

  ...

  },

  "aggregations": {

    "count": {

      "value": 121

    }

  }

}

总结：aggs中cardinality的字段代表需要distinct的字段

3 - count + group by

SELECT COUNT(user_id) FROM table GROUP BY user_id_type;

{

  "aggs": {

    "user_type": {

      "terms": {

        "field": "user_id_type"

      }

    }

  }

}

{

  ...

  "hits": {

    ...

  },

  "aggregations": {

    "user_type": {

      ...

      "buckets": [

        {

          "key": 4,

          "doc_count": 1220

        },

        {

          "key": 3,

          "doc_count": 488

        }

      ]

    }

  }

}

总结：aggs中terms的字段代表需要gruop by的字段

4 - count + distinct + group by

SELECT COUNT(DISTINCT(user_id)) FROM table GROUP BY user_id_type;

{

  "aggs": {

    "user_type": {

      "terms": {

        "field": "user_id_type"

      },

      "aggs": {

        "count": {

          "cardinality": {

            "field": "user_id"

          }

        }

      }

    }

  }

}

{

  ...

  "hits": {

    ...

  },

  "aggregations": {

    "user_type": {

      ...

      "buckets": [

        {

          "key": 4,

          "doc_count": 1220, //去重前数据1220条

          "count": {

            "value": 276 //去重后数据276条

          }

        },

        {

          "key": 3,

          "doc_count": 488, //去重前数据488条

          "count": {

            "value": 121 //去重后数据121条

          }

        }

      ]

    }

  }

}

4 - count + distinct + group by

SELECT COUNT(DISTINCT(user_id)) FROM table WHERE user_id_type = 2 GROUP BY user_id;

总结：对于既有group by又有distinct的查询要求，需要在aggs中嵌套子aggs

5 - 注意事项

collapse关键字

折叠功能ES5.3版本之后才发布的。
聚合&折叠只能针对keyword类型有效

ElasticSearch中"distinct","count"和"group by"的实现的更多相关文章

sql中Distinct&Count的用法
Distinct作用:消除重复的数值 1.如: select id from T1 select distinct id from T1 二者的检索效果如下: distinct可以用来修饰多列,如: ...
SSAS 度量值中的distinct count局聚合方式会数为null的值
我们来看一个例子 Analysis Services: For Distinct Count measure NULL = 0 If you are to look at the table of v ...
MySQL中distinct和group by性能比较[转]
MySQL中distinct和group by性能比较[转] 之前看了网上的一些测试,感觉不是很准确,今天亲自测试了一番.得出了结论(仅在个人计算机上测试,可能不全面,仅供参考) 测试过程: 准备一张 ...
MongoDB学习笔记——聚合操作之group,distinct,count
单独的聚合命令(group,distinct,count) 单独聚合命令比aggregate性能低,比Map-reduce灵活度低:但是可以节省几行javascript代码,后面那句话我自己加的,哈 ...
GROUP BY子句的查询中显示COUNT()为0的结果
含有GROUP BY子句的查询中如何显示COUNT()为0的结果在SQL Server数据库查询中,为了对查询结果进行对比.分析,我们经常会用到GROUP BY子句以及COUNT()函数来对查询结果 ...
pandas pivot_table或者groupby实现sql 中的count distinct 功能
pandas pivot_table或者groupby实现sql 中的count distinct 功能 import pandas as pd import numpy as np data = p ...
大数据下的Distinct Count（一）：序
在数据库中,常常会有Distinct Count的操作,比如,查看每一选修课程的人数: select course, count(distinct sid) from stu_table group ...
Sql优化（二）快速计算Distinct Count
原创文章,始发自本人个人博客站点,转载请务必注明出自http://www.jasongj.com 个人博客上本文链接http://www.jasongj.com/2015/03/15/count_di ...
探究ElasticSearch中的线程池实现
探究ElasticSearch中的线程池实现 ElasticSearch里面各种操作都是基于线程池+回调实现的,所以这篇文章记录一下java.util.concurrent涉及线程池实现和Elasti ...

随机推荐

UEditor富文本WEB编辑器设置代码高亮
UEditor编译器支持代码高亮显示,设置方法如下: 1.页面head引入UEditor类包文件shCore.js.shCoreDefault.css代码 (注:引入文件路径根据需求变更即可) < ...
three arrays HDU - 6625 （字典树）
three arrays \[ Time Limit: 2500 ms \quad Memory Limit: 262144 kB \] 题意给出 \(a\),\(b\) 数组,定义数组 \(c[i ...
SpringBoot：认认真真梳理一遍自动装配原理
前言 Spring翻译为中文是“春天”,的确,在某段时间内,它给Java开发人员带来过春天,但是随着我们项目规模的扩大,Spring需要配置的地方就越来越多,夸张点说,“配置两小时,Coding五分钟 ...
Java实现PV操作 | 哲学家进餐问题
运行结果: Java代码: public class Main { public static void main(String[] args) { Global global=new Global( ...
C++中vector的使用总结
vector简单说明 vector也是一个容器,并且是个顺序容器.顺序容器有可变长数组vector.双向链表list.双端队列deque. 顺序容器的定义,是因为容器元素的位置和他们的值大小无关,也就 ...
【louguP1502】窗口的星星
题目链接用两条扫描线从左往右扫描,距离为W,右边的扫描线扫到就加上,左边的扫到就减去, 线段树上的一点\(x\)维护\((x,x+H)\)的星星总价值,修改时直接修改\((x-H,x)\)就行了坐 ...
npm link 的用法
npm link 的用法先到对应的自定义包下执行 npm link 会读取对应的 packagejson 中的名称然后到对应的目录下执行 npm link your/own/npm/name 就会 ...
spring以及json，fastjson和jackson
(一) @RestController 以及 @RequestBody spring的这两个注解都需要使用对应的 message-converters 实现 pojo到字符串的转换, 需要配置实现了 ...
pyqt（day3）
一.在pycharm中配置qtdesigner C:\Python\Python37\Lib\site-packages\pyqt5_tools\designer.exe 二.ui文件转换成pytho ...
某邀请赛misc key阉割发行版
目录题目下载提示解题过程 1.提取RGB值 2.找到key 3.循环异或,得到flag 反思题目下载题目名:key 提示提取钥匙中特殊颜色的RGB循环异或KEY值解题过程 1.提取RGB ...

ElasticSearch中"distinct","count"和"group by"的实现

1 - distinct

2 - count + distinct

3 - count + group by

4 - count + distinct + group by

4 - count + distinct + group by

5 - 注意事项

ElasticSearch中"distinct","count"和"group by"的实现的更多相关文章

随机推荐

热门专题