聚合用于分析查询结果集的统计指标，我们以观看日志分析为例，介绍各种常用的ElasticSearch聚合操作。

查询用户观看视频数和观看时长
聚合分页器
查询视频uv
- 单个视频uv
- 批量查询视频uv
Having查询
- 根据 count 进行过滤
- 根据其它指标进行过滤

首先展示一下我们要分析的文档结构:

{

    "video_id": 1289643545120062253, // 视频id

    "video_uid": 3931482202390368051, // 视频发布者id

    "uid": 47381776787453866, // 观看用户id

    "time": 1533891263224, // 时间发生时间

    "watch_duration": 30 // 观看时长

}

每个文档记录了一个观看事件，我们通过聚合分析用户的观看行为。

ElasticSearch引入了两个相关概念：

桶(Buckets): 满足特定条件的文档的集合
指标(Metrics): 桶中文档的统计值，如特定字段的平均值

查询用户观看视频数和观看时长

首先用sql语句描述这个查询:

SELECT uid, count(*) as view_count

FROM view_log

WHERE time >= #{since} AND time <= #{to}

GROUP BY uid;

ES 查询:

GET /view_log/_search

{

   "size" : 0,

   "query": {

       "range": {

           "time": {

               "gte": 0, // since

               "lte": 0 // to

           }

       }

   },

   "aggs": {

      "agg": { // agg为聚合的名称

        "terms": { // 聚合的条件为 uid 相同

          "field": "uid"

        }

      }

   }

}

response:

{

  "took": 10,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 100000,

    "max_score": 0,

    "hits": []

  },

  "aggregations": {

    "agg": {

      "buckets": [

        {

          "key": 21836334489858688,

          "doc_count": 4026

        },

        {

          "key": 31489302390368051,

          "doc_count": 2717

        }

      ]

    }

}

result.aggregations.agg.buckets列表中包含了查询的结果。

因为我们按照terms:uid进行聚合，每个bucket为uid相同的文档集合，key字段即为uid。

doc_count 字段表明bucket中文档的数目即sql语句中的count(*) as view_count。

我们可以为查询添加额外的统计指标, sql描述:

SELECT uid, count(*) as view_count, avg(watch_duration) as avg_duration

FROM view_log

WHERE time >= #{since} AND time <= #{to}

GROUP BY uid;

ES 查询:

GET /view_log/_search

{

   "size" : 0,

   "query": {

       "range": {

           "time": {

               "gte": 0, // since

               "lte": 0 // to

           }

       }

   },

   "aggs": {

      "agg": { // agg为聚合的名称

        "terms": { // 聚合的条件为 uid 相同

          "field": "uid"

        },

        "aggs": { // 添加统计指标(Metrics)

          "avg_duration": {

              "avg": { // 统计 watch_duration 的平均值

                "field": "watch_duration"

              }

          }

        }

      }

   }

}

response:

{

  "took": 10,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 100000,

    "max_score": 0,

    "hits": []

  },

  "aggregations": {

    "agg": {

      "buckets": [

        {

          "key": 21836334489858688,

          "doc_count": 4026,

          "avg_duration": {

            "value": 12778.882352941177

          }

        },

        {

          "key": 31489302390368051,

          "doc_count": 2717,

          "avg_duration": {

            "value": 2652.5714285714284

          }

        }

      ]

    }

}

avg_duration.value 表示 watch_duration 的平均值即该用户的平均观看时长。

聚合分页器

在实际应用中用户的数量非常惊人, 不可能通过一次查询得到全部结果因此我们需要分页器分批取回:

GET /view_log/_search

{

   "size" : 0,

   "query": {

       "range": {

           "time": {

               "gte": 0, // since

               "lte": 0 // to

           }

       }

   },

   "aggs": {

      "agg": {

        "terms": {

            "field": "uid",

            "size": 10000, // bucket 的最大个数

            "include": { // 将聚合结果分为10页，序号为[0,9], 取第一页

                "partition": 0,

                "num_partitions": 10

            }

        },

        "aggs": {

          "avg_duration": {

              "avg": {

                "field": "watch_duration"

              }

          }

        }

      }

   }

}

上述查询与上节的查询几乎完全相同，只是在aggs.agg.terms字段中添加了include字段进行分页。

查询视频uv

单个视频uv

uv是指观看一个视频的用户数(unique visit)，与此相对没有按照用户去重的观看数称为pv(page visit)。

用SQL语句来描述:

SELECT video_id, count(*) as pv, count(distinct uid) as uv

FROM view_log

WHERE video_id = #{video_id};

ElasticSearch可以方便的进行count(distinct)查询:

GET /view_log/_search

{

    "aggs": {

      "uv": {

        "cardinality": {

          "field": "uid"

        }

      }

   }

}

response:

{

  "took": 255,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 17579,

    "max_score": 0,

    "hits": []

  },

  "aggregations": {

    "uv": {

      "value": 11

    }

  }

}

批量查询视频uv

ElasticSearch也可以批量查询count(distinct), 先用SQL进行描述:

SELECT video_id, count(*) as pv, count(distinct uid) as uv

FROM view_log

GROUP BY video_id;

查询:

GET /view_log/_search

{

    "size": 0,

    "aggs": {

      "video": {

        "terms": {

          "field": "video_id"

        },

        "aggs": {

          "uv": {

              "cardinality": {

                "field": "uid"

              }

          }

        }

      }

   }

}

response:

{

  "took": 313,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 16940,

    "max_score": 0,

    "hits": []

  },

  "aggregations": {

    "video": {

      "buckets": [

        {

          "key": 25417499722062, // 视频id

          "doc_count": 427, // 视频观看次数 pv

          "uv": {

            "value": 124 // 观看视频的用户数 uv

          }

        },

        {

          "key": 72446898144,

          "doc_count": 744,

          "uv": {

            "value":233

          }

        }

      ]

    }

  }

}

Having查询

SQL可以使用HAVING语句根据聚合结果进行过滤，ElasticSearch可以使用pipeline aggregations达到此效果不过语法较为繁琐。

根据 count 进行过滤

使用SQL查询观看超过200次的视频:

SELECT video_id, count(*) as view_count

FROM view_log

GROUP BY video_id

HAVING count(*) > 200;

GET /view_log/_search

{

  "size": 0,

  "aggs": {

    "view_count": {

      "terms": {

        "field": "video_id"

      },

      "aggs": {

        "having": {

          "bucket_selector": {

            "buckets_path": { // 选择 view_count 聚合的 doc_count 进行过滤

              "view_count": "_count"

            },

            "script": {

              "source": "params.view_count > 200"

            }

          }

        }

      }

    }

  }

}

response:

{

  "took": 83,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 775,

    "max_score": 0,

    "hits": []

  },

  "aggregations": {

    "view_count": {

      "buckets": [

        {

          "key": 35025417499764062,

          "doc_count": 529

        },

        {

          "key": 19913672446898144,

          "doc_count": 759

        }

      ]

    }

  }

}

ElasticSearch实现类似HAVING查询的关键在于使用bucket_selector选择聚合结果进行过滤。

根据其它指标进行过滤

接下来我们尝试查询平均观看时长大于5分钟的视频, 用SQL描述该查询:

SELECT video_id FROM view_log

GROUP BY video_id

HAVING avg(watch_duration) > 300;

GET /view_log/_search

{

  "size": 0,

  "aggs": {

    "video": {

      "terms": {

        "field": "video_id"

      },

      "aggs": {

        "avg_duration": {

          "avg": {

            "field": "watch_duration"

          }

        },

        "avg_duration_filter": {

          "bucket_selector": {

            "buckets_path": {

              "avg_duration": "avg_duration"

              },

              "script": {

                "source": "params.avg_duration > 200"

              }

          }

        }

      }

    }

  }

}

response:

{

  "took": 137,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 255,

    "max_score": 0,

    "hits": []

  },

  "aggregations": {

    "video": {

      "buckets": [

        {

          "key": 5417499764062,

          "doc_count": 91576,

          "avg_duration": {

            "value": 103

          }

        },

        {

          "key": 19913672446898144,

          "doc_count": 15771,

          "avg_duration": {

            "value": 197

          }

        }

      ]

    }

  }

}

ElasticSearch聚合分析的更多相关文章

ElasticSearch 聚合分析
公号:码农充电站pro 主页:https://codeshellme.github.io ES 中的聚合分析(Aggregations)是对数据的统计分析功能,它的优点是实时性较高,相比于 Hadoo ...
ElasticSearch聚合分析API——非常详细，如果要全面了解的话，最好看这个
转自:http://www.tianyiqingci.com/2016/04/11/esaggsapi/ 前言说完了ES的索引与检索,接着再介绍一个ES高级功能API – 聚合(Aggregatio ...
Elasticsearch 6.x版本全文检索学习之聚合分析入门
1.什么是聚合分析? 答:聚合分析,英文为Aggregation,是es除搜索功能外提供的针对es数据做统计分析的功能.特点如下所示: a.功能丰富,提供Bucket.Metric.Pipeline等 ...
Elasticsearch 之聚合分析入门
本文主要介绍 Elasticsearch 的聚合功能,介绍什么是 Bucket 和 Metric 聚合,以及如何实现嵌套的聚合. 首先来看下聚合(Aggregation): 什么是 Aggregati ...
elasticsearch系列六：聚合分析（聚合分析简介、指标聚合、桶聚合）
一.聚合分析简介 1. ES聚合分析是什么? 聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值.最小值,计算和.平均值等.ES作为 ...
ElasticStack学习（八）：ElasticSearch索引模板与聚合分析初探
一.Index Template与Dynamic Template的概念 1.Index Template:它是用来根据提前设定的Mappings和Settings,并按照一定的规则,自动匹配到新创建 ...
Elasticsearch系列---常见搜索方式与聚合分析
概要本篇主要介绍常见的6种搜索方式.聚合分析语法,基本是上机实战,可以和关系型数据库作对比,如果之前了解关系型数据库,那本篇只需要了解搜索和聚合的语法规则就可以了. 搜索响应报文以上篇建立的mus ...
Elasticsearch学习笔记（三）聚合分析Agg
一.设置fielddata PUT /index/_mapping/type { "properties":{ "fieldName" ...
Elasticsearch学习之深入聚合分析四---案例实战
1. 需求:比如有一个网站,记录下了每次请求的访问的耗时,需要统计tp50,tp90,tp99 tp50:50%的请求的耗时最长在多长时间tp90:90%的请求的耗时最长在多长时间tp99:99%的请 ...

随机推荐

zeromq学习记录(四)使用ZMQ_ROUTER ZMQ_DEALER
/************************************************************** 技术博客 http://www.cnblogs.com/itdef/ ...
loadtxt()函数的糟心历程
原计划:导入一个csv文件,然后算出平均值 import numpy as np c=np.loadtxt('d:\python36\data.csv', delimiter=',', usecols ...
测试快速关闭innodb的方法
测试mysqlporformanceblog提供的减少关闭innodb时间的方法经常发现一些MySQL镜像库的InnoDB的关闭时间会特别久,mysqlperformanceblog给出了一个不错的 ...
ubuntu无法打开software-center
ubuntu无法打开software-center BUG: 在ubuntu14.04LTS版本下,点击软件中心图标,过了一会软件未能启动,没有动静.用命令行启动报如下错误: perrin@Littl ...
JAVA 8 主要新特性 ----------------(三)新功能Lambda表达式入门
一.简述 Java为了扩充匿名方法在1.8中新追加的特性.本身Java之前的版本是没有匿名方法的,只有匿名对象. 二.使用 Java中使用匿名方法必须要对应接口中的一个抽象方 ...
Python开发——2.基本数据类型之数字和字符串
一.基本数据类型基本数据类型包括:数字(int).字符串(str).列表(list).元祖(tuple).字典(dict).布尔值(bool). 查看输出数据的类型 a = "123&qu ...
python之路(二)-collections系列
collections提供了一些比较方便的方法,使用时需要先导入模块导入模块: import collections 1. 计数器Counter 统计参数中出现的次数,以字典的方式返回结果,参数可以 ...
IIS 设置文件传输大小限制
IIS默认传输文件大小为30M,最大允许传输为2G. 1.通过webconfig配置节点设置在IIS 6.0 设置如下配置节点: 但是IIS 7.0-8.0还要做添加如下配置节点才能正确,否则还是默 ...
zookeeper学习day01
1.zkAPI:(借助闭锁来实现) 1)创建闭锁对象 2)创建zk对象 3)连接zk客户端(连接成功执行countDown方法) 4)执行await方法(保证链接成功) 5)zk对象调用对 ...
Microsoft在8月7号发布的帮助文档更新中，HelpLibrary2安装Cab文档包出现签名问题
在VS 2017 8月2号发布15.7.6版本后,在8月7号推送了helpview程序中的绝大部分更新文档,在本次推送中多数Cab文件出现了无法进行安装的签名问题, 不论是单个下载,还是删除本地所有已 ...

ElasticSearch聚合分析

查询用户观看视频数和观看时长

聚合分页器

查询视频uv

单个视频uv

批量查询视频uv

Having查询

根据 count 进行过滤

根据其它指标进行过滤

ElasticSearch聚合分析的更多相关文章

随机推荐

热门专题