Elasticsearch学习之深入聚合分析二---案例实战

　　以一个家电卖场中的电视销售数据为背景，来对各种品牌，各种颜色的电视的销量和销售额，进行各种各样角度的分析，首先建立电视销售的索引，然后

添加几条销售记录

PUT /tvs

{

    "mappings": {

        "sales": {

            "properties": {

                "price": {

                    "type": "long"

                },

                "color": {

                    "type": "keyword"

                },

                "brand": {

                    "type": "keyword"

                },

                "sold_date": {

                    "type": "date"

                }

            }

        }

    }

}

POST /tvs/sales/_bulk

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-10-28" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }

{ "index": {}}

{ "price" : , "color" : "绿色", "brand" : "小米", "sold_date" : "2016-05-18" }

{ "index": {}}

{ "price" : , "color" : "蓝色", "brand" : "TCL", "sold_date" : "2016-07-02" }

{ "index": {}}

{ "price" : , "color" : "绿色", "brand" : "TCL", "sold_date" : "2016-08-19" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "三星", "sold_date" : "2017-01-01" }

{ "index": {}}

{ "price" : , "color" : "蓝色", "brand" : "小米", "sold_date" : "2017-02-12" }

建立索引及增添数据

1. 统计哪种颜色的电视销量最高

GET /tvs/sales/_search

{

    "size" : ,

    "aggs" : {

        "popular_colors" : {

            "terms" : {

              "field" : "color"

            }

        }

    }

}

size：只获取聚合结果，而不要执行聚合的原始数据
aggs：固定语法，要对一份数据执行分组聚合操作
popular_colors：就是对每个aggs，都要起一个名字，这个名字是随机的，你随便取什么都ok
terms：根据字段的值进行分组
field：根据指定的字段的值进行分组

2. 统计每种颜色电视的平均价格

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "colors": {

         "terms": {

            "field": "color"

         },

         "aggs": {

            "avg_price": {

               "avg": {

                  "field": "price"

               }

            }

         }

      }

   }

}

　　按照color去分bucket，可以拿到每个color bucket中的数量，这个仅仅只是一个bucket操作，doc_count其实只是es的bucket操作默认执行的一个内置metric，除了bucket操作，分组，还要对每个bucket执行一个metric聚合统计操作，在一个aggs执行的bucket操作（terms），平级的json结构下，再加一个aggs，这个第二个aggs内部，同样取个名字，执行一个metric操作，avg，对之前的每个bucket中的数据的指定的field，price field，求一个平均值

3. 颜色加品牌多层下钻分析

　　从颜色到品牌进行下钻分析，每种颜色的平均价格，以及找到每种颜色每个品牌的平均价格，下钻的意思是，已经分了一个组了，比如说颜色的分组，然后还要继续对这个分组内的数据，再分组，比如一个颜色内，还可以分成多个不同的品牌的组，最后对每个最小粒度的分组执行聚合分析操作，这就叫做下钻分析

　　es，下钻分析，就要对bucket进行多层嵌套，多次分组按照多个维度（颜色+品牌）多层下钻分析，而且学会了每个下钻维度（颜色，颜色+品牌），都可以对每个维度分别执行一次metric聚合操作

GET /tvs/sales/_search

{

  "size": ,

  "aggs": {

    "group_by_color": {

      "terms": {

        "field": "color"

      },

      "aggs": {

        "color_avg_price": {

          "avg": {

            "field": "price"

          }

        },

        "group_by_brand": {

          "terms": {

            "field": "brand"

          },

          "aggs": {

            "brand_avg_price": {

              "avg": {

                "field": "price"

              }

            }

          }

        }

      }

    }

  }

}

其他metric，例如 count，avg

count：bucket，terms，自动就会有一个doc_count，就相当于是count
avg：avg aggs，求平均值
max：求一个bucket内，指定field值最大的那个数据
min：求一个bucket内，指定field值最小的那个数据
sum：求一个bucket内，指定field值的总和

一般来说，90%的常见的数据分析的操作，metric，无非就是count，avg，max，min，sum

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "colors": {

         "terms": {

            "field": "color"

         },

         "aggs": {

            "avg_price": { "avg": { "field": "price" } },

            "min_price" : { "min": { "field": "price"} },

            "max_price" : { "max": { "field": "price"} },

            "sum_price" : { "sum": { "field": "price" } }

         }

      }

   }

}

4. histogram：类似于terms，也是进行bucket分组操作，接收一个field，按照这个field的值的各个范围区间，进行bucket分组操作

"histogram":{
"field": "price",
"interval": 2000
},

interval：2000，划分范围，0~2000，2000~4000，4000~6000，6000~8000，8000~10000，buckets

去根据price的值，比如2500，看落在哪个区间内，比如2000~4000，此时就会将这条数据放入2000~4000对应的那个bucket中

bucket划分的方法，terms，将field值相同的数据划分到一个bucket中

bucket有了之后，同样可以对每个bucket执行avg，count，sum，max，min，等各种metric操作，聚合分析

示例；按照价格区间统计销售额和电视销量

GET /tvs/sales/_search

{

   "size" : ,

   "aggs":{

      "price":{

         "histogram":{

            "field": "price",

            "interval":

         },

         "aggs":{

            "revenue": {

               "sum": {

                 "field" : "price"

               }

             }

         }

      }

   }

}

bucket，分组操作，histogram，按照某个值指定的interval，划分一个一个的bucket

date histogram，按照我们指定的某个date类型的日期field，以及日期interval，按照一定的日期间隔，去划分bucket

date interval = 1m，

2017-01-01~2017-01-31，就是一个bucket
2017-02-01~2017-02-28，就是一个bucket

然后会去扫描每个数据的date field，判断date落在哪个bucket中，就将其放入那个bucket

2017-01-05，就将其放入2017-01-01~2017-01-31，就是一个bucket

min_doc_count：即使某个日期interval，2017-01-01~2017-01-31中，一条数据都没有，那么这个区间也是要返回的，不然默认是会过滤掉这个区间的
extended_bounds，min，max：划分bucket的时候，会限定在这个起始日期，和截止日期内

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "sales": {

         "date_histogram": {

            "field": "sold_date",

            "interval": "month",

            "format": "yyyy-MM-dd",

            "min_doc_count" : ,

            "extended_bounds" : {

                "min" : "2016-01-01",

                "max" : "2017-12-31"

            }

         }

      }

   }

}

示例：统计每个季度每个品牌的销售额

GET /tvs/sales/_search

{

  "size": ,

  "aggs": {

    "group_by_sold_date": {

      "date_histogram": {

        "field": "sold_date",

        "interval": "quarter",

        "format": "yyyy-MM-dd",

        "min_doc_count": ,

        "extended_bounds": {

          "min": "2016-01-01",

          "max": "2017-12-31"

        }

      },

      "aggs": {

        "group_by_brand": {

          "terms": {

            "field": "brand"

          },

          "aggs": {

            "sum_price": {

              "sum": {

                "field": "price"

              }

            }

          }

        },

        "total_sum_price": {

          "sum": {

            "field": "price"

          }

        }

      }

    }

  }

}

Elasticsearch学习之深入聚合分析二---案例实战的更多相关文章

Elasticsearch学习之深入聚合分析四---案例实战
1. 需求:比如有一个网站,记录下了每次请求的访问的耗时,需要统计tp50,tp90,tp99 tp50:50%的请求的耗时最长在多长时间tp90:90%的请求的耗时最长在多长时间tp99:99%的请 ...
Elasticsearch学习之深入聚合分析三---案例实战
1. 统计指定品牌下每个颜色的销量任何的聚合,都必须在搜索出来的结果数据中进行,搜索结果,就是聚合分析操作的scope GET /tvs/sales/_search { , "query& ...
Elasticsearch学习之深入聚合分析五---案例实战
1. fielddata核心原理 fielddata加载到内存的过程是lazy加载的,对一个analzyed field执行聚合时,才会加载,而且是field-level加载的,一个index的一个f ...
Elasticsearch学习之深入聚合分析一---基本概念
首先明白两个核心概念:bucket和metric 1. bucket:一个数据分组 city name 北京小李北京小王上海小张上海小丽上海小陈基于city划分buckets,划分 ...
ElasticStack学习（八）：ElasticSearch索引模板与聚合分析初探
一.Index Template与Dynamic Template的概念 1.Index Template:它是用来根据提前设定的Mappings和Settings,并按照一定的规则,自动匹配到新创建 ...
elasticsearch系列六：聚合分析（聚合分析简介、指标聚合、桶聚合）
一.聚合分析简介 1. ES聚合分析是什么? 聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值.最小值,计算和.平均值等.ES作为 ...
ElasticSearch 简单的搜索聚合分析
一. 搜索1.DSL搜索全部数据没有任何条件 GET /shop/goods/_search { "query": { "match_all": {} } } ...
Elasticsearch学习之嵌套聚合，下钻分析，聚合分析
1. 计算每个tag下的商品数量 GET /ecommerce/product/_search { "aggs": { "group_by_tags": { & ...
Java之微信支付(扫码支付模式二)案例实战
摘要:最近的一个项目中涉及到了支付业务,其中用到了微信支付和支付宝支付,在做的过程中也遇到些问题,所以现在总结梳理一下,分享给有需要的人,也为自己以后回顾留个思路. 一:微信支付接入准备工作: 首先, ...

随机推荐

【转】Spring Boot干货系列：常用属性汇总
转自Spring Boot干货系列:常用属性汇总附录A.常用应用程序属性摘自:http://docs.spring.io/spring-boot/docs/current/reference/ht ...
相对和绝对路径/cd命令/创建和删除目录mkdir/rmdir/rm命令
2.6 相对和绝对路径 2.7 cd命令 2.8 创建和删除目录mkdir/rmdir 2.9 rm命令绝对路径:从根开始的路径:文件所在的路径: 相对路径:相对于当前目录而言的路径:上一级或者下一 ...
【玩转Golang】reflect.DeepEqual
如果有两个map,内容都一样,只有顺序不同 m1:=map[,,}; m2:=map[,,}; 我们怎么判断二者是否一致呢? 如果你打算这么写: fmt.Println("m1==m2&qu ...
通过tarball形式安装HBASE Cluster（CDH5.0.2）——如何配置分布式集群中的zookeeper
集群安装总览参见这里 Zookeeper的配置 1,/etc/profile中加入zk的路径设置,见上面背景说明. 2,进入~/zk/conf目录,复制zoo_sample.cfg为zoo.cfg v ...
【WP8】WP8调用官方API使用LED灯
在WP7中没有相关的API可以直接使用摄像头的LED等,只能通过录像时打开LED等来使用,在WP8中添加了相关的调用接口,可以方便的使用LED灯,并且支持后台,废话不多说,直接上代码 1.在 WMAp ...
vue学习起步，vue环境安装
vue安装的前提是安装了nodejs 安装淘宝镜像 npm install -g cnpm --registry=https://registry.npm.taobao.org 安装webpack c ...
ESPCN超分辨率汇总
Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural ...
qt creator如何实现转到槽功能
ui_mainwindow.h .
[原]NGUI之按钮置灰
传统按钮置灰,需要使用另外一张纹理. 本例通过修改shader和NGUI sprite的r值实现按钮置灰.优势:节省纹理,操作简单将NGUI Unlit/Transparent Colored片段部 ...
Hibernate_day02讲义_使用Hibernate完成CRM客户管理中查询所有客户的操作

Elasticsearch学习之深入聚合分析二---案例实战

Elasticsearch学习之深入聚合分析二---案例实战的更多相关文章

随机推荐

热门专题