1、group by 分组语句

在SQL中group by主要用来进行分组统计，分组字段放在group by的后面；分组结果一般需要借助聚合函数实现。

group by语法结构 1、常用语法

语法结构 SELECT column_name1,column_name2, … 聚合函数1,聚合函数2 , … FROM table_name GROUP BY column_name1,column_name2, … 说明：1、group by中的分组字段和select后的字段要保持一致；2、通常group by和聚合函数一起使用，但也可以不包含聚合函数，根据业务需求决定；3、常用的聚合函数有max()、min()、avg()、sum()、count()等。

2、影响group by的内存参数

work_mem:因为group by 语句很会用到sort、hash中的任何一中方式，如果work_mem 配置不合适就是用到temp file 进行排序，调整work_mem的目的是使相关操作尽可能在内存中执行

max_parallel_workers：并行相关参数可以条并行扫描相关的速度，是通过消耗cpu资源提升查询效率得一种方法

max_parallel_workers_per_gather：同上

3、聚合方式对group 的影响（重点介绍）

金仓数据库中针对group by 函数有两种聚合方式hashagg、groupagg

HashAggregate

对于hash聚合来说，数据库会根据group by字段后面的值算出hash值，并根据前面使用的聚合函数在内存中维护对应的列表。如果select后面有两个聚合函数，那么在内存中就会维护两个对应的数据。同样的，有n个聚合函数就会维护n个同样的数组。对于hash算法来说，数组的长度肯定是大于group by的字段的distinct值的个数的，且跟这个值应该呈线性关系，group by后面的值越唯一，使用的内存也就越大。

执行计划示例：

aligputf8=# explain select count(1) from pg_class group by oid;
QUERY PLAN
----------------------------------------------------------------------
HashAggregate (cost=1721.40..2020.28 rows=23910 width=4)
Group By: oid
-> Seq Scan on pg_class (cost=0.00..1004.10 rows=143460 width=4)
Settings: enable_seqscan=on
(4 rows)

GroupAggregate

对于普通聚合函数，使用group聚合，其原理是先将表中的数据按照group by的字段排序，这样子同一个group by的值就在一起，这样就只需要对排好序的数据进行一次全扫描，就可以得到聚合的结果了。

执行计划示例：

aligputf8=# set enable_hashagg = off;
SET
aligputf8=# explain select count(1) from pg_class group by oid;
QUERY PLAN
----------------------------------------------------------------------------
GroupAggregate (cost=13291.66..14666.48 rows=23910 width=4)
Group By: oid
-> Sort (cost=13291.66..13650.31 rows=143460 width=4)
Sort Key: oid
-> Seq Scan on pg_class (cost=0.00..1004.10 rows=143460 width=4)
Settings: enable_hashagg=off; enable_seqscan=on
(6 rows)

在不考虑聚合函数的前提下，从上面的两个执行计划的cost来说，GroupAgg 由于需要排序，效率很差，消耗是HashAggregate的7倍。

但是HashAgg也不是万能的，从定义中可以看到在select 查询中用到一个聚合函数hashagg就需要额外维护一个数组。如果的情况下hashagg效率会随着聚合函数的增加直线上升。

对比两种聚合方式

hashagg 不进行排序操作，所以如果对结果集顺序不做要求的情况下有限hashagg
hashagg 的资源消耗会随着聚合函数的增加直线上升。

实验数据

1、构造1000万行测试数据

create table t1(id int primary key, a int, b int);

declare

i int;

begin

i=1;

while(i<=10000000) loop

insert into t1 values(i, i, i);

i=i+1;

end loop;

end;

测试场景一：不带聚合函数

HashAggregate聚合

kingbase=# explain (analyze true ,buffers true) SELECT /*+hashagg*/ a%10 as m,b%100 n from t1 group by m ,n;

QUERY PLAN
HashAggregate (cost=254348.64..404349.12 rows=10000032 width=8) (actual time=4264.745..4317.458 rows=100 loops=1)
Group Key: (a % 10), (b % 100)
Buffers: shared hit=10948 read=43400
-> Seq Scan on t1 (cost=0.00..204348.48 rows=10000032 width=8) (actual time=0.098..2026.376 rows=10000000 loops=1)
Buffers: shared hit=10948 read=43400
Planning Time: 0.059 ms
Execution Time: 4524.736 ms
(7 rows)

GroupAggregate聚合

kingbase=# explain (analyze true ,buffers true) SELECT a%10 as m,b%100 n from t1 group by m ,n;

QUERY PLAN
Group (cost=1367027.26..1492027.66 rows=10000032 width=8) (actual time=8414.506..12554.006 rows=100 loops=1)
Group Key: ((a % 10)), ((b % 100))
Buffers: shared hit=11015 read=43336
-> Sort (cost=1367027.26..1392027.34 rows=10000032 width=8) (actual time=8414.498..11298.553 rows=10000000 loops=1)
Sort Key: ((a % 10)), ((b % 100))
Sort Method: quicksort Memory: 861967kB
Buffers: shared hit=11015 read=43336
-> Seq Scan on t1 (cost=0.00..204348.48 rows=10000032 width=8) (actual time=0.030..2049.870 rows=10000000 loops=1)
Buffers: shared hit=11012 read=43336
Planning Time: 0.060 ms
Execution Time: 12606.549 ms
(11 rows)

针对1000万数据在没有聚合函数情况下 hashagg性能是groupagg的两倍以上

测试场景二：少量聚合函数

HashAggregate聚合

kingbase=#explain (analyze true,buffers true) SELECT /+hashagg/ a%10 as m,b%100 n ,max(a),max(b),avg(a),avg(b) from t1 group by m ,n;

QUERY PLAN
HashAggregate (cost=10000354348.96..10000554349.60 rows=10000032 width=80) (actual time=5248.529..5308.127 rows=100 loops=1)
Group Key: (a % 10), (b % 100)
Buffers: shared hit=11076 read=43272
-> Seq Scan on t1 (cost=0.00..204348.48 rows=10000032 width=16) (actual time=0.055..2152.745 rows=10000000 loops=1)
Buffers: shared hit=11076 read=43272
Planning Time: 0.188 ms
Execution Time: 5541.141 ms
(7 rows)

GroupAggregate聚合

kingbase=# explain (analyze true ,buffers true) SELECT a%10 as m,b%100 n ,max(a),max(b),avg(a),avg(b) from t1 group by m ,n;

QUERY PLAN
GroupAggregate (cost=1367027.26..1742028.46 rows=10000032 width=80) (actual time=9070.775..14161.918 rows=100 loops=1)
Group Key: ((a % 10)), ((b % 100))
Buffers: shared hit=11044 read=43304
-> Sort (cost=1367027.26..1392027.34 rows=10000032 width=16) (actual time=9010.429..11943.928 rows=10000000 loops=1)
Sort Key: ((a % 10)), ((b % 100))
Sort Method: quicksort Memory: 861967kB
Buffers: shared hit=11044 read=43304
-> Seq Scan on t1 (cost=0.00..204348.48 rows=10000032 width=16) (actual time=0.017..2160.858 rows=10000000 loops=1)
Buffers: shared hit=11044 read=43304
Planning Time: 0.118 ms
Execution Time: 14221.171 ms
(11 rows)

测试场景三：大量聚合函数

HashAggregate聚合

explain(analyze true,buffers true)
SELECT/+hashagg/a%10 as m,b%100 n ,max(a),max(b),avg(a),avg(b),min(a),min(b),sum(a),sum(b),sum(a+b),sum(a-b) from t1 group by m ,n;

QUERY PLAN
HashAggregate (cost=10000554349.60..10000754350.24 rows=10000032 width=120) (actual time=6070.836..6131.290 rows=100 loops=1)
Group Key: (a % 10), (b % 100)
Buffers: shared hit=11204 read=43144
-> Seq Scan on t1 (cost=0.00..204348.48 rows=10000032 width=16) (actual time=0.096..2148.660 rows=10000000 loops=1)
Buffers: shared hit=11204 read=43144
Planning Time: 0.138 ms
Execution Time: 6359.172 ms
(7 rows)

本次只是大量聚合函数测试可以看到HashAggregate 相较于场景二时间变长1s中左右，具体多少聚合函数会对hashagg 有比较大的影响还需要大家深入探讨

测试场景四：hashagg 走索引

总结

可以看出，对于GroupAgg来说，消耗的内存基本上是恒定的，无论group by哪个字段。当聚合函数较少的时候，速度也相对较慢，但是相对稳定。

HashAgg在少数聚合函数是表现优异，但是很多聚合函数，性能跟消耗的内存差异很明显。尤其是受group by字段的唯一性很明显，字段count（district）值越大，hash聚合消耗的内存越多，性能下降剧烈。

所以在sql中有大量聚合函数，group by 的字段由相对比较唯一的时候，应该用GroupAgg，而不能用HashAgg。

kingbase ES group by 语句优化的更多相关文章

group by 语句怎么优化？
一.一个简单使用示例我这里创建一张订单表 CREATE TABLE `order_info` ( `id` int NOT NULL AUTO_INCREMENT COMMENT '主键', `or ...
SQL语句优化
(1) 选择最有效率的表名顺序 ( 只在基于规则的优化器中有效 ) : ORACLE 的解析器按照从右到左的顺序处理 FROM 子句中的表名, FROM 子句中写在最后的表 ( 基础表dri ...
sql语句优化SQL Server
MS SQL Server查询优化方法查询速度慢的原因很多,常见如下几种 1.没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) 2.I/O吞吐量小,形成了 ...
优化数据库的方法及SQL语句优化的原则
优化数据库的方法: 1.关键字段建立索引. 2.使用存储过程,它使SQL变得更加灵活和高效. 3.备份数据库和清除垃圾数据. 4.SQL语句语法的优化.(可以用Sybase的SQL Expert,可惜 ...
数据库性能调优——sql语句优化(转载及整理) —— 篇2
下面是在网上搜集的一些个人认为比较正确的调优方案,如有错误望指出,定虚心改正 (1) 选择最有效率的表名顺序(只在基于规则的优化器中有效): ORACLE 的解析器按照从右到左的顺序处理FROM子句中 ...
数据库性能优化之SQL语句优化
一.问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的编写等是体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着数据库中数据的增加,系统 ...
MYSQL查询语句优化
mysql的性能优化包罗甚广: 索引优化,查询优化,查询缓存,服务器设置优化,操作系统和硬件优化,应用层面优化(web服务器,缓存)等等.这里的记录的优化技巧更适用于开发人员,都是从网络上收集和自己整 ...
oracle学习十数据库的语句优化（持续更）
平时关注Oracle数据库的网友都知道,Oracle性能优化保证了Oracle数据库的健壮性.下面就此提出需要注意的两个原则. 原则一:注意WHERE子句中的连接顺序: ORACLE采用自下而上的 ...
浅谈SQL语句优化经验
(1) 选择最有效率的表名顺序(只在基于规则的seo/' target='_blank'>优化器中有效):ORACLE 的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后 ...
整理：sql语句优化之SQL Server
. 增加服务器CPU个数;但是必须明白并行处理串行处理更需要资源例如内存.使用并行还是串行程是MsSQL自动评估选择的.单个任务分解成多个任务,就可以在处理器上运行.例如耽搁查询的排序.连接.扫描和 ...

随机推荐

Java集合篇之深度解析Queue，单端队列、双端队列、优先级队列、阻塞队列
写在开头队列是Java中的一个集合接口,之前的文章已经讲解了List和Set,那么今天就来唠一唠它吧.队列的特点:存储的元素是有序的.可重复的. 队列的两大接口Queue vs Deque Queu ...
MySQL表锁定处理
研发要在一个ol_poster_sign表加字段,表比较大有400多万条,用gh-ost加字段时,在切换过程中一直报错: 无法完成最后的切换: INFO Magic cut-over table cr ...
Java异常处理的20个最佳实践：告别系统崩溃
引言在Java编程中,异常处理是一个至关重要的环节,它不仅涉及到程序的稳定性和安全性,还关系到用户体验和系统资源的合理利用.合理的异常处理能够使得程序在面对不可预知错误时,能够优雅地恢复或者给出明确 ...
Taurus.MVC WebMVC 入门开发教程3：数据绑定Model
前言: 在这篇 Taurus.MVC WebMVC 入门开发教程的第三篇文章中, 我们将重点介绍如何进行数据绑定操作,还会学习如何使用 ${属性名称} CMS 语法来绑定页面上的元素与 Model 中 ...
Elasticsearch-Mapping(映射)
Elasticsearch-Mapping(映射) Mapping是用来定义一个文档(document),以及它所包含的属性(field)是如何存储和索引的. 哪些字符串属性应该被看做全文本属性(f ...
【LeetCode链表#10】删除链表中倒数第n个节点（双指针）
删除链表倒数第N个节点力扣题目链接(opens new window) 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点. 进阶:你能尝试使用一趟扫描实现吗? 示例 1: 输入:he ...
Java HashMap 详解
HashMap HashMap 继承自 AbstractMap,实现了 Map 接口,基于哈希表实现,元素以键值对的方式存储,允许键和值为 null.因为 key 不允许重复,因此只能有一个键为 nu ...
【Azure 应用程序见解】通过无代码方式在App Service中启用Application Insights后，如何修改在Application Insights中显示的App Service实例名呢？
问题描述在App Service中,可以非常容易的启动Application Insights服务.默认情况中,在Application Insights中查看信息时候,其中的对象名称默认为App ...
浅入Kubernetes(4)：使用Minikube体验
Minikube 打开 https://github.com/kubernetes/minikube/releases/tag/v1.19.0 下载最新版本的二进制软件包(deb.rpm包),再使用 ...
Python项目维护不了？可能是测试没到位。Django的单元测试和集成测试初探
前言好久没搞 Django 了,最近维护一个我之前用 Django 开发的项目竟然有亲切的感觉测试,在以前确实是经常被忽略的话题,特别是对于 Python Web 这种快速开发框架,怎么敏捷怎么来 ...

kingbase ES group by 语句优化

1、group by 分组语句

2、影响group by的内存参数

3、聚合方式对group 的影响（重点介绍）

HashAggregate

GroupAggregate

对比两种聚合方式

实验数据

测试场景一：不带聚合函数

测试场景二：少量聚合函数

测试场景三：大量聚合函数

测试场景四：hashagg 走索引

总结

kingbase ES group by 语句优化的更多相关文章

随机推荐

热门专题