私藏!资深数据专家SQL效率优化技巧 ⛵
作者:韩信子@ShowMeAI
数据分析实战系列:https://www.showmeai.tech/tutorials/40
本文地址:https://www.showmeai.tech/article-detail/391
声明:版权所有,转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容
所有的数据相关工作人员,包括数据开发、数据分析师、数据科学家等,多多少少会使用数据库,我们很多的业务数据也是存放在业务表中。但即使是同一个需求,不同人写出的 SQL 效率上也会有很大差别,而我们在数据岗位面试的时候,也会考察相关的技能和思考,在本篇文章中,ShowMeAI将给大家梳理 SQL 中可以用于优化效率和提速的核心要求。
关于 SQL 的基础技能知识,欢迎大家查阅ShowMeAI制作的速查表:
1)使用正则regexp_like
代替LIKE
如下例所示,当我们要进行模糊匹配的时候(尤其是匹配项很多的时候),我们使用regexp_like
代替LIKE
可以提高效率。
低效代码
SELECT *
FROM phones
WHERE
lower(name) LIKE '%samsing&' OR
lower(name) LIKE '%apple&' OR
lower(name) LIKE '%htc&' OR
高效代码
SELECT *
FROM phones
WHERE
REGEXP_LIKE(lower(name),'samsung|apple|htc')
2)使用regexp_extract
代替 Case-when Like
类似的,使用regexp_extract
代替Case-when Like
可以提高效率。
低效代码
SELECT *
CASE
WHEN concat(' ', name, ' ') LIKE '%acer%' then 'Acer'
WHEN concat(' ', name, ' ') LIKE '%samsung%' then 'Samsung'
WHEN concat(' ', name, ' ') LIKE '%dell%' then 'Dell'
AS brand
FROM laptops
高效代码
SELECT
regexp_extract(name,'(acer|samsung|dell)')
AS brand
FROM laptops
3)IN子句转换为临时表
但我们进行数据选择时候,有时候会用到in
作为条件选择,如果我们的候选项非常多,那利用临时表可能会带来更好的效率。
低效代码
SELECT *
FROM table1 as t1
WHERE
itemid in (3363134, 5343, 5555555)
高效代码
SELECT *
FROM table 1 as t1
JOIN (
SELECT
itemid
FROM (
SELECT
split('3363134, 5343, 5555555') as bar
)
CROSS JOIN
UNNEST(bar) AS t(itemid)
) AS table2 as t2
ON
t1.itemid = t2.itemid
4)将 JOIN 的表从大到小排序
当我们要进行表关联(join)的时候,我们可以对表基于大小进行一个排序,把大表排在前面,小表排在后面,也会带来效率的提升。
低效代码
SELECT *
FROM small_table
JOIN large_table
ON small_table.id = large_table.id
高效代码
SELECT *
FROM large_table
JOIN small_table
ON small_table.id = large_table.id
5)使用简单的表关联条件
如果我们要基于条件对两个表进行连接,那条件中尽量不要出现复杂函数,如果一定需要使用,那我们可以先用函数对表的数据处理产出用于连接的字段。
如下例中,我们对a
和b
表进行连接,条件是b
表的「年」「月」「日」拼接后和a
表的日期一致,那粗糙的写法和优化的写法分别如下:
低效代码
SELECT *
FROM table1 a
JOIN table2 b
ON a.date = CONCAT(b.year, '-', b.month, '-', b.day)
高效代码
SELECT *
FROM table1 a
JOIN (
SELECT name, CONCAT(b.year, '-', b.month, '-', b.day) as date
FROM table2 b
) new
ON a.date = new.date
6)分组的字段按照类别取值种类数排序
如果我们需要对数据按照多个字段分组,尤其是字段中有id类这种取值非常多的类别字段,我们应当把它排在最前面,这也可以对效率有一些帮助。
低效代码
SELECT
main_category,
sub_category,
itemid
sum(price)
FROM
table1
GROUP BY
main_category, sub_category, itemid
高效代码
SELECT
main_category,
sub_category,
itemid
sum(price)
FROM
table1
GROUP BY
itemid, sub_category, main_category
7)避免 WHERE 子句中的子查询
当我们要查询的语句的where
条件中包含子查询时,我们可以通过with
语句构建临时表来调整连接条件,提升效率,如下:
错误代码
SELECT sum(price)
FROM table1
WHERE itemid in (
SELECT itemid
FROM table2
)
好代码
WITH t2
AS (SELECT itemid
FROM table2)
SELECT Sum(price)
FROM table1 AS t1
JOIN t2
ON t1.itemid = t2.itemid
8)取最大直接用Max而非Rank后取第1
这一条很好理解,如果我们要取某字段最大取值,我们直接使用 max,而不要用 rank 排序后取第 1,如下代码所示:
低效代码
SELECt *
FROM (
SELECT userid, rank() over (order by prdate desc) as rank
FROM table 1
)
WHERE ranking = 1
高效代码
SELECT userid, max(prdate)
FROM table1
GROUP BY 1
9)其他优化点
- 对于大表,利用
approx_distinct()
代替count(distinct)
来计数。 - 对于大表,利用
approx_percentie(metric,0.5)
代替median
。 - 尽可能避免使用
UNION
。
参考资料
推荐阅读
- 数据分析实战系列 :https://www.showmeai.tech/tutorials/40
- 机器学习数据分析实战系列:https://www.showmeai.tech/tutorials/41
- 深度学习数据分析实战系列:https://www.showmeai.tech/tutorials/42
- TensorFlow数据分析实战系列:https://www.showmeai.tech/tutorials/43
- PyTorch数据分析实战系列:https://www.showmeai.tech/tutorials/44
- NLP实战数据分析实战系列:https://www.showmeai.tech/tutorials/45
- CV实战数据分析实战系列:https://www.showmeai.tech/tutorials/46
- AI 面试题库系列:https://www.showmeai.tech/tutorials/48
私藏!资深数据专家SQL效率优化技巧 ⛵的更多相关文章
- Oracle SQL性能优化技巧大总结
http://wenku.baidu.com/link?url=liS0_3fAyX2uXF5MAEQxMOj3YIY4UCcQM4gPfPzHfFcHBXuJTE8rANrwu6GXwdzbmvdV ...
- Oracle SQL 性能优化技巧
Select语句完整的执行顺序: SQL Select语句完整的执行顺序: 1. from子句组装来自不同数据源的数据: 2.where子句基于指定的条件对记录行进行筛选: 3.group by子句将 ...
- SQL性能优化技巧
作者:IT王小二 博客:https://itwxe.com 这里就给小伙伴们带来工作中常用的一些 SQL 性能优化技巧总结,包括常见优化十经验.order by 与 group by 优化.分页查询优 ...
- SQLSERVER SQL性能优化技巧
这篇文章主要介绍了SQLSERVER SQL性能优化技巧,需要的朋友可以参考下 1.选择最有效率的表名顺序(只在基于规则的优化器中有效) SQLSERVER的解析器按照从右到左的顺序处理F ...
- SQL Server优化技巧——如何避免查询条件OR引起的性能问题
之前写过一篇博客"SQL SERVER中关于OR会导致索引扫描或全表扫描的浅析",里面介绍了OR可能会引起全表扫描或索引扫描的各种案例,以及如何优化查询条件中含有OR的SQL语句的 ...
- SQL Server优化技巧——如何避免查询条件OR引起的性能问题
原文:SQL Server优化技巧--如何避免查询条件OR引起的性能问题 之前写过一篇博客"SQL SERVER中关于OR会导致索引扫描或全表扫描的浅析",里面介绍了OR可能会引起 ...
- sql数据库优化技巧汇总
(转)SQL 优化原则 一.问题的提出 在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着 ...
- sql大数据量查询的优化技巧
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
- SQL Server优化技巧之SQL Server中的"MapReduce"
日常的OLTP环境中,有时会涉及到一些统计方面的SQL语句,这些语句可能消耗巨大,进而影响整体运行环境,这里我为大家介绍如何利用SQL Server中的”类MapReduce”方式,在特定的统计情形中 ...
- ORACLE百万记录SQL语句优化技巧
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
随机推荐
- (一)JPA的快速入门
JPA简介 JPA是什么 JPA 是Java Persistence API的缩写,是一套由Java官方制定的ORM标准.当制定这套标准以后,市场上就出现很多JPA框架.如:OpenJPA(apach ...
- 使用KVM的图形化界面安装centos7虚拟机
前提条件 1.宿主机上已经安装KVM的图形化管理软件,参考网址:https://www.cnblogs.com/sanduzxcvbnm/p/15538881.html 2.宿主机上安装vnc服务器, ...
- 在k8s中部署前后端分离项目进行访问的两种配置方式
第一种方式 (1) nginx配置中只写前端项目的/根路径配置 前端项目使用的Dockerfile文件内容 把前端项目编译后生成的dist文件夹放在nginx的html默认目录下,浏览器访问前端项目时 ...
- Kubernetes ConfigMap热更新
ConfigMap是用来存储配置文件的kubernetes资源对象,所有的配置内容都存储在etcd中. 总结 更新 ConfigMap 后: 使用该 ConfigMap 挂载的 Env 不会同步更新 ...
- 索引模板和动态索引模板 (Index Template和Dynamic Template)
相关阅读 Index Templates https://www.elastic.co/guide/en/elasticsearch/reference/7.1/indices-templates.h ...
- Spring mvc源码分析系列--Servlet的前世今生
Spring mvc源码分析系列--Servlet的前世今生 概述 上一篇文章Spring mvc源码分析系列--前言挖了坑,但是由于最近需求繁忙,一直没有时间填坑.今天暂且来填一个小坑,这篇文章我们 ...
- Go设计模式学习准备——下载bilibili合集视频
需求 前段时间面试,被问到设计模式.说实话虽然了解面向对象.多态,但突然被问到设计模式,还要说清解决什么问题,自己是有些懵的,毕竟实习主要工作是在原项目基础进行CRUD,自己还是没有深度思考,所以只能 ...
- python解释器下载及注意事项
python解释器 python解释器下载 python解释器下载官网:https://www.python.org/downloads/windows/ 目前比较常用的python版本有python ...
- 洛谷P1725 琪露诺 (单调队列/堆优化DP)
显然的DP题..... 对于位置i,它由i-r~i-l的位置转移过来,容易得到方程 dp[i]=dp[i]+max(dp[i−r],...,dp[i−l]). 第一种:n2的暴力,只能拿部分分. 1 ...
- 使用idea操作git(ssh协议)
问题 我们发现,使用IDEA上的git功能,当使用ssh协议出现了可以commit但无法push和pull的问题,经过测试发现原因是Could not read from remsitory.直接翻译 ...