本文由 伯乐在线 - cucr 翻译,黄利民 校稿。未经许可,禁止转载!
英文出处:msiman.ga。欢迎加入翻译小组

背景

已格式化的SQL并不比未格式化SQL运行地更快。数据库可能真的不太在意你是否把逗号放在每个字段名称的前面或后面。为帮助你更理智和成为一名高效的SQL编写者,我建议你遵循一些格式化的指导方针。在这篇文章里,我将分享如何格式化SQL语句来提高工作效率。我对生产力这样定义,能够从SQL得到准确的结果,同时代码容易理解,修改和调试。我只会专注于SELECT语句,它占到我编写SQL的99%。格式化SQL代码是非常个性的选择,我很清楚,不同的人将钟爱他们自己的格式化规则。

问题样例

这是一个典型的SQL使用场景,业务上需要这样的报表,它的数据在三个表中,分别是customer、sales 和 location。在2015年1月,报表需要显示位于每一个邮政编码区域的客户数量和总销售额。这应该是一个简单的SQL语句,它连接三个表。

数据可能有问题

虽然SQL很容易,确保结果准确才是真正的挑战,以下是许多可能的原因中的一个,包括:

  • 数据可能来自不同数据源。这意味着在不同的表中的无法保证引用完整性。简单说,你不能假定 customer 表上的所有邮政编码是有效的,同时在 location 表上也存在该问题。
  • 存取客户数据的应用程序,可能没有适当的数据验证。可能已经存入不正确的邮政编码。
  • postcode 表可能没有所有邮政编码。新的邮政编码代码可能被引入,但自从上次更新还没有添加到表中。



第一原则

对我来说,格式化SQL更多地是从SQL获得正确的结果,因为它有明确的SQL,很容易跟踪。我做的第一件事编写获取客户总数的语句。这是个数字,我将在写完整个语句后进行对比。

我写的第一条语句是:

1
2
3
4
SELECT
   COUNT(DISTINCT cust_id) AS count_customers
FROM
        customers

Result:

count_customers
“10″

这个查询很重要,因为它遵循了 第一原则(外部链接) 。因为没有SQL连接,因此没有依赖,我知道这是正确的客户数量。我总是记下结果,因为我总是需要拿这个数字对比,在这篇文章是 10。

接下来我要做的就是添加必要的字段和表到这个查询。我强调添加这个词,因为根据我遵循的格式化规则,我可以注释掉查询的元素来得到和我应用第一原则时相同的结果。下面是我最终的格式化查询,使用格式化查询的方式。

格式化SQL

下面是我推荐的格式化的SQL,紧接后面是我进行的格式化选择的理由。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
SELECT
 0
 ,c.cust_post_code
 ,p.location
 ,COUNT(DISTINCT c.cust_id) number_customers
 ,SUM(s.total_amount) AS total_sales
FROM
   customers c
   JOIN post_codes p ON c.cust_post_code = p.post_code
   JOIN sales s ON c.cust_id = s.cust_id
WHERE
   1=1
   AND s.sales_date BETWEEN '2015-01-01' AND '2015-01-31'
   --AND s.order_id = 5
GROUP BY
    c.cust_post_code
   ,p.location

总是使用表别名

这将会在你的SQL中得到证实。如果你不为参与查询的每个字段使用 别名(外部链接) ,有时候在后期,具有相同名称的字段添加到查询中使用的某个表中。你的查询和你的报表将出现一个错误(发现重复的字段名)。

逗号在字段前

当调试/测试我的查询时,这让我能轻易进行字段注释和取消注释,不需要在查询中修改任何其他行,以确保逗号在正确的地方。我看过一些文章,博主为了大事化小不得不改变另一个查询的一部分,以确保逗号是正确的,但是你如果花大部分时间编写和测试 SQL 语句,这是一个大问题。你按这种方式将会更有效率。这个在 SELECT 和 GROUP BY 查询部分都工作地很好。

我在开发环境使用 SELECT 0,同时倾向于进入生产环境之前删除它。它允许我把逗号放在所有字段前。如果没有 0,我想注释掉c.cust_post_code,它是第一个字段,我就必须注释掉第二个字段前面的逗号。我也会在 GROUP BY 子句做同样的事情。0 可以消除这个额外的工作。

在新的一行JOIN

将JOIN语句放在一个新行的优势包括:

  • 通过仅仅向下滚动JOIN语句列表就可以很容易地查看查询中所涉及到的所有表。
  • 使用 JOIN,相比将所有表和关系表达式都列在 WHERE 语句中,它可以将所有关系逻辑保持在一个地方。JOIN 语句也许不可能总是遵循在一行,但至少会在一个地方。
  • 注释掉 JOIN 会相对比较容易。在调试时,当你想知道哪个 JOIN 导致数据差异时,将很有用。

列模式编辑

在处理大量的字段时,列模式编辑非常方便。下面是我的第一次动画GIF展示,显示你如何注释掉所有非聚合字段。在实践中我使用

列模式编辑(外部链接),不仅仅是注释字段还包括:

  • 大量创建索引
  • 在使用 UNION 语句时带有长的字段列表
  • 注 释GROUP BY 子句长的字段列表

测试查询结果

我不得不使用外连接来列出所有客户,因为并不是所有客户的邮政编码在 location 表中都能找到对应邮政编码。我能够做到这一点,通过在我的查询中反复包括和排除不同的字段和表,确保我能够与基于第一原则的最早查询保持一致。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
SELECT
 0
 ,c.cust_post_code
 --,p.location
 ,COUNT(DISTINCT c.cust_id) number_customers
 ,SUM(s.total_amount) AS total_sales
FROM
   customers c
   --LEFT OUTER JOIN post_codes p ON c.cust_post_code = p.post_code
   JOIN sales s ON c.cust_id = s.cust_id
WHERE
   1=1
   AND s.sales_date BETWEEN '2015-01-01' AND '2015-01-31'
   --AND c.cust_post_code = 2000
   --AND p.post_code = 200
GROUP BY
    c.cust_post_code
   --,p.location

对我来说,像这样格式化SQL,意味着我不必编写为了检查数据做单独的测试。通过注释掉一些行,我能使用第一原则来测试数据的准确性。这可以提高我的效率,以及报表的准确性。

关于作者: cucr

格式化 SQL 来提高效率的更多相关文章

  1. 提高SQL的查询效率

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引.   2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使 ...

  2. oracle里要查看一条sql的执行情况,有没有走到索引,怎么看?索引不能提高效率?

    index scan 索引扫描 full table scan是全表扫描 直接explain plan for 还有个set autotrace什么 索引一定能提高执行效率吗? 索引不能提高效率的情况 ...

  3. sql的简单提高效率方法

    少用in操作(效率极差),尽量用表关联代替 select要指定列,不要*(*会读入所有数据,而指定列则只提取涉及的列,减少io) 尽量有where(减少读取量),where操作列尽量有索引(加快查询) ...

  4. 使用or展开进行sql优化(即sql语法union all代替or可以提高效率)

    问题: 这样一条sql应该怎么优化? select * from sys_user where user_code = 'zhangyong' or user_code in (select grp_ ...

  5. SQL Server 并行操作优化,避免并行操作被抑制而影响SQL的执行效率

    为什么我也要说SQL Server的并行: 这几天园子里写关于SQL Server并行的文章很多,不管怎么样,都让人对并行操作有了更深刻的认识. 我想说的是:尽管并行操作可能(并不是一定)存在这样或者 ...

  6. 进阶系列一【绝对干货】---SQL语句执行效率优化

    1.尽量适用联接查询来取代子查询 2.如果要用子查询,用EXISTS替代IN.用NOT EXISTS替代NOT IN,因为EXISTS引入的子查询只是测试是否存在符合子查询中指定条件的行,效率较高.无 ...

  7. SQL语句执行效率及分析(note)

    1.关于SQL查询效率,100w数据,查询只要1秒,与您分享: 机器情况p4: 2.4内存: 1 Gos: windows 2003数据库: ms sql server 2000目的: 查询性能测试, ...

  8. Oracle多表连接,提高效率,性能优化 (转)

    执行路径:ORACLE的这个功能大大地提高了SQL的执行性能并节省了内存的使用:我们发现,单表数据的统计比多表统计的速度完全是两个概念.单表统计可能只要0.02秒,但是2张表联合统计就可能要几十表了. ...

  9. SQL语句执行效率及分析

    查询效率分析:子查询为确保消除重复值,必须为外部查询的每个结果都处理嵌套查询.在这种情况下可以考虑用联接查询来取代.如果要用子查询,那就用EXISTS替代IN.用NOT EXISTS替代NOT IN. ...

随机推荐

  1. IOTA price analysis

    Iota coinchart Look at the trendline drawn in red color, at the very first beginning of this month, ...

  2. 在Ubuntu虚拟机上安装DVWA

    学习资料来源:https://www.neddos.tech/?p=107 最后更新时间: 190122·17:41 1> 什么是DVWA(Damn Vulnerable Web Applica ...

  3. Python 四种数值类型(int,long,float,complex)区别及转换

    Python支持四种不同的数值类型,包括int(整数)long(长整数)float(浮点实际值)complex (复数), 数字数据类型存储数值.他们是不可改变的数据类型,这意味着改变数字数据类型的结 ...

  4. docker简易实践

    docker简易实践 实验环境 操作系统:deepin 15.4 安装步骤 1.安装docker sudo apt-get install docker.io 2.启动docker服务 sudo se ...

  5. Docker(八)-Docker创建Nginx容器

    获取Nginx镜像 最简单的方法就是通过 docker pull nginx 命令来创建 Nginx容器. $ sudo docker pull nginx 或者: $ sudo docker pul ...

  6. [转帖]shell 中的>/dev/null 2>&1 是什么鬼?

    shell 中的>/dev/null 2>&1 是什么鬼? http://blog.jobbole.com/109355/ 背景 我们经常能在shell脚本中发现>/dev/ ...

  7. laravel 登录后跳转原来浏览的页面

    方法 1.修改一下文件/vendor/laravel/framework/src/Illuminate/Foundation/Auth/RedirectsUsers.php 修改内容如下: 没有的加入 ...

  8. 跨语言通信方案的比较—Thrift、Protobuf和Avro

    Thrift由Facebook开源的一个RPC框架,用来进行可扩展且跨语言的服务的开发,使得各种编程语言间无缝结合的.高效的服务.我们依据Thrift的规范 简单定义访问接口,通过Thrift编译器编 ...

  9. 05.基于IDEA+Spring+Maven搭建测试项目--web.xml配置

    <!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.//DTD Web Application 2.3//EN" " ...

  10. 5Java异常处理

    五.异常 异常概念总结:   练习一:异常的体系    问题:    1. 请描述异常的继承体系    2. 请描述你对错误(Error)的理解    3. 请描述你对异常(Expection的理解) ...