SQL 优化tips 及误区

Suckseedeva 2024-09-27 12:24:35 原文

1. 几个表进行join，然后过滤等价于分别过滤为小表后，再join？

并不完全。

2）确实比1）效率高，

但要注意一些NULL值过滤。否则2）得到的结果比1）多

2. 　　left join 的不等值连接等价于 left join where 不等值条件？

并不。

可以把不等值挪到case when中。where会丢失左表的数据

3. 　　join 时无on连接条件，表示的是笛卡儿积。

强行连接，m*n

4. 　　使用UDF，替代那些经常调用的语句。（提高代码的可维护和重复可用，与效率无关）

5. 　　对查询频繁使用，值的惟一性比较高的字段设置索引。

6. 充分使用分区列，对数据进行裁剪。

7. 索引列

1）可以设置是允许NULL，但在查询时会因为其允许使用NULL而放弃索引。

2）如果列本身含有NULL值，创建索引会失败；

8. 　　Hive的map join 解决超大表与极小表的join问题

原理： MAPJION会把小表全部读入内存中

　　　　在map阶段直接拿另外一个表的数据和内存中表数据做匹配

　　　　由于在map是进行了join操作，省去了reduce运行的效率也会高很多

select /*+ mapjoin(A)*/                             -- 通过hint的方式指定join

     f.a,f.b

from A t join B f  on ( f.a=t.a and f.ftime=20110802)

map join的另外一个很大的好处是：

　　能够进行不等值的join操作。

　　如果将不等条件写在where中，那么mapreduce过程中会进行笛卡尔积，运行效率特别低；

　　如果使用mapjoin操作，在map的过程中就完成了不等值的join操作，效率会高很多。

7. hive其他tips：

1）列裁剪：少用*号全查询，只读取需要的列。

2）分区裁剪：过滤掉不必要的分区。

3）数据量大的情况下，慎用count(distinct)，容易产生倾斜问题。（是按group by分组，按distinct排序）

4）合并小文件

是否合并Map输出文件：hive.merge.mapfiles=true（默认值为真）
是否合并Reduce 端输出文件：hive.merge.mapredfiles=false（默认值为假）
合并文件的大小：hive.merge.size.per.task=256*1000*1000（默认值为 256000000）

5）join 时应该将条目少的表/子查询放在 Join 操作符的左边。

原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生 OOM 错误的几率。

6) hive 不能做不等值join

其他的SQL 与 hive 之间的连接方式+连接条件+过滤条件的转化，要考虑清楚其逻辑关系。数据是否一致（注意null值，重复数据等）

7）更多请参考

SQL 优化tips 及误区的更多相关文章

SQL 优化tips
1. 陷阱, 1)几个表进行join,然后过滤等价于 2)分别过滤为小表后,再join? 并不完全.2)确实比1)效率高,但要注意一些NULL值过滤.否则2)得到的结果比1)多
SQL优化之count(*),count(列)
一.count各种用法的区别 1.count函数是日常工作中最常用的函数之一,用来统计表中数据的总数,常用的有count(*),count(1),count(列).count(*)和count(1)是 ...
MySQL 数据库性能优化之SQL优化
前言有人反馈之前几篇文章过于理论缺少实际操作细节,这篇文章就多一些可操作性的内容吧. 注:这篇文章是以 MySQL 为背景,很多内容同时适用于其他关系型数据库,需要有一些索引知识为基础. 优化目标 ...
SQL优化的四个方面，缓存，表结构，索引，SQL语句
一,缓存数据库属于 IO 密集型的应用程序,其主要职责就是数据的管理及存储工作.而我们知道,从内存中读取一个数据库的时间是微秒级别,而从一块普通硬盘上读取一个IO是在毫秒级别,二者相差3个数量级.所 ...
MySQL优化五 SQL优化
1.减少 IO 次数 IO永远是数据库最容易瓶颈的地方,这是由数据库的职责所决定的,大部分数据库操作中超过90%的时间都是 IO 操作所占用的,减少 IO 次数是 SQL 优化中需要第一优先考虑,当然 ...
mysql优化方案之sql优化
优化目标 1.减少 IO 次数 IO永远是数据库最容易瓶颈的地方,这是由数据库的职责所决定的,大部分数据库操作中超过90%的时间都是 IO 操作所占用的,减少 IO 次数是 SQL 优化中需要第一优先 ...
SQL优化经验总结
一. 优化SQL步骤 1. 通过 show status和应用特点了解各种 SQL的执行频率通过 SHOW STATUS 可以提供服务器状态信息,也可以使用 mysqladmin extend ...
sql优化详细介绍学习笔记
因为最近在面试,发现sql优化这个方面问的特别特别的多.之前都是零零星星,不够全面的了解一点,刚刚在网上查了一下,从 http://blog.csdn.net/zhushuai1221/article ...
MySQL 数据库性能优化之SQL优化【转】
优化目标减少 IO 次数IO永远是数据库最容易瓶颈的地方,这是由数据库的职责所决定的,大部分数据库操作中超过90%的时间都是 IO 操作所占用的,减少 IO 次数是 SQL 优化中需要第一优先考虑, ...

随机推荐

学习 MySQL中导入导出CSV
学习 MySQL中导入导出CSV http://blog.csdn.net/sara_yhl/article/details/6850107 速度是很快的导出 select * from t ...
C#如何HttpWebRequest模拟登陆，获取服务端返回Cookie以便登录请求后使用
public static string GetCookie(string requestUrlString, Encoding encoding, ref CookieContainer cooki ...
Flashbuilder的bug FlashBuilder 1119: 访问可能未定义的属性 on (通过 static 类型
FlashBuilder 1119: 访问可能未定义的属性 on (通过 static 类型当此问题出现的时候无论刷新清理注释删除乃至重启电脑都无济于事. 解决方法:备份此类到另外一个地 ...
前端安全之CSRF
一.跨站点请求伪造(CSRF) 什么是csrf呢? 借助用户的身份去做有损用户利益(一些事情)的事情. 怎么实现跨站点请求伪造呢? 1.伪造者通过创造一个带有<a href=&qu ...
IntelliJ IDEA 2018破解方法
1.下载idea:https://download.jetbrains.8686c.com/idea/ideaIU-2018.2.exe 2.安装idea 3.下载破解补丁:http://idea.l ...
[UE4]计算小地图比例尺
一.调整到顶视图,按住鼠标中键从地图的左边拉一根线到右边,可以看到距离是4000厘米(UE4单位是厘米). 二.查看到缩略图片的长度是512px,512/4000 = 0.128,比例尺是0.128. ...
2018年最新PHP面试题
面试之前多看看公司的资料,可以看出面试的公司主要做什么,电商,数据库,php函数,sql的优化,接口,session和cookie等经常会问到,都是必问之题,这其中有一部分题目摘抄自网络,回答也不错 ...
mysql 删除表外键出错
MySQL库中有俩表,table1和table2,相互关联,在删除表的时候出错: Cannot delete or update a parent row: a foreign key constra ...
4G模块*99#拨号上网
操作系统:win10 模块型号:quectel EC20 CE FAG 4G模块拨号步骤如下: 1. 打开网络和internet设置 2. 选择“拨号” 3. 选择“设置新连接” 4. 选择“拨号调至 ...
02-第一个Java程序
学习java的第一个程序记录自己的学习记录自己的坚持记录自己的梦想 public class Hello{ public static void main(String[] args) { Sy ...