瑞丽的SQL-基于窗体的排名计算
在SQL Server中,窗体被定义为用户指定的一组行。
之所以要提出窗体这个概念,由于这种基于窗体或分区的又一次计算在实际工作应用范围比較广泛。比如。假设我们要对每一个班级中的学生按成绩进行排序,在对第1个班级排序完毕后,对第2个班级进行排序时编号须要又一次从1開始。在SQL Server 2005之前。像这种排序方式实现起来是比較烦琐的。能够说,对新窗体又一次启动计算是窗体计算的重要特点。
为支持窗体计算,SQLServer提供了OVER子句和窗体函数。
窗体函数在MSDN Library中被翻译为开窗函数。
尽管“开窗函数”理解起来并不如“窗体函数”easy,可是它描写叙述了数据窗体变化后又一次启动计算这样一个动作,所以我们尊重MSDN Library中的翻译。在兴许的介绍中将使用“开窗函数”这一名词。
窗体计算的两个主要应用就是对每组内的数据进行排序和聚合计算。因此,开窗函数也被分为排名开窗函数和聚合开窗函数。排名开窗函数如ROW_NUMBER( )、RANK( )。聚合开窗函数如AVG( )、SUM等。
进行排名计算时,OVER子句的语法格式例如以下:
OVER ( [ PARTITION BY value_expression , ... [ n ]]
<ORDER BY_Clause> )
PARTITION BY value_expression
指定对对应FROM子句生成的行集进行分区所根据的列。
开窗函数分别应用于每一个分区,并为每一个分区又一次启动计算。value_expression仅仅能引用通过FROM子句可用的列。不能引用选择列表中的表达式或别名。value_expression能够是列表达式、标量子查询、标量函数或用户定义的变量。
<ORDER BY 子句>
指定应用排名开窗函数的排序顺序。仅仅能引用通过FROM子句可用的列。可是不同通过指定整数来表示选择列表中列名称或列别名的位置。
以下我们将以表9-1所看到的的Students表为例,进行介绍。像Students表这种数据结构设计。相对于数据库存储而言是比較合理的,由于我们不可能为每一个班级创建一个表,但确实又存在像为每一个班级中的学生成绩进行排序或为学生编号这种实际需求。SQL Server的窗体计算技术就有效攻克了二者之间的矛盾。
从SQL Server2005開始,提供了4个排名函数。各自是:ROW_NUMBER( )、RANK( )、DENSE_RANK( )和NTILE( )。它们能够为分区中的每一行返回一个排名值。ROW_NUMBER( )用于按行进行编号,RANK( )和DENSE_RANK( )用于按指定顺序排名,NTILE( )用于对数据进行分区。
9.2.1 ROW_NUMBER( )
ROW_NUMBER( )返回分区内行的序列号,每一个分区的第一行从1開始。比如,以下的语句指定按ClassID进行分区。并按StudentName进行排序编号。查询结果如表9-2所看到的。
SELECT ClassID, StudentName, Achievement,
ROW_NUMBER() OVER(PARTITION BY ClassID ORDER BY StudentName) ASRowNumber
FROM Students;
表9-2 按班级分区、按学生姓名进行编号
ClassID |
StudentName |
Achievement |
RowNumber |
1 |
Andrew |
99.00 |
1 |
1 |
Grace |
99.00 |
2 |
1 |
Janet |
75.00 |
3 |
1 |
Margaret |
89.00 |
4 |
2 |
Michael |
72.00 |
1 |
2 |
Robert |
91.00 |
2 |
2 |
Steven |
86.00 |
3 |
3 |
Ann |
94.00 |
1 |
3 |
Ina |
80.00 |
2 |
3 |
Ken |
92.00 |
3 |
3 |
Laura |
75.00 |
4 |
为了理解SQL Server中排名函数的工作原理,我们来看一下查询优化器为查询生成的运行计划。如图9-1所看到的。
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvemhhbmdob25nanU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />
图9-1 为ROW_NUMBER( )生成的运行计划
由上图能够看出,为了计算排名。优化器首先按分区列排序。然后再对分区内行按ORDER BY子句指定的列排序。
假设事先为表创建了符合该排序条件的索引。则会直接扫描该索引文件。不再进行排序。
“序列射影”运算符的工作是负责计算排名。“段”运算符用于确定分组边界。
二者相互协调工作,来确定每一行的排名值。
“段”运算符在内存中会保留一行,用来与下一行的PARTITION BY列值进行比較。
对于表中的第一行。“段”运算符自然会发送true信号。对于后面的行,直到PARTITIONBY列值有变化之前,会一直发送false信号。
假设PARTITION BY列值发生了变化,说明已经到了下一个分区。“段”运算符会再次发送true信号。“序列射影”运算符在接收到true信号后,会重置排名值。
假设“序列射影”运算符接收到的是false信号,它会确认当前输入行的排序值是否不同于上一行。假设不同。则按排名函数所指示的递增排名值。自然,在该演示样例中,由于ROW_NUMBER( )函数须要为每一行递增值。因此。这个排序值比較步骤在该演示样例中是不存在的。可是。对于像RANK( )和DENSE_RANK( )函数。在运行计划中还会有另外一个“段”运算符,用于比較排序值是否有变化,以确定是否递增排名值。此问题我们在以下还会有介绍。
9.2.2 RANK( )和DENSE_RANK( )函数
ROW_NUMBER( )函数用于编号,它与排名具有不同的概念。比如,由表9-1能够看出,班级1中的Grace和Andrew的成绩同样。都是99分。假设使用ROW_NUMBER( )函数编号,有两种编号方案可供选择:一种是Grace第1、Andrew第2。还有一种是Andrew第1、Grace第2。这尽管都是正确的。它具有不确定性。
而排名则不同了。它具有确定性,同样的排序值总是被分配同样的排名值。Grace和Andrew在排名的情况下都应当是第1。也就是我们常说的并列第1。那他们两人之后的名次是什么呢?是第2还是第3呢?从两人并列第1的角度讲,他们两人之后的名次应当是第2。这也是DENSE_RANK()函数的排名方式。前面已经有2个人99分了,他们后面的人应当是第3个高分者,从这个角度理解。后面的名次应当是第3,这也是RANK( )的排名方式。
DENSE_RANK( )函数的排名方式我们称之为密集排名。由于它的名次之间没有间隔。
以下的语句演示了RANK()和DENSE_RANK( )的排名方式,查询结果如表9-3所看到的。
SELECT ClassID, StudentName, Achievement,
RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortRank,
DENSE_RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortDense
FROM Students;
表9-3 按班级和考试成绩分别使用RANK( )和DENSE_RANK( )排名
ClassID |
StudentName |
Achievement |
SortRank |
SortDense |
1 |
Grace |
99.00 |
1 |
1 |
1 |
Andrew |
99.00 |
1 |
1 |
1 |
Margaret |
89.00 |
3 |
2 |
1 |
Janet |
75.00 |
4 |
3 |
2 |
Robert |
91.00 |
1 |
1 |
2 |
Steven |
86.00 |
2 |
2 |
2 |
Michael |
72.00 |
3 |
3 |
3 |
Ann |
94.00 |
1 |
1 |
3 |
Ken |
92.00 |
2 |
2 |
3 |
Ina |
80.00 |
3 |
3 |
3 |
Laura |
75.00 |
4 |
4 |
以下是为语句生成的运行计划。与ROW_NUMBER( )相比,运行计划中多出了一个“段”运算符。右边段的分组根据是ClassID,左边段的分组根据是ClassID和Achievement,这是多出的“段”。右边的“段”用于分区操作,在到达下一个分区时发送true信号,“序列射影”运算符会重置排名值。
而左边的“段”用于比較排序值是否有变化,假设有变化,则通知“序列射影”运算符递增排名值,递增方式则按RANK( )和DENSE_RANK( )函数的规则进行。
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvemhhbmdob25nanU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />
图9-2 为RANK( )和DENSE_RANK( )生成的运行计划
在SQL Server2005之前,也能够使用子查询的方式实现排名计算。
语句的原理就是查询出比当前成绩高的个数,再加上1,就是该成绩的排名。比如,在第1个班级中,比99分高的成绩为0。加上1后。该成绩就是第1名。以下语句的运行结果表9-3所看到的同样,可是由于对于每一个成绩都要运行两次子查询,在性能方面与RANK()和DENSE_RANK( )函数相差非常远。
SELECT ClassID, StudentName, Achievement,
(SELECT COUNT(*) FROM Students AS S2
WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortRank,
(SELECT COUNT(DISTINCT achievement) FROM Students AS S2
WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortDense
FROM Students AS S1
ORDER BY ClassID, Achievement DESC;
9.2.3 NTILE( )函数
NTILE( )函数用于把行分发到指定数目的组中。
各个组有编号。编号从1開始。对于每一个行,NTILE将返回此行所属的组的编号。
NTILE( )函数能够接受一个代表组数量的參数,分组的方式“均分”原则。比如,假设一个表有10行,须要分成2组。则每一个组都会有5行。假设表有11行,须要分成3个组。这时候是无法均分的。它分配方法是先得到一个能够整除的基组大小(11/3=3),每组应当分配3行。剩余的2行(11-9)会被再次均分到前面的2组中。
比如,以下的语句指定将Students表按学生成绩划分为3个组,而且Students表恰好也是11行。分组结果如表9-4所看到的。
SELECT ClassID, StudentName, Achievement,
NTILE(3) OVER(ORDER BY Achievement DESC) AS Tile
FROM Students;
表9-4 分组结果
ClassID |
StudentName |
Achievement |
Tile |
1 |
Grace |
99.00 |
1 |
1 |
Andrew |
99.00 |
1 |
3 |
Ann |
94.00 |
1 |
3 |
Ken |
92.00 |
1 |
2 |
Robert |
91.00 |
2 |
1 |
Margaret |
89.00 |
2 |
2 |
Steven |
86.00 |
2 |
3 |
Ina |
80.00 |
2 |
3 |
Laura |
75.00 |
3 |
1 |
Janet |
75.00 |
3 |
2 |
Michael |
72.00 |
3 |
也能够先分区,再分组。比如,以下的语句将每一个班级的成绩划分为高、低两组。查询结果如表9-5所看到的。
能够看出,包括4名学生的班级,每组是2人;包括3名学生的班级,第1组是2人,第2组是1人。
SELECT ClassID, StudentName, Achievement,
CASENTILE(2) OVER(PARTITION BY ClassID ORDER BY Achievement DESC)
WHEN 1 THEN '高'
WHEN 2 THEN '低'
ENDAS Tile
FROM Students;
表9-5 按班级分区再按成绩分组结果
ClassID |
StudentName |
Achievement |
Tile |
1 |
Grace |
99.00 |
高 |
1 |
Andrew |
99.00 |
高 |
1 |
Margaret |
89.00 |
低 |
1 |
Janet |
75.00 |
低 |
2 |
Robert |
91.00 |
高 |
2 |
Steven |
86.00 |
高 |
2 |
Michael |
72.00 |
低 |
3 |
Ann |
94.00 |
高 |
3 |
Ken |
92.00 |
高 |
3 |
Ina |
80.00 |
低 |
3 |
Laura |
75.00 |
低 |
瑞丽的SQL-基于窗体的排名计算的更多相关文章
- Spark Mllib里相似度度量(基于余弦相似度计算不同用户之间相似性)(图文详解)
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐 ...
- 基于神经网络的混合计算(DNC)-Hybrid computing using a NN with dynamic external memory
前言: DNC可以称为NTM的进一步发展,希望先看看这篇译文,关于NTM的译文:人工机器-NTM-Neutral Turing Machine 基于神经网络的混合计算 Hybrid computing ...
- advisor调优工具优化sql(基于sql_id)
advisor调优工具优化sql(基于sql_id) 问题背景:客户反馈数据库迁移后cpu负载激增,帮忙查看原因 解决思路:1> 查看问题系统发现有大量的latch: cache buffers ...
- 基于Kafka的实时计算引擎如何选择?Flink or Spark?
1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟.以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象.那么,今天就来聊一聊基于Kafka的实时计算引 ...
- 基于Kafka的实时计算引擎如何选择?(转载)
1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟.以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象.那么,今天就来聊一聊基于Kafka的实时计算引 ...
- 在论坛中出现的比较难的sql问题:35(时间间隔计算问题)
原文:在论坛中出现的比较难的sql问题:35(时间间隔计算问题) 所以,觉得有必要记录下来,这样以后再次碰到这类问题,也能从中获取解答的思路.
- SQL语句通过身份证号计算年龄
SQL语句通过身份证号计算年龄 1.截取身份证号上的出生日期 身份证一般为18位数和15位数 18位数身份证的第7-10位数是出生年份,第11-14位数是出生月日,所以18位身份证的年龄计算如下 su ...
- 云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践
Fluid 是云原生基金会 CNCF 下的云原生数据编排和加速项目,由南京大学.阿里云及 Alluxio 社区联合发起并开源.本文主要介绍云知声 Atlas 超算平台基于 Fluid + Alluxi ...
- SQL Server 分析函数和排名函数
分析函数基于分组,计算分组内数据的聚合值,经常会和窗口函数OVER()一起使用,使用分析函数可以很方便地计算同比和环比,获得中位数,获得分组的最大值和最小值.分析函数和聚合函数不同,不需要GROUP ...
随机推荐
- Oracle表与索引的分析及索引重建
1.分析表与索引(analyze 不会重建索引) analyze table tablename compute statistics 等同于 analyze table tablename co ...
- liux之我用过的zip解压命令
用途说明 zip文件是一种常用的压缩文件格式,WinZip.WinRar等压缩软件都支持zip文件格式,就连java的jar包也是zip格式 的,Firefox插件xpi文件也是zip格式的.Linu ...
- mysql优化小技巧
对mysql优化时一个综合性的技术,主要包括 a: 表的设计合理化(符合3NF) b: 添加适当索引(index) [四种: 普通索引.主键索引.唯一索引unique.全文索引] c: 分表技术(水平 ...
- Oracle 存储过程动态建表
动态sql,顾名思义就是动态执行的sql,也就是说在没执行之前是动态的拼接的. 任务 传入参数:新建的表名hd+当前的年和月,例如hd_201105表结构是:字段1:id ,类型是number,可以自 ...
- java web 学习四(http协议)
一.什么是HTTP协议 HTTP是hypertext transfer protocol(超文本传输协议)的简写,它是TCP/IP协议的一个应用层协议,用于定义WEB浏览器与WEB服务器之间交换数据的 ...
- Java异常的分类
1. 异常机制 异常机制是指当程序出现错误后,程序如何处理.具体来说,异常机制提供了程序退出的安全通道.当出现错误后,程序执行的流程发生改变,程序的控制权转移到异常处理器. 传 ...
- ZOJ 3329-One Person Game(概率dp,迭代处理环)
题意: 三个色子有k1,2,k3个面每面标号(1-k1,1-k2,1-k3),一次抛三个色子,得正面向上的三个编号,若这三个标号和给定的三个编号a1,b1,c1对应则总和置零,否则总和加上三个色子标号 ...
- 【C++11】 lambda表达式
i.e.int x = 10;int y = 20;int z = [&]{ x = x * x; y = y * y; return x + y;}(); 上面z后面以[]开头的为一个lam ...
- 通过gdb调试分析Linux内核的启动过程
作者:吴乐 山东师范大学 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 一.实验流程 1.打开环境 执 ...
- Python 代码性能优化技巧
选择了脚本语言就要忍受其速度,这句话在某种程度上说明了 python 作为脚本的一个不足之处,那就是执行效率和性能不够理想,特别是在 performance 较差的机器上,因此有必要进行一定的代码优化 ...