这一章主要是介绍 窗体中的 Aggregate 函数, Rank 函数, Distribution 函数以及 Offset 函数.

Window Aggregate 函数

Window Aggregate 函数和在Group分组中使用的聚合函数是一样的, 只是不再定义Group并且是通过 OVER子句来定义和使用的. 在标准的SQL中, 窗体聚合函数是支持这三种元素的 - Partitioning, Ordering 和 Framing

function_name(<arguments>) OVER(
[ <window partition clause> ]
[ <window order clause> [ <window frame clause> ] ] )

这三种元素的作用可以限制窗体集中的行, 如果没有指定任何元素, 那么窗体中包含的就是查询结果集中所有的行.

Partitioning 分区

通过PARTITION BY 得到的窗体集是基于当前查询结果的当前行的一个集, 比如说 PARTITION BY CustomerID, 当前行的 CustomerID = 1, 那么对于当前行的这个 Window 集就是在当前查询结果之上再加上 CustomerID = 1 的一个查询结果. 如果当前行的 CustomerID = 2, 那么它的窗体就是在查询结果上所有 CustomerID = 2 的集.

与GROUP不同, PARTITION 可以在一个 SELECT 中对应不同的分区列, 并且每一行对应的窗体集也可能而不相同.

与子查询也不同,子查询可以任意查询不同的对象集,而 PARTITION 分区对应的窗口集首先它是基于当前 SELECT 的结果集.

回顾上一篇文章中提到的这个例子 -

USE TSQL2012;
GO SELECT orderid,
custid,
val,
SUM(val) OVER() AS sumall,
SUM(val) OVER(PARTITION BY custid) AS sumcust
FROM Sales.OrderValues AS O1;

-- 查询结果

10643        1        814.50        1265793.22        4273.00

10692        1        878.00        1265793.22        4273.00

10702        1        330.00        1265793.22        4273.00

10835        1        845.80        1265793.22        4273.00

10952        1        471.20        1265793.22        4273.00

11011        1        933.50        1265793.22        4273.00

10926        2        514.40        1265793.22        1402.95

10759        2        320.00        1265793.22        1402.95

10625        2        479.75        1265793.22        1402.95

第一个窗体函数每一行对应的都是相同的,它们的窗体都一样,计算的都是Val的总和.

第二个窗体函数每一行对应的可能是不同的,因为它基于 custid 进行了分区, 即在所有的窗体集基础上加入了 custid = 当前行的 custid 这个过滤限制.

SELECT orderid,
custid,
val,
CAST(100. * val / SUM(val) OVER() AS NUMERIC(5, 2)) AS pctall,
CAST(100. * val / SUM(val) OVER(PARTITION BY custid) AS NUMERIC(5, 2)) AS pctcust
FROM Sales.OrderValues AS O1;

-- 查询结果

10643        1        814.50        0.06        19.06

10692        1        878.00        0.07        20.55

10702        1        330.00        0.03        7.72

10835        1        845.80        0.07        19.79

10952        1        471.20        0.04        11.03

11011        1        933.50        0.07        21.85

10926        2        514.40        0.04        36.67

10759        2        320.00        0.03        22.81

10625        2        479.75        0.04        34.20

这几个窗体同时并存

Ordering and Framing

Framing 框架也是用来过滤和限制窗体集中的行,但同时一般会首先排好序, 然后再通过 Framing 来定位窗体集中的起始行和结束行来获取特定的行集.

function_name(<arguments>) OVER(
[ <window partition clause> ]
[ <window order clause> [ <window frame clause> ] ] )

在 <window frame clause> 中, 有这三个部分 - <window frame units> <window frame extent> [ <window frame exclusion> ].

在 <window frame units> 应该指定 ROWS 或者 RANGE

ROWS 的使用

ROWS BETWEEN UNBOUNDED PRECEDING |
<n> PRECEDING |
<n> FOLLOWING |
CURRENT ROW
AND
UNBOUNDED FOLLOWING |
<n> PRECEDING |
<n> FOLLOWING |
CURRENT ROW

UNBOUNDED PRECEDING 指的是相对于当前行来说之前的所有的行

UNBOUNDED FOLLOWING 指的是相对于当前行来说之后的所有的行

CURRENT ROW 就是当前行

SELECT empid,
ordermonth,
qty,
SUM(qty) OVER(
PARTITION BY empid
ORDER BY ordermonth
ROWS BETWEEN UNBOUNDED PRECEDING
AND CURRENT ROW
) AS runqty
FROM Sales.EmpOrders;

-- 查询结果

1        2006-07-01 00:00:00.000        121        121

1        2006-08-01 00:00:00.000        247        368

1        2006-09-01 00:00:00.000        255        623

1        2006-10-01 00:00:00.000        143        766

1        2006-11-01 00:00:00.000        318        1084

可以写的更简洁一些

SELECT empid,
ordermonth,
qty,
SUM(qty) OVER(
PARTITION BY empid
ORDER BY ordermonth
ROWS UNBOUNDED PRECEDING
) AS runqty
FROM Sales.EmpOrders;

下面的这个例子定义了3个窗体

第一个窗体中 ROWS BETWEEN 1 PRECEDING AND 1 PRECEDING 所表明的行的范围就是当前行的上一行

第二个窗体中 ROWS BETWEEN 1 FOLLOWING AND 1 FOLLOWING 所表明的行的范围是当前行的下一行

第三个窗体中 ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING 所表明的行的范围是上一行到一下行

SELECT empid,
ordermonth,
MAX(qty) OVER(
PARTITION BY empid
ORDER BY ordermonth
ROWS BETWEEN 1 PRECEDING AND 1 PRECEDING
            ) AS prvqty,
  qty AS curqty,
  MAX(qty) OVER(
PARTITION BY empid
ORDER BY ordermonth
ROWS BETWEEN 1 FOLLOWING AND 1 FOLLOWING
    ) AS nxtqty,
   AVG(qty) OVER(
PARTITION BY empid
ORDER BY ordermonth
ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING
) AS avgqty
FROM Sales.EmpOrders;

-- 查询结果

1        2006-07-01 00:00:00.000        NULL      121        247        184

1        2006-08-01 00:00:00.000        121         247        255        207

1        2006-09-01 00:00:00.000        247         255        143        215

1        2006-10-01 00:00:00.000        255         143        318        238

1        2006-11-01 00:00:00.000        143         318        536        332

1        2006-12-01 00:00:00.000        318         536        304        386

1        2007-01-01 00:00:00.000        536         304        168        336

1        2007-02-01 00:00:00.000        304         168        275        249

需要值得注意的是, 第三个窗体中求平均值的时候,第一行没有上一行元素的引用,最后一行也不会存在对下一行的引用,所以对于第一行和最后一行的窗体行数可能比其它的窗体行数相对要少,但是最多不会超过3行,AVG 函数在这里会自动判断行数来求平均值。

在这个例子中,PARTITION的列和 ORDER 列它们组合在一起唯一标识了一行记录,因此它们在窗体集里不会重复,所以它们查询出来

的结果是唯一的。

当使用在 PARTITION 和 ORDER 上的列组合起来不能唯一确定一行记录的话,查询的结果有可能不是唯一的,下面的例子就能说明这个问题。

SET NOCOUNT ON;
USE TSQL2012; IF OBJECT_ID('dbo.T1', 'U') IS NOT NULL DROP TABLE dbo.T1;
GO CREATE TABLE dbo.T1
(
keycol INT NOT NULL CONSTRAINT PK_T1 PRIMARY KEY,
col1 VARCHAR(10) NOT NULL
); INSERT INTO dbo.T1 VALUES
(2, 'A'),(3, 'A'),
(5, 'B'),(7, 'B'),(11, 'B'),
(13, 'C'),(17, 'C'),(19, 'C'),(23, 'C'); SELECT * FROM dbo.T1

查询结果

2        A

3        A

5        B

7        B

11        B

13        C

17        C

19        C

23        C

SELECT keycol,
col1,
COUNT(*) OVER(ORDER BY col1
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cnt
FROM dbo.T1

查询结果

2        A        1

3        A        2

5        B        3

7        B        4

11        B        5

13        C        6

17        C        7

19        C        8

23        C        9

由于没有使用 PARTITION,因此默认的情况就是每一行都使用的相同的 PARTITION 即 SELECT 查询结果集。但是在这里由于ORDER BY 的列 col1 并不是唯一的,因此相同的 col1 的行共享同一个窗体,那么这时它们计算 COUNT 的方式可能就无法确定。

比如这个例子中的 A, B, C, A 对应的窗体里有2条A 的记录,B 有3条,C 有4条,无法判断它们如何定位计算。这时 SQL Server就强制性的给相同的元素定了位以便计算各个元素之前的条数。

给它们设置一个唯一索引,这样SQL Server就知道如何在内部对它们进行排序。

CREATE UNIQUE INDEX idx_col1D_keycol ON dbo.T1(col1 DESC, keycol);

SELECT keycol,
col1,
COUNT(*) OVER(ORDER BY col1
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cnt
FROM dbo.T1

查询结果

3          A        1

2          A        2

11        B        3

7          B        4

5          B        5

23        C        6

19        C        7

17        C        8

13        C        9

理解了这个原因之后,可以这样写来确保在窗体集里的排序的元素是唯一的,这样查询的结果也一定是唯一的。

SELECT keycol,
col1,
COUNT(*) OVER(ORDER BY keycol,col1
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cnt
FROM dbo.T1

2        A        1

3        A        2

5        B        3

7        B        4

11        B        5

13        C        6

17        C        7

19        C        8

23        C        9

RANGE 框架的扩展选项和使用

定义

RANGE BETWEEN UNBOUNDED PRECEDING |
<val> PRECEDING |
<val> FOLLOWING |
CURRENT ROW
AND
UNBOUNDED FOLLOWING |
<val> PRECEDING |
<val> FOLLOWING |
CURRENT ROW

要事先说的是 RANGE 框架在 SQL Server 2012 中并没有实现的很完善, 目前只支持 UNBOUNDED 和  CURRENT ROW 这两个选项。

比如说,这样的代码

SELECT empid,
ordermonth,
qty,
SUM(qty) OVER(PARTITION BY empid
ORDER BY ordermonth
RANGE BETWEEN 2 PRECEDING AND CURRENT ROW)
FROM Sales.EmpOrders AS O1
ORDER BY empid,
ordermonth

会出现错误

Msg 4194, Level 16, State 1, Line 1

RANGE is only supported with UNBOUNDED and CURRENT ROW window frame delimiters.

如果假设有这样的一个代码结构能在 2012 中实现的话,那么就真正可以做到一个动态的范围控制。比如,查询当前月到它前两个月的订单总额。

SELECT empid,         ordermonth,         qty,
SUM(qty) OVER(PARTITION BY empid
ORDER BY ordermonth
RANGE BETWEEN INTERVAL '' MONTH PRECEDING AND CURRENT ROW) AS sum3month
FROM Sales.EmpOrders;

假设,当前月是3月,那么它前两个月就应该包含2月和1月,那么总共的取值范围就是1,2,3 这三个月。假设2月份没有数据时,那么结果就应该是1月和3月,而不会因为2月不存在就往前走一个月包含12,1和3月来凑齐3个月,这就是 RANGE 和 ROWS 的不同 。只不过很遗憾,目前还没有支持到这个程度。

如何理解和 ROWS 不同,ROWS BETWEEN 2 PRECEDING AND CURRENT ROW 表示的是包含当前行以及前两行的数据。借用上面的一个例子,如果当前月是3月,同时2月份的数据不存在,那么它取值的范围是 12月,1月和3月。

现在如果想要实现类似于RANGE BETWEEN INTERVAL '2' MONTH PRECEDING 的效果在 Windows Function 中还是非常复杂, 还有一个选择就是使用下面提到的

这种替代方案。

查询员工在各个订单月的订单额以及从当前月到它前两个月共三个月的总订单额

SELECT empid,
ordermonth,
qty,
( SELECT SUM(qty)
FROM Sales.EmpOrders AS O2
WHERE O2.empid = O1.empid
AND O2.ordermonth BETWEEN DATEADD(MONTH, -2, O1.ordermonth)
AND O1.ordermonth
) AS sum3month
FROM Sales.EmpOrders AS O1
ORDER BY empid,
ordermonth

查询结果

1        2006-07-01 00:00:00.000        121        121

1        2006-08-01 00:00:00.000        247        368

1        2006-09-01 00:00:00.000        255        623

1        2006-10-01 00:00:00.000        143        645

1        2006-11-01 00:00:00.000        318        716

通过上面这种方式来查询就实现了 RANGE BETWEEN INTERVAL '2' MONTH PRECEDING  所描述的效果。

如果只是计算包含当前月以及之前所有月份的总和,在这里使用 RANGE 和 ROWS 效果一样。

SELECT empid,
ordermonth,
qty,
SUM(qty) OVER(PARTITION BY empid
ORDER BY ordermonth
RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS runqty
FROM Sales.EmpOrders;
SELECT empid,
ordermonth,
qty,
SUM(qty) OVER(PARTITION BY empid
ORDER BY ordermonth
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS runqty
FROM Sales.EmpOrders;

可以省略掉 CURRENT ROW, 默认就是

SELECT empid,
ordermonth,
qty,
SUM(qty) OVER(PARTITION BY empid
ORDER BY ordermonth
RANGE UNBOUNDED PRECEDING ) AS runqty
FROM Sales.EmpOrders;

甚至在这里可以更加简化成

SELECT empid,
ordermonth,
qty,
SUM(qty) OVER(PARTITION BY empid
ORDER BY ordermonth) AS runqty
FROM Sales.EmpOrders;

因为这里使用了 PARTITION BY 和 ORDER BY 它们俩唯一定位了一条记录,虽然没有显示写出 RANGE UNBOUNDED PRECEDING 但是内部处理也是包含了从之前所有行当当前行的所有记录。

1        2006-07-01 00:00:00.000        121        121

1        2006-08-01 00:00:00.000        247        368

1        2006-09-01 00:00:00.000        255        623

1        2006-10-01 00:00:00.000        143        766

1        2006-11-01 00:00:00.000        318        1084

1        2006-12-01 00:00:00.000        536        1620

如果把 ORDER BY 去掉,那么就只剩下 empid, 可以简单理解为按 empid 分类计算各个 empid 下的总和。

SELECT empid,         ordermonth,         qty,
SUM(qty) OVER(PARTITION BY empid) AS runqty
FROM Sales.EmpOrders;

查询结果

1        2007-03-01 00:00:00.000        275        7812

1        2008-01-01 00:00:00.000        397        7812

1        2007-12-01 00:00:00.000        583        7812

1        2006-11-01 00:00:00.000        318        7812

1        2008-03-01 00:00:00.000        467        7812

那么再来看看 RANGE 和 ROWS 到底有什么区别?

在之前提到的例子中,我们是假设 RANGE 支持 RANGE BETWEEN INTERVAL '2' MONTH PRECEDING  这样的功能来和 ROWS 做比较的。

而事实上我们知道,这个功能并没有在 SQL Server 2012 中实现。

(未带完续)

SQL Server Window Function 窗体函数读书笔记二 - A Detailed Look at Window Functions的更多相关文章

  1. SQL Server Window Function 窗体函数读书笔记一 - SQL Windowing

    SQL Server 窗体函数主要用来处理由 OVER 子句定义的行集, 主要用来分析和处理 Running totals Moving averages Gaps and islands 先看一个简 ...

  2. 《SQL Server 2012 T-SQL基础》读书笔记 - 7.进阶查询

    Chapter 7 Beyond the Fundamentals of Querying window function是什么呢?就是你SELECT出来一个结果集,然后对于每一行,你都想给它对应一个 ...

  3. 《SQL Server 2012 T-SQL基础》读书笔记 - 2.单表查询

    Chapter 2 Single-Table Queries GROUP BY之后的阶段的操作对象就是组(可以把一组想象成很多行组成的)了,HAVING负责过滤掉一些组.分组后的COUNT(*)表示每 ...

  4. 《SQL Server 2012 T-SQL基础》读书笔记 - 10.可编程对象

    Chapter 10 Programmable Objects 声明和赋值一个变量: DECLARE @i AS INT; SET @i = 10; 变量可以让你暂时存一个值进去,然后之后再用,作用域 ...

  5. 《SQL Server 2012 T-SQL基础》读书笔记 - 5.表表达式

    Chapter 5 Table Expressions 一个表表达式(table expression)是一个命名的查询表达式,代表一个有效的关系表.SQL Server包括4种表表达式:派生表(de ...

  6. 《SQL Server 2012 T-SQL基础》读书笔记 - 8.数据修改

    Chapter 8 Data Modification SQL Server 2008开始,支持一个语句中插入多行: INSERT INTO dbo.Orders (orderid, orderdat ...

  7. 《SQL Server 2012 T-SQL基础》读书笔记 - 9.事务和并发

    Chapter 9 Transactions and Concurrency SQL Server默认会把每个单独的语句作为一个事务,也就是会自动在每个语句最后提交事务(可以设置IMPLICIT_TR ...

  8. 《SQL Server 2012 T-SQL基础》读书笔记 - 6.集合运算

    Chapter 6 Set Operators 语法如下: Input Query1 <set_operator> Input Query2 [ORDER BY ...] 有ORDER B ...

  9. 《SQL Server 2012 T-SQL基础》读书笔记 - 4.子查询

    Chapter 4 Subqueries 子查询分为:独立子查询(Self-Contained Subqueries)和相关子查询(Correlated Subqueries),独立子查询可以单独拿出 ...

随机推荐

  1. windows里面的批处理命令不停地处理同一条命令

    最近在设置路由表的时候,为了方便,做了一个批处理 route.bat route delete 0.0.0.0route delete 10.25.0.0route ADD 10.25.0.0 MAS ...

  2. 精益VS六西格玛

    名称 精益方法 Six Sigma管理 假定 1)消除浪费可以改善绩效 2)大量的小改进更有利于组织成长 1)问题总是存在的: 2)测量是重要的: 3)随着变异减少,系统产出得到改进 文化基础 东方以 ...

  3. 解决Win7下VC6.0插入ActiveX控件对话框为空的问题

    在Win7环境下,编写MFC应用程序,Project菜单下Add To Project子菜单中的 Components and Controls…选项,在弹出的对话框中Gallery文件为空,也就无法 ...

  4. Mysql运行SQL文件 错误Incorrect table definition;there can be only one TIMESTAMP column with CURRENT_TIMESTAMP in DEFAULT or ON UPDATE clause

    问题描述 想从服务器上DOWN下数据库.操作:先把数据库转存为SQL文件,然后在本地利用navicate运行SQL文件,出现错误信息: Incorrect table definition;there ...

  5. iOS CGContextRef画图时的常用方法

    UIView的drawRect方法 CoreGraphics绘图 综述:描述系统会调用UIView的drawRect方法,所以coreGraphics的所有实现代码放在该函数内,setNeedsDis ...

  6. Canny边缘检测及图像缩放之图像处理算法-OpenCV应用学习笔记四

    在边缘检测算法中Canny颇为经典,我们就来做一下测试,并且顺便实现图像的尺寸放缩. 实现功能: 直接执行程序得到结果如下:将载入图像显示在窗口in内,同时进行图像两次缩小一半操作将结果显示到i1,i ...

  7. Hello Raspberry Pi

    Raspberry Pi 入手好一段时间了,原意是想撸 linux,但是后来一整年都在忙孩子房子户口本子的事,这玩意也就搁了一年尘. 最近终于被生活折腾到了尾声,开始找一些东西来折腾折腾. 一.什么是 ...

  8. Xamarin开发Android笔记:拍照或相册选取图片角度问题

    在开发Android应用的时候,可能会遇到类似微信朋友圈中拍照或相册选取图片的场景,拍照或选取图片之后在显示的时候却发现图片的角度不对,明明是竖版拍照,显示出来缺失躺着的. 这是因为在某些特定手机上例 ...

  9. mono for android学习过程系列教程(7)

    首先说个抱歉,这段时候由于个人原因未及时更新博客.故此今天先给大家来个小料. 以后会及时更新我自己的学习过程. 不多说,终于私人生活安定下来了,可以安心学习.直接进入主体: 今天咱们摒弃所有的前面的知 ...

  10. [Asp.net 开发系列之SignalR篇]专题四:使用SignalR实现发送图片

    一.引言 在前一篇博文已经介绍了如何使用SignalR来实现聊天室的功能,在这篇文章中,将实现如何使用SignalR来实现发送图片的功能. 二.实现发送图片的思路 我还是按照之前的方式来讲述这篇文章, ...