菜鸟去重复之Sql
前言
本文主要是总结平时工作学习中遇到的使用Sql Server的去除重复的心得体会。
由于平时工作使用Sql并不多,此次在写本文的测试过程中,就遇到了问题,如能有幸得到高手点播,将不胜感激。
高手可以直接看个开头,直接跳过文章内容,点到后面的遇到的问题,辛苦!
准备
本文使用的工具是SQL SERVER 2008,使用的是微软的案例Northwind,选取的数据集以Products表的前10条数据为例,如下图:
Distinct
根据之后紧跟关键字distinct后的字段去除重复,而distinct只能放在所有要查询字段的前面。distinct后的字段有一个不一样即为不同。
示例:根据SupplierID,CategoryID去除重复的内容
Select distinct a.SupplierID,a.CategoryID from (SELECT TOP 10 [ProductID]
,[ProductName]
,[SupplierID]
,[CategoryID]
,[QuantityPerUnit]
,[UnitPrice]
,[UnitsInStock]
,[UnitsOnOrder]
,[ReorderLevel]
,[Discontinued]
FROM [Northwind].[dbo].[Products]) a
获得结果:
Group by
指定由查询 (SELECT) 表达式返回的对象要分入的组。使用group by时可以巧妙地使用聚合函数达到去除重复的目的。
Select Max(a.ProductID) as ID,a.CategoryID ,a.SupplierID from (SELECT TOP 10 [ProductID]
,[ProductName]
,[SupplierID]
,[CategoryID]
,[QuantityPerUnit]
,[UnitPrice]
,[UnitsInStock]
,[UnitsOnOrder]
,[ReorderLevel]
,[Discontinued]
FROM [Northwind].[dbo].[Products]) a
group by a.CategoryID ,a.SupplierID
获得结果:
这次可以获得去除重复过程中ID最大(获取ID最小列可以使用Min函数)的数据行,有了ID唯一标识列就可以解决上面distinct遗留下来的问题。
内联原来的表就可以获取想要的任意字段的值了。
顺带附上Min函数的结果:
Row_Number() over()
over()里面有两个参数
Partition by value_expression
将 FROM 子句生成的结果集划入应用了 ROW_NUMBER 函数的分区。 value_expression 指定对结果集进行分区所依据的列。 如果未指定 PARTITION BY,则此函数将查询结果集的所有行视为单个组。
Select a.ProductID,a.SupplierID,a.CategoryID, ROW_NUMBER() over(partition by CategoryID ,SupplierID order by ProductID)as RowN from (
SELECT TOP 10 [ProductID]
,[ProductName]
,[SupplierID]
,[CategoryID]
,[QuantityPerUnit]
,[UnitPrice]
,[UnitsInStock]
,[UnitsOnOrder]
,[ReorderLevel]
,[Discontinued]
FROM [Northwind].[dbo].[Products]) a
获得结果:
Note:此处的数据稍微有点问题,最后会说到。
此次并没有达到去除重复的结果,但稍微看下就发现了多了一行RowN。
这个是根据SupplierID,CategoryID分区并根据ProductID升序获得的行号。所以去除重复也就非常容易了。
Select* from (
Select a.ProductID,a.SupplierID,a.CategoryID, ROW_NUMBER() over(partition by CategoryID ,SupplierID order by ProductID)as RowN from (
SELECT TOP 10 [ProductID]
,[ProductName]
,[SupplierID]
,[CategoryID]
,[QuantityPerUnit]
,[UnitPrice]
,[UnitsInStock]
,[UnitsOnOrder]
,[ReorderLevel]
,[Discontinued]
FROM [Northwind].[dbo].[Products]) a) b where b.RowN=1
获得结果:
顺带附上b.RowN=2结果:
面试问题
取出某年某月每一天的记录的第一条
姑且认为每天第一条记录是当天ID最小的那条,以下为测试使用数据集
SELECT [OrderID]
,[CustomerID]
,[EmployeeID]
,[OrderDate]
FROM [Northwind].[dbo].[Orders]
where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1
方法一:Group by
with Dataset as (SELECT [OrderID]
,[CustomerID]
,[EmployeeID]
,[OrderDate]
FROM [Northwind].[dbo].[Orders]
where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1)
Select a.* from Dataset a,
(SELECT Min([OrderID]) as ID
,DATEPART(DAYOFYEAR,OrderDate) as dayofOrder
FROM [Northwind].[dbo].[Orders]
where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1
group by DATEPART(DAYOFYEAR,OrderDate)) b
where a.OrderID=b.ID
获得结果:
方法二:Row_Number() over()
with Dataset as (SELECT [OrderID]
,[CustomerID]
,[EmployeeID]
,[OrderDate]
FROM [Northwind].[dbo].[Orders]
where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1)
select a.* from(Select *,ROW_NUMBER() over(Partition by DatePart(dayofyear,OrderDate)
order by OrderID) as RowN from Dataset) a where a.RowN=1
获得结果:
小结:从以上两种方法可以明显感觉到第二种方法的优势,更强的灵活性,可以获得每天的第二条甚至更多,而且Order by排序有更多选择。
总结
本次关于Sql去除重复的总结就写完了,如果大家还有其他好的方法,还请分享出来。
文中如有错误或者描述不当的地方,还请指出!谢谢!
如有兴趣,继续看下面的问题,帮忙解决了,我将不胜感激!
参考资料:http://stackoverflow.com/questions/3800551/select-first-row-in-each-group-by-group
怪异的问题
测试过程中发现看下图:
这里面的获取的数据明显不是我想要的数据(可以参照准备里的数据集),我测试其他字段都没有问题,只有单独获取CategoryID字段的时候有问题,求高手指点。
附:测试数据库下载
菜鸟去重复之Sql的更多相关文章
- (转)菜鸟去重复之Sql
原文地址:http://www.cnblogs.com/fatbird/p/Sql-Remove-duplicate.html 前言 本文主要是总结平时工作学习中遇到的使用Sql Server的去除重 ...
- 去重复的sql(Oracle)
1.利用group by 去重复 2.可以利用下面的sql去重复,如下 1) select id,name,sex from (select a.*,row_number() over(partiti ...
- 关系数据库SQL之高级数据查询:去重复、组合查询、连接查询、虚拟表
前言 接上一篇关系数据库SQL之基本数据查询:子查询.分组查询.模糊查询,主要是关系型数据库基本数据查询.包括子查询.分组查询.聚合函数查询.模糊查询,本文是介绍一下关系型数据库几种高级数据查询SQL ...
- mysql数据库去重复
参考:http://www.cnblogs.com/duanjie/archive/2011/08/13/2136862.html 说到去重复,感觉逻辑很简单.但动手写起来却并不是那么容易.面试的时候 ...
- paip.输入法编程---带ord gudin去重复-
paip.输入法编程---带ord gudin去重复- 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.n ...
- ASP.Net【如何合并DataTable,并且去重复方法】
虽然DataTable.Merge可以很好的实现,但以下代码写出来更好理解 DataTable DataTable1 = new DataTable(); DataTable DataTable2 = ...
- Oracle单表去重复(二)
Oracle单表去重 去重有两层含义,一:是记录完全一样.二:是符合一定条件的认为是重复. 根据表的数量,去重可划分为:单表去重和多表关联去重. 对于去重,一般最容易想到的是用distinct,而 ...
- 写了个去重复文件的 PHP 脚本,
写了个去重复文件的 PHP 脚本点击打开链接 把各个零散网盘.邮箱和服务器上的文件,三台电脑上的文件收集在新硬盘里,然后清空了网络和电脑上的文件.才发现这个文件不能这里放点,那里存点,到时候不知道在哪 ...
- 【知识库】-数据库_MySQL之高级数据查询:去重复、组合查询、连接查询、虚拟表
简书作者:seay 文章出处: 关系数据库SQL之高级数据查询:去重复.组合查询.连接查询.虚拟表 回顾:[知识库]-数据库_MySQL之基本数据查询:子查询.分组查询.模糊查询 Learn [已经过 ...
随机推荐
- 【转】深入理解Java的接口和抽象类
深入理解Java的接口和抽象类 对于面向对象编程来说,抽象是它的一大特征之一.在Java中,可以通过两种形式来体现OOP的抽象:接口和抽象类.这两者有太多相似的地方,又有太多不同的地方.很多人在初学的 ...
- 访问https请求出现警告,去掉警告的方法
在顶部引多一个包即可 from requests.packages.urllib3.exceptions import InsecureRequestWarning,InsecurePlatformW ...
- TCL数据类型
原始数据类型在Tcl中是字符串,我们常常可以找到字符串和引用在Tcl语言中.这些原始数据类型依次创建复合数据类型列表和关联数组.在Tcl中,数据类型可以表示不仅是简单Tcl的对象,但也可以代表相同的句 ...
- 关于Android App开发知识体系的一个小总结
前言 本文从热更新.异步并发.性能优化.网络请求等多个方面对Android App开发的知识体系进行了一个分类总结.欢迎大家沟通交流. 热更新 [原]热更新开源项目Tinker源码解析之Dex热更新 ...
- blktrace btt结果分析
对于btt的结果分析十分的困难,我和同事花了很多的时间在网上查找btt输出的每一项参数的意义,试图更好的分析bio的统计信息,但网上文章一大抄,翻来覆去就是那几篇文章. 本文中内容参考了以下网址: 1 ...
- MySQL 通用查询日志(General Query Log)
同大多数关系型数据库一样,日志文件是MySQL数据库的重要组成部分.MySQL有几种不同的日志文件,通常包括错误日志文件,二进制日志,通用日志,慢查询日志,等等.这些日志可以帮助我们定位mysql ...
- 十、api自动化环境问题及解决方案汇总(持续更新)
1.jenkins报错: Unable to read /root/.jenkins/config.xml at hudson.WebAppMain$3.run(WebAppMain.java:248 ...
- 新的方法(Set<T>)实现mvc的crud
model层的属性为: public partial class UserInfo { public int Uid { get; set; } public string UName { get; ...
- [Z] Windbg以及vs debug使用
Windbg 一篇中国人写的质量非常高的Windbg文章:篇中国人写的质量非常高的Windbg文章: http://www.yiiyee.cn/Blog/windbg/ code project上的W ...
- verilog 计算机网络 仿真 激励 pcap
做verilog网络逻辑时,需要产生正确的数据包格式激励,手写激励真烦人,现在让testbench读取pcap文件,则可以精确还原数据包的bit与时序,省去了一大批麻烦 1.设计读取逻辑 `times ...