前言

本文主要是总结平时工作学习中遇到的使用Sql Server的去除重复的心得体会。

由于平时工作使用Sql并不多,此次在写本文的测试过程中,就遇到了问题,如能有幸得到高手点播,将不胜感激。

高手可以直接看个开头,直接跳过文章内容,点到后面的遇到的问题,辛苦!

准备

本文使用的工具是SQL SERVER 2008,使用的是微软的案例Northwind,选取的数据集以Products表的前10条数据为例,如下图:

Distinct

根据之后紧跟关键字distinct后的字段去除重复,而distinct只能放在所有要查询字段的前面。distinct后的字段有一个不一样即为不同。

示例:根据SupplierID,CategoryID去除重复的内容

  1. Select distinct a.SupplierID,a.CategoryID from (SELECT TOP 10 [ProductID]
  2. ,[ProductName]
  3. ,[SupplierID]
  4. ,[CategoryID]
  5. ,[QuantityPerUnit]
  6. ,[UnitPrice]
  7. ,[UnitsInStock]
  8. ,[UnitsOnOrder]
  9. ,[ReorderLevel]
  10. ,[Discontinued]
  11. FROM [Northwind].[dbo].[Products]) a

获得结果:

Note:使用distinct是针对其后面跟着的所有字段,而不是一个或两个字段。
这直接导致如果查询的时候需要查询的字段比较多,去除重复只是根据其中的一两个字段就无法获得想要的结果。

Group by

指定由查询 (SELECT) 表达式返回的对象要分入的组。使用group by时可以巧妙地使用聚合函数达到去除重复的目的。

  1. Select Max(a.ProductID) as ID,a.CategoryID ,a.SupplierID from (SELECT TOP 10 [ProductID]
  2. ,[ProductName]
  3. ,[SupplierID]
  4. ,[CategoryID]
  5. ,[QuantityPerUnit]
  6. ,[UnitPrice]
  7. ,[UnitsInStock]
  8. ,[UnitsOnOrder]
  9. ,[ReorderLevel]
  10. ,[Discontinued]
  11. FROM [Northwind].[dbo].[Products]) a
  12. group by a.CategoryID ,a.SupplierID

获得结果:

这次可以获得去除重复过程中ID最大(获取ID最小列可以使用Min函数)的数据行,有了ID唯一标识列就可以解决上面distinct遗留下来的问题。

内联原来的表就可以获取想要的任意字段的值了。

顺带附上Min函数的结果:

Row_Number() over()

over()里面有两个参数

Partition by value_expression

将 FROM 子句生成的结果集划入应用了 ROW_NUMBER 函数的分区。 value_expression 指定对结果集进行分区所依据的列。 如果未指定 PARTITION BY,则此函数将查询结果集的所有行视为单个组。

也就是说partition by后面的字段是要去重复的字段。欲知详情请点击此处
 
Order by
ORDER BY 子句可确定在特定分区中为行分配唯一 ROW_NUMBER 的顺序。 它是必需的。
 
  1. Select a.ProductID,a.SupplierID,a.CategoryID, ROW_NUMBER() over(partition by CategoryID ,SupplierID order by ProductID)as RowN from (
  2. SELECT TOP 10 [ProductID]
  3. ,[ProductName]
  4. ,[SupplierID]
  5. ,[CategoryID]
  6. ,[QuantityPerUnit]
  7. ,[UnitPrice]
  8. ,[UnitsInStock]
  9. ,[UnitsOnOrder]
  10. ,[ReorderLevel]
  11. ,[Discontinued]
  12. FROM [Northwind].[dbo].[Products]) a

获得结果:

Note:此处的数据稍微有点问题,最后会说到。

此次并没有达到去除重复的结果,但稍微看下就发现了多了一行RowN。

这个是根据SupplierID,CategoryID分区并根据ProductID升序获得的行号。所以去除重复也就非常容易了。

  1. Select* from (
  2. Select a.ProductID,a.SupplierID,a.CategoryID, ROW_NUMBER() over(partition by CategoryID ,SupplierID order by ProductID)as RowN from (
  3. SELECT TOP 10 [ProductID]
  4. ,[ProductName]
  5. ,[SupplierID]
  6. ,[CategoryID]
  7. ,[QuantityPerUnit]
  8. ,[UnitPrice]
  9. ,[UnitsInStock]
  10. ,[UnitsOnOrder]
  11. ,[ReorderLevel]
  12. ,[Discontinued]
  13. FROM [Northwind].[dbo].[Products]) a) b where b.RowN=1

获得结果:

顺带附上b.RowN=2结果:

面试问题

取出某年某月每一天的记录的第一条

姑且认为每天第一条记录是当天ID最小的那条,以下为测试使用数据集

  1. SELECT [OrderID]
  2. ,[CustomerID]
  3. ,[EmployeeID]
  4. ,[OrderDate]
  5. FROM [Northwind].[dbo].[Orders]
  6. where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1

方法一:Group by

  1. with Dataset as (SELECT [OrderID]
  2. ,[CustomerID]
  3. ,[EmployeeID]
  4. ,[OrderDate]
  5. FROM [Northwind].[dbo].[Orders]
  6. where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1)
  7. Select a.* from Dataset a,
  8. (SELECT Min([OrderID]) as ID
  9. ,DATEPART(DAYOFYEAR,OrderDate) as dayofOrder
  10. FROM [Northwind].[dbo].[Orders]
  11. where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1
  12. group by DATEPART(DAYOFYEAR,OrderDate)) b
  13. where a.OrderID=b.ID

获得结果:

方法二:Row_Number() over()

  1. with Dataset as (SELECT [OrderID]
  2. ,[CustomerID]
  3. ,[EmployeeID]
  4. ,[OrderDate]
  5. FROM [Northwind].[dbo].[Orders]
  6. where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1)
  7. select a.* from(Select *,ROW_NUMBER() over(Partition by DatePart(dayofyear,OrderDate)
  8. order by OrderID) as RowN from Dataset) a where a.RowN=1

获得结果:

小结:从以上两种方法可以明显感觉到第二种方法的优势,更强的灵活性,可以获得每天的第二条甚至更多,而且Order by排序有更多选择。

总结

本次关于Sql去除重复的总结就写完了,如果大家还有其他好的方法,还请分享出来。

文中如有错误或者描述不当的地方,还请指出!谢谢!

如有兴趣,继续看下面的问题,帮忙解决了,我将不胜感激!

参考资料:http://stackoverflow.com/questions/3800551/select-first-row-in-each-group-by-group

怪异的问题

测试过程中发现看下图:

这里面的获取的数据明显不是我想要的数据(可以参照准备里的数据集),我测试其他字段都没有问题,只有单独获取CategoryID字段的时候有问题,求高手指点。

附:测试数据库下载

菜鸟去重复之Sql的更多相关文章

  1. (转)菜鸟去重复之Sql

    原文地址:http://www.cnblogs.com/fatbird/p/Sql-Remove-duplicate.html 前言 本文主要是总结平时工作学习中遇到的使用Sql Server的去除重 ...

  2. 去重复的sql(Oracle)

    1.利用group by 去重复 2.可以利用下面的sql去重复,如下 1) select id,name,sex from (select a.*,row_number() over(partiti ...

  3. 关系数据库SQL之高级数据查询:去重复、组合查询、连接查询、虚拟表

    前言 接上一篇关系数据库SQL之基本数据查询:子查询.分组查询.模糊查询,主要是关系型数据库基本数据查询.包括子查询.分组查询.聚合函数查询.模糊查询,本文是介绍一下关系型数据库几种高级数据查询SQL ...

  4. mysql数据库去重复

    参考:http://www.cnblogs.com/duanjie/archive/2011/08/13/2136862.html 说到去重复,感觉逻辑很简单.但动手写起来却并不是那么容易.面试的时候 ...

  5. paip.输入法编程---带ord gudin去重复-

    paip.输入法编程---带ord gudin去重复- 作者Attilax ,  EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.n ...

  6. ASP.Net【如何合并DataTable,并且去重复方法】

    虽然DataTable.Merge可以很好的实现,但以下代码写出来更好理解 DataTable DataTable1 = new DataTable(); DataTable DataTable2 = ...

  7. Oracle单表去重复(二)

    Oracle单表去重 去重有两层含义,一:是记录完全一样.二:是符合一定条件的认为是重复. 根据表的数量,去重可划分为:单表去重和多表关联去重.   对于去重,一般最容易想到的是用distinct,而 ...

  8. 写了个去重复文件的 PHP 脚本,

    写了个去重复文件的 PHP 脚本点击打开链接 把各个零散网盘.邮箱和服务器上的文件,三台电脑上的文件收集在新硬盘里,然后清空了网络和电脑上的文件.才发现这个文件不能这里放点,那里存点,到时候不知道在哪 ...

  9. 【知识库】-数据库_MySQL之高级数据查询:去重复、组合查询、连接查询、虚拟表

    简书作者:seay 文章出处: 关系数据库SQL之高级数据查询:去重复.组合查询.连接查询.虚拟表 回顾:[知识库]-数据库_MySQL之基本数据查询:子查询.分组查询.模糊查询 Learn [已经过 ...

随机推荐

  1. JVM体系结构之七:持久代、元空间(Metaspace) 常量池==了解String类的intern()方法、常量池介绍、常量池从Perm-->Heap

    一.intern()定义及使用 相信绝大多数的人不会去用String类的intern方法,打开String类的源码发现这是一个本地方法,定义如下: public native String inter ...

  2. Charles使用1

    Charles是一款比较常用的全平台的网络封包街区工具,而我们在做移动开发的时候,我们为了调试.测试.分析等目的,经常需要和服务端的网络通讯协议打交道.Charles可以帮我们截取网络数据包来进行分析 ...

  3. PY安装模块

    Python安装失败原因 0环境 , pip版本一般为 7.x , 所以一般需要先升级pip版本 , 也就是执行 ```shellpython -m pip install --upgrade pip ...

  4. ubuntu sudo apt-get update与sudo apt-get upgrade的作用及区别,以及python pip的安装

    在UBUNTU下,我们维护一个源列表,源列表里面都是一些网址信息,这每一条网址就是一个源,这个地址指向的数据标识着这台源服务器上有哪些软件可以安装使用.编辑源命令: sudo gedit /etc/a ...

  5. red ant

    Red Ant(红蚁)网络运维管理系统是IT运维管理系统,提供智能的B/S接口可视化人机界面,通过简单的操作实现全方位的网络专线.服务器.中间件.各种应 用程序.机房动力环境等监控管理,“化繁为简”, ...

  6. python 2.7中安装mysql

    在python中进行安装mysql模块,但是怎么都不能导入mysql模块,出错如下所示: [root@python ~]# python Python 2.7.11 (default, Apr 5 2 ...

  7. javascript数组操作(创建、元素删除、数组的拷贝)

    这篇文章主要介绍了javascript数组操作,包括创建.元素的访问.元素删除.数组的拷贝等操作,还有其它示例,需要的朋友可以参考下 1.数组的创建 复制代码 代码如下: var arrayObj = ...

  8. python 迭代器/生成器/迭代对象

    生成器: 带有yield的函数 迭代器:带有next 方法的对象,可以作为内建函数next的参数 迭代对象:带有__iter__方法的对象,__iter__方法返回迭代器 -------------- ...

  9. tomcat服务编码集设置

    有三处需要记住修改 截图如下效果图: 第一处,对控制台右键,选择“默认值”找到,并设置为gbk: 第二处,在conf中找到server.xml文件并设置: 第三处:找到bin文件,找到tomcat80 ...

  10. spring boot 1

    1.创建项目. meven可以配置阿里云meven镜像 <mirror> <id>nexus-aliyun</id> <mirrorOf>central ...