08. 删除重复&海量数据

 

重复数据,通常有两种:一是完全重复的记录,也就是所有字段的值都一样;二是部分字段值重复的记录。

一. 删除完全重复的记录
完全重复的数据,通常是由于没有设置主键/唯一键约束导致的。
测试数据:

  1. if OBJECT_ID('duplicate_all') is not null
  2. drop table duplicate_all
  3. GO
  4. create table duplicate_all
  5. (
  6. c1 int,
  7. c2 int,
  8. c3 varchar(100)
  9. )
  10. GO
  11. insert into duplicate_all
  12. select 1,100,'aaa' union all
  13. select 1,100,'aaa' union all
  14. select 1,100,'aaa' union all
  15. select 1,100,'aaa' union all
  16. select 1,100,'aaa' union all
  17. select 2,200,'bbb' union all
  18. select 3,300,'ccc' union all
  19. select 4,400,'ddd' union all
  20. select 5,500,'eee'
  21. GO

(1) 借助临时表

利用DISTINCT得到单条记录,删除源数据,然后导回不重复记录。

  1. if OBJECT_ID('tempdb..#tmp') is not null
  2. drop table #tmp
  3. GO
  4. select distinct * into #tmp
  5. from duplicate_all
  6. where c1 = 1
  7. GO
  8. delete duplicate_all where c1 = 1
  9. GO
  10. insert into duplicate_all
  11. select * from #tmp

如果表不大的话,可以把所有记录导出一次,然后truncate表后再用distinct导回,这样可以避免delete的日志操作。

(2) 使用ROW_NUMBER

  1. with tmp
  2. as
  3. (
  4. select *,ROW_NUMBER() OVER(PARTITION BY c1,c2,c3 ORDER BY(getdate())) as num
  5. from duplicate_all
  6. where c1 = 1
  7. )
  8. delete tmp where num > 1

如果多个表有完全重复的行,可以考虑通过UNION将多个表联合,插到一个新的同结构的表,SQL Server会帮助去掉表和表之间的重复行。

二. 删除部分重复的记录
部分列重复的数据,通常表上是有主键/唯一键约束的,可能是程序逻辑造成某些非主键/唯一键列值的数据重复。
测试数据:

  1. if OBJECT_ID('duplicate_col') is not null
  2. drop table duplicate_col
  3. GO
  4. create table duplicate_col
  5. (
  6. c1 int primary key,
  7. c2 int,
  8. c3 varchar(100)
  9. )
  10. GO
  11. insert into duplicate_col
  12. select 1,100,'aaa' union all
  13. select 2,100,'aaa' union all
  14. select 3,100,'aaa' union all
  15. select 4,100,'aaa' union all
  16. select 5,500,'eee'
  17. GO

(1) 唯一索引

唯一索引有个忽略重复建的选项,在创建主键约束/唯一键约束时都可以使用这个索引选项。

  1. if OBJECT_ID('tmp') is not null
  2. drop table tmp
  3. GO
  4. create table tmp
  5. (
  6. c1 int,
  7. c2 int,
  8. c3 varchar(100),
  9. constraint UQ_01 unique(c2,c3) with(IGNORE_DUP_KEY = ON)
  10. )
  11. GO
  12. insert into tmp
  13. select * from duplicate_col
  14. select * from tmp

(2) 借助主键/唯一键来删除
通常会选择保留主键/唯一键的最大/最小值,其他行删除。以下只保留重复记录中c1最小的行:

  1. delete from duplicate_col
  2. where exists(select 1 from duplicate_col b where duplicate_col.c1 > b.c1 and (duplicate_col.c2 = b.c2 and duplicate_col.c3 = b.c3))
  3. --或者
  4. delete from duplicate_col
  5. where c1 not in (select min(c1) from duplicate_col group by c2,c3)

如果要保留重复记录中的第N行,可以参考05. 取SQL分组中的某几行数据

(3) ROW_NUMBER
和删除完全重复记录的写法基本一样。

  1. with tmp
  2. as
  3. (
  4. select *,ROW_NUMBER() OVER(PARTITION BY c2,c3 ORDER BY(getdate())) as num
  5. from duplicate_col
  6. )
  7. delete tmp where num > 1
  8. select * from duplicate_col

三. 删除海量数据
删除海量数据时,如果想要提升性能,需要考虑的一个重要因素就是:如何减少日志操作?

1. 全表删除
全表删除的方式通常有3种:DROP, TRUNCATE, DELETE
(1) DROP/TRUNCATE
DROP和TRUNCATE是DDL操作,日志量都很少(只有回收数据页的记录,不记录页内每条数据的明细),都释放所有数据页,以及重置IAM、PFS、GAM、SGAM中的标志位,释放的数据页可被其他表使用;

所不同的是,DROP同时也删除了系统目录里对于表的定义,相应的,表上所有定义的对象:INDEX、CONSTRAINT、TRIGGER等等也都将被删除,该表相关的IAM、PFS、GAM、SGAM页也将被释放(不只是重置标志位);

(2) DELETE
不带条件的DELETE可以用来删除全表数据,所有被删除的行都将被记录日志,做全表删除时效率较差,不推荐;

2. 部分删除
对于表中部分数据做删除,如果是分区表的话,直接TRUNCATE分区是最好了,即使是用DELETE删除分区中部分数据,效率也不会太差;

如果不是分区表的话:

(1) 删除表里少部分数据
直接用DELETE删除;

(2) 删除表里大部分数据
导出所需要保留的少数记录到临时表,然后TRUNCATE原表,再把临时表数据导回来;
举例:

  1. SELECT * INTO tmp FROM TAB_NAME
  2. WHERE DATE_COL > = GETDATE()-1
  3.  
  4. TRUNCATE TABLE TAB_NAME
  5.  
  6. INSERT INTO TAB_NAME
  7. SELECT * FROM tmp
  8.  
  9. DROP TABLE tmp

如果不想再把临时表数据导回来,也可直接删除原表TAB_NAME,把tmp重命名为原表名,但不要忘了在tmp上创建原表的对象,如:索引/约束/触发器等等。

  1. EXEC sp_rename 'TAB_NAME', 'TAB_NAME_OLD'
  2. EXEC sp_rename 'tmp', 'TAB_NAME'
  3. --create index/constraint/trigger...on new TAB_NAME
  4. DROP TABLE TAB_NAME_OLD

(3) 删除表里约一半数据

这时,如果表上没有分区的话,就会慢的特别明显,的确没什么好的办法,只能用DELETE慢慢删除。

另外,ORACLE中的NOLOGGING选项,类似于SQL Server中的BULK_LOGGED恢复模式,在批量数据操作时才有效,比如:SELECT…INTO(ORACLE中对应create table as select * from…),CREATE/ALTER INDEX 等等。并不是任何时候这个选项都有效的。

小结

(1) 海量数据的删除,尽量选择日志量较小的方式进行;
(2) NOLOGGING选项/BULK_LOGGED恢复模式,在删除数据时,派不上用场,通常用在批量导入或更新数据时。

 
 

删除重复&海量数据的更多相关文章

  1. 08. 删除重复&海量数据

    原文:08. 删除重复&海量数据 重复数据,通常有两种:一是完全重复的记录,也就是所有字段的值都一样:二是部分字段值重复的记录. 一. 删除完全重复的记录完全重复的数据,通常是由于没有设置主键 ...

  2. mysql删除重复记录语句的方法

    例如: id name value 1 a pp 2 a pp 3 b iii 4 b pp 5 b pp 6 c pp 7 c pp 8 c iii id是主键 要求得到这样的结果 id name ...

  3. [LeetCode] Delete Duplicate Emails 删除重复邮箱

    Write a SQL query to delete all duplicate email entries in a table named Person, keeping only unique ...

  4. Oracle 删除重复数据只留一条

    查询及删除重复记录的SQL语句   1.查找表中多余的重复记录,重复记录是根据单个字段(Id)来判断   select * from 表 where Id in (select Id from 表 g ...

  5. sql查询删除重复数据

    数据库UserInfo 删除重复数据 即删除重复的用户名手机号 同一个用户名手机号只保留一个用户 01.根据多个字段查询重复数据 with data1 as( select MobilePhone,N ...

  6. SQL Server删除重复行的6个方法

    SQL Server删除重复行是我们最常见的操作之一,下面就为您介绍六种适合不同情况的SQL Server删除重复行的方法,供您参考. 1.如果有ID字段,就是具有唯一性的字段 delect   ta ...

  7. MYSQL删除重复数据

     delete from co_jobinformation cwhere c.name in (select cc.name from co_jobinformation cc group by   ...

  8. 【转】SQL删除重复数据方法,留着备用

    感谢孙潇楠前辈的总结,地址http://www.cnblogs.com/sunxiaonan/archive/2009/11/24/1609439.html 例如: id           name ...

  9. (转载)SQL删除重复数据方法

    本文转载自http://www.cnblogs.com/sunxiaonan/archive/2009/11/24/1609439.html 例如: id           name         ...

随机推荐

  1. 使用myeclipse创建带注解的model实体类

    1.先新建JPA项目: 如果没有就点击左下角的Show All Wizards. 点两次Next后,点击Finish即可,中间不用任何操作 (点第二次Next后会出现连接到所在数据库,先不管)     ...

  2. wamp 已安装cakephp Fatal error: You must enable the intl extension to use CakePHP. in XXX

    今wamp已安装cakephp3.x什么时候.报告这样的错误:Fatal error: You must enable the intl extension to use CakePHP. in D: ...

  3. [Unity3D]Unity3D游戏开发之Unity与Android交互调用研究

    各位朋友,大家好,我是秦元培,欢迎大家关注我的博客,我的博客地址是blog.csdn.net/qinyuanpei.在前一篇文章中,我们研究了Android平台上Unity3D的手势操作并在之前的基础 ...

  4. 屏蔽webbrowser控件右键的一种方法

    原文:屏蔽webbrowser控件右键的一种方法 Option ExplicitPrivate Declare Sub ZeroMemory Lib "KERNEL32" Alia ...

  5. iOS发展 - 使用您自己的自定义字体

    一位同事问我最后一次,XXapp字体如何萌啊? 我也想提出萌哒哒的字体!然后,今天有这blog. 首先,我们正处于iOS发展,苹果给了我们很多的字体,当然,我就不一一列举在这里,英文,小汤表示看不懂啦 ...

  6. POJ 3067 Japan 树状数组求逆序对

    题目大意:有两排城市,这两排城市之间有一些路相互连接着,求有多少条路相互交叉. 思路:把全部的路先依照x值从小到大排序,x值同样的依照y值从小到大排序,然后插入边的时候,先找有多少比自己y值小的,这些 ...

  7. TML5安全:CORS(跨域资源共享)简介

    来源:http://blog.csdn.net/hfahe/article/details/7730944 前言:像CORS对于现代前端这么重要的技术在国内基本上居然很少有人使用和提及,在百度或者Go ...

  8. 从久负盛名的GoDaddy开发革命来看Node.js的风靡程度

    英文原文连接:http://venturebeat.com/2015/02/09/godaddy-nodejitsu/ 网站主机托管公司GoDaddy将要进一步通过新的开发工具来提升自身能力.最新消息 ...

  9. 使用SQL Server Driver for PHP解决PHP连接MSSQL乱码的问题

    原文 使用SQL Server Driver for PHP解决PHP连接MSSQL乱码的问题 最近帮客户写了一个.net商城网站的发布接口,大家都知道.net一般都使用MSSQL数据库,但鱼丸不会. ...

  10. Light OJ 1316 A Wedding Party 最短路+状态压缩DP

    题目来源:Light OJ 1316 1316 - A Wedding Party 题意:和HDU 4284 差点儿相同 有一些商店 从起点到终点在走过尽量多商店的情况下求最短路 思路:首先预处理每两 ...