前天因为工作需要,开始着手对数据库中两千多万的数据中其中一个字段重复的数据进行去重。
原本使用一些测试的数据测试后,前天写的那个方法是可行的,但是当面对这个两千万的真实数据时,我却发现这方法有些不顶用了,最终只好又经过若干次的尝试,总算成功去重。

最终总结一下整个过程:

1、这个方法就是上一篇所讲的,利用mongodb的游标dbcursor和while循环的方式。
var res=db.test.find();
while(res.hasNext()){
      var res1=db.test.find();
      var re=res.next();
      while(res1.hasNext()){
              var re1=res1.next();
              if(re.age==re1.age){
                   db.test.remove({"age":re1.age});
               }
       }
       db.test.insert(re);
}

      原本我用了10000调数据进行测试,循环完毕后,就如预期一样只剩下1条数据。但是面对两千万的数据后,执行到一半就报错,并且一直卡在那里。
      我也不知道这情况究竟算是正常还是不正常,反正是等了半天的时间还是卡在那里,整个集合的数据也没有任何的变化。
      我想大概是一次性处理的数据太多了吧,我的循环那样执行下去,就需要循环两千万乘以两千万次,这个次数是在国语庞大,于是只好采取迂回的措施,把两千万拆分成20个集合,一个集合只装一百万。
      但是即便是一百万的数据,当我在执行这个方法时,还是卡在了那里。 于是我不禁就想,难到我要把20个集合再拆分成四十个集合,一个只装五十万?
      四十个集合,这工作量貌似有点太大,我选择无奈的放弃。

2、第一种方法失败的情况下,我只好另寻他途,然后便想到了唯一索引的方法。
    唯一索引的dropDups可以在建立索引时删除重复的数据,我想这个总应该是可行的吧。然而事实却证明我还是错了,最终还是以失败告终。
    在我执行如下方法建立唯一索引的时候,又是屡屡报错,并给我意外退出!     

db.alarm1.ensureIndex({"msgContent":1},{"unique":true,dropDups:true})
  
  直接在建立索引的时候删除数据无法达到目的,我只好再次采用迂回的方式,在一个全新的空集合中建立一个索引 :
   
 db.alarmBack.ensureIndex({"msgContent":1},{"unique":true})

    然后再把数据重新的导入到这个已经存在了唯一索引的集合中,我想应该可以了吧。
    但是,无奈的是,又失败了!
    因为我从生产数据库导出的数据用了mongodump的方式,所以导入的时候也用的mongorestore的方式,而这个方式实际上是恢复数据,在恢复数据的同时,连索引也一起恢复了。
    最让我抓狂的是,恢复索引也就罢了,竟然还在恢复的时候把我建的唯一索引给干掉了!这样一来,唯一索引没了,自然无法达到去重的目的,方法再次以失败告终。
    我不知道mongodump和mongorestore是否有相关参数可以指定不要索引,有空了一定要试一下(太坑了吧)。

3、上述两个方法都失败了,第二个方法失败的同时,我就想到要试一下另外一种导入和导出的方法:mongoimport和mongoexport。
    我隐约记得这两个方法导入导出的时候速度好像比mongodump和mongorestore慢,但是现在没有办法的情况下只好一试。
    但是事实证明这个方法在这种情况下居然可行,最终我使用第二种方法中的第二种方式,先在空白集合中建一个唯一索引,然后导入要去重的数据,成功的对这两千多万的数据去重。
    不过真的是慢啊,单纯的导入,我用mongodump连mongoimport一半的时间都没用到,不知道是否是因为姿势不对,暂且也不想去管它了!
    任务结束,但是心中还留下一些疑问,我想如果第二种方法中我导出的元数据是没有索引的,那么当我导入的时候,不知道它是否还会把我原本的唯一索引干掉;还有就是,或许直接用java代码处理导出的文件也可以,甚至可能更快,不过暂时有别的事情,也就不做尝试了。

mongodb去除重复的数据(二)的更多相关文章

  1. mongodb去除重复的数据

    里边的内容在某些情况下不可行,可以参考下一篇. 今天出现了一个新的需求,有个部门需要拿到mongodb中的数据,要求去掉其中一个字段内容相同的数据. 虽然mongodb中有distinct来去重,但是 ...

  2. [LeetCode] Remove Duplicates from Sorted Array II 有序数组中去除重复项之二

    Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For exampl ...

  3. [LeetCode] 80. Remove Duplicates from Sorted Array II 有序数组中去除重复项之二

    Given a sorted array nums, remove the duplicates in-place such that duplicates appeared at most twic ...

  4. sql中去除重复的数据 select distinct * from table

    总的思路就是先找出表中重复数据中的一条数据,插入临时表中,删除所有的重复数据,然后再将临时表中的数据插入表中.所以重点是如何找出重复数据中的一条数据,有三种情况 1.重复数据完全一样,使用distin ...

  5. iOS中去除重复的数据

    本人只用了其中一个功能: 需求:一个已知数组arr,判断一个新字符str是否已经存在于arr中,如果不存在,则存入数组arr中 //去重 if (![arr containsObject:str]) ...

  6. PHP去除重复的数组数据

    PHP去除重复的数组数据 <?php $input = array("a" => "green","", "red&q ...

  7. Java实现数组去除重复数据的方法详解

    一.用List集合实现 int[] str = {5, 6, 6, 6, 8, 8, 7,4}; List<Integer> list = new ArrayList<Integer ...

  8. mysql数据库去除重复数据

    (一)最原始的方法: delete from test where id not in (select * from ((select min(id) from test group by(name) ...

  9. JAVA数组去除重复数据

    一.用List集合实现   , , , , , , ,}; List<Integer> list = new ArrayList<Integer>(); ; i<str. ...

随机推荐

  1. pat 1014 1017 排队类问题

    1.用循环模拟时间 2.采用结构体模拟客户和窗口对象 3.合理处理边界,去除无用信息 4.使用自带排序sort()结合自定义功能函数compare()实现排序

  2. 一步一步从原理跟我学邮件收取及发送 9.多行结果与socket的阻塞

    前几篇的文章发表后,有网友留言说没有涉及到阻塞的问题吗?在 socket 的编程当中,这确实是个很重要的问题.结合目前我们文章的内容进度,我们来看看为什么说阻塞概念很重要. 接着上篇的内容,当我们发送 ...

  3. Java - 二叉树递归与非递归

    树的定义具有递归特性,因此用递归来遍历比较符合特性,但是用非递归方式就比较麻烦,主要是递归和栈的转换. import java.util.Stack; /** * @author 李文浩 * @ver ...

  4. NoSQL在大数据中的应用

    一.序言 NoSQL是Not Only SQL的缩写,而不是Not SQL,指的是非关系型的数据库,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准.ACID属性.表结构等等.相比传统数据库 ...

  5. AOP 切面编程------JoinPoint ---- log日志

    AOP 在软件业,AOP为Aspect Oriented Programming的缩写,意为:面向切面编程,通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技术.AOP是OOP的延续,是软件 ...

  6. 分组密码的工作模式--wiki

    密码学中,块密码的工作模式允许使用同一个块密码密钥对多于一块的数据进行加密,并保证其安全性.[1][2] 块密码自身只能加密长度等于密码块长度的单块数据,若要加密变长数据,则数据必须先被划分为一些单独 ...

  7. HDU 3595 GG and MM [Every-SG]

    传送门 题意: 两个数$x,y$,一个人的决策为让大数减去小数的任意倍数(结果不能为负),出现0的人胜 一堆这样的游戏同时玩 Every-SG 游戏规定,对于还没有结束的单一游戏,游戏者必须对该游戏进 ...

  8. Linux C 一个简单的线程池程序设计

    最近在学习linux下的编程,刚开始接触感觉有点复杂,今天把线程里比较重要的线程池程序重新理解梳理一下. 实现功能:创建一个线程池,该线程池包含若干个线程,以及一个任务队列,当有新的任务出现时,如果任 ...

  9. hibernate监听器的应用

    这里是我看到的一个hibernate监听器的简单实现供参考  http://www.360doc.com/content/14/0623/11/8072791_389034447.shtml 设计思路 ...

  10. [Python Study Notes]匿名函数

    Python 使用 lambda 来创建匿名函数. lambda这个名称来自于LISP,而LISP则是从lambda calculus(一种符号逻辑形式)取这个名称的.在Python中,lambda作 ...