前天因为工作需要,开始着手对数据库中两千多万的数据中其中一个字段重复的数据进行去重. 原本使用一些测试的数据测试后,前天写的那个方法是可行的,但是当面对这个两千万的真实数据时,我却发现这方法有些不顶用了,最终只好又经过若干次的尝试,总算成功去重. 最终总结一下整个过程: 1.这个方法就是上一篇所讲的,利用mongodb的游标dbcursor和while循环的方式. var res=db.test.find(); while(res.hasNext()){ var res1=db.test.fin
利用Linux命令进行文本按行去重并按重复次数排序 linux命令行提供了非常强大的文本处理功能,组合利用linux命令能实现好多强大的功能.本文这里举例说明如何利用Linux命令行进行文本按行去重并按重复次数排序.主要用到的命令有sort,uniq.其中,sort主要功能是排序,uniq主要功能是实现相邻文本行的去重. 用于演示的测试文件内容如下: Hello World. Apple and Nokia. Hello World. I wanna buy an A
---------------------MongoDB基本操作--------------------- 1.MongoDB创建数据库 use 数据库名:切换到指定的数据库中,在插入第一个条数据的时候,创建对应的数据库. show dbs:显示所有的数据库名. db:查看当前数据库的名称. show collections:查看当前db所有的collections. db.集合名.insert({"name":"python"
最近刚在搞一个BI的项目,里面需要大量的sql 数据统计相关运用,加深了我又对SQL的理解与使用. 所以,分享几个数据统计时常用的sql 语句总结: 1. 统计各个条件下的数据 select BatchId,sum(CardSum) 总金额, sum( then CardSum end) as 已使用, sum( then CardSum end) as 已冻结 from GiftCard group by BatchId 2. 统计每日,每月,每年的数据 ) 数量,sum(CardSum) 销
转:http://www.cnblogs.com/zhangweizhong/p/5577842.html 最近刚在搞一个BI的项目,里面需要大量的sql 数据统计相关运用,加深了我又对SQL的理解与使用. 所以,分享几个数据统计时常用的sql 语句总结: 1. 统计各个条件下的数据 select BatchId,sum(CardSum) 总金额, sum(case when Status=1 then CardSum else 0 end) as 已使用, sum(case when Stat