试想一下,如果有10G数据,或者更多:怎么才能够快速地去重呢?你会说将数据导入到数据库(mysql等)进行去重,或者用java写个程序进行去重,或者用Hadoop进行处理.如果是大量的数据要写入数据库也不是一件容易的事情,首先你需要开发一个程序将数据写入数据库,然后再用数据库的select distinct或者group by进行去重.如果是一次性的工作,这种方式显得就比较笨拙了.那么有没有更好的办法呢?下面记录一下我是怎么从10G数据里面迅速去重的.这里采用shell脚本的方式进行处理.如果您