前面写过一篇通过shell脚本去重10G数据的文章,见《用几条shell命令快速去重10G数据》。然而今天又碰到另外一个业务,业务复杂度比上次的单纯去重要复杂很多。找了很久没有找到相应的办法,于是用shell脚本程序去处理。具体业务逻辑:

  1、首先根据给定指定进行排序

  2、排序后对给定字段进行去重,去重的规则如下:

    a)排序后如果相邻N行给定字段值相同的行数不超过两行,则两行都保留。

    a)排序后如果相邻N行给定字段值相同的行数超过两行,则保留首行和尾行。

  就这样一个业务逻辑,其实看起来并不是太难。但是问题来了,怎么才能在10~20G的数据中快速地进行处理呢?网上找了很久没找到相应的处理办法,于是先用一种相对笨的办法实现。

  测试数据:

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss
A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss

  shell脚本:

if [ "$#" != "" ]; then
echo "Usage: 参数1:文件路径,参数2:文件名。"
exit
fi
#源文件所在目录
filepath=$
#源文件绝对路径
orgfile=$filepath"/"$
#合并字段后的临时文件
#mergerfile="$orgfile"_merge.txt
#排序后的临时文件
sortfile="$orgfile"_sort.txt
#最终结果文件
result_unique="$orgfile"_result_unique.txt
echo "">$result_unique
#echo "文件:$orgfile"
#echo "开始合并字段..."
#awk 'BEGIN{ FS=",";}{ print $1","$2","$3","$4","$5","$6","$7","$1$3$4 }' $orgfile > $mergerfile
#echo "字段合并结束..." echo "文件排序 start..."
#sort -t $"," -k , -k , $mergerfile >$sortfile
sort -t $"," -k , $orgfile >$sortfile
echo "文件排序 end..." printf "***********文件比较 start**************************\n"
echo "while read line <$sortfile"
cnt=
#首行
firstline=""
#尾行
lastline=""
#上一次比较的key
lastKey=""
#文件行数
linecount=`sed -n '$=' $sortfile`
i=
echo "linecount=========>>>>>>>$linecount"
while read line || [[ -n "$line" ]];
do
echo $line;
#合并需要比较的字段
compare=`echo "$line"|awk -F ',' '{print $1$3$4}'`
echo "compare=====$compare"
#判断字符串是否相等
if [ "$i" != "$linecount" -a "$lastKey" = "$compare" ];then
echo "[ = ]"
cnt=$(expr $cnt + )
lastline="$line"
else
#首次进来
if [ "$firstline" = "" ];then
firstline=$line
cnt=
#echo "$firstline" >> $result_unique
fi
#echo "----$i---------------->>>>>>>>>>>$cnt"
if [ $cnt -gt -o "$i" == "$linecount" ];then
echo "----$i---------------->>>>>>>>>>>$cnt" if [ "$i" != "$linecount" -a "$lastline" != "" ];then
echo "$lastline" >> $result_unique
echo "$line" >> $result_unique
fi # 最后一行的特殊处理
if [ "$i" == "$linecount" ];then
echo "================last line==================="
echo "$line" >> $result_unique
fi firstline="$line"
lastline="$line"
cnt=
elif [ $cnt -eq ];then
firstline=$line
lastline="$line"
cnt=
echo "$lastline" >> $result_unique
fi
fi
# 对比key
lastKey="$compare"
let i++
done <$sortfile echo "*******************文件 $orgfile 处理结束***************************"
echo "*******************结果文件 $result_unique ***************************"
exit

  给脚本添加执行权限:

chmod +x uniquefile.sh

  执行shell脚本

sh ./uniquefile.sh ./文件路径 文件名

  结果:

[root@xddsdsdsddssd ~]# sh uniquefile.sh ./ testfile.csv
文件排序 start...
文件排序 end...
***********文件比较 start**************************
while read line <.//testfile.csv_sort.txt
linecount=========>>>>>>>
A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss
compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0
A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss
compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0
[ = ]
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
-------------------->>>>>>>>>>>
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
[ = ]
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
[ = ]
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
-------------------->>>>>>>>>>>
================last line===================
*******************文件 .//testfile.csv 处理结束***************************
*******************结果文件 .//testfile.csv_result_unique.txt ***************************

  最终结果文件:

[root@wewewwew ~]# more testfile.csv_result_unique.txt 

A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss
A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss
F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

  时间比较赶,先这样实现吧。哪位亲们有好的办法请告诉我。

如何使用shell脚本快速排序和去重文件数据的更多相关文章

  1. Centos7下crontab+shell脚本定期自动删除文件

    问题描述: 最近有个需求,就是rsync每次同步的数据量很多,但是需要保留的数据库bak文件 保留7天就够了,所以需要自动清理文件夹内的bak文件 解决方案: 利用shell脚本来定期删除文件夹内的任 ...

  2. Shell脚本使用汇总整理——文件夹及子文件备份脚本

    Shell脚本使用汇总整理——文件夹及子文件备份脚本 Shell脚本使用的基本知识点汇总详情见连接: https://www.cnblogs.com/lsy-blogs/p/9223477.html ...

  3. shell脚本实现读取一个文件中的某一列,并进行循环处理

    shell脚本实现读取一个文件中的某一列,并进行循环处理 1) for循环 #!bin/bash if [ ! -f "userlist.txt" ]; then echo &qu ...

  4. Shell脚本对Linux进行文件校验

    Shell脚本对Linux进行文件校验 一.需求 有客户等保需求对文件一致性进行校验,想到利用md5sum工具,因此写脚本来对文件进行自定义扫描,后期可以利用其进行校验,快速校验文件发现变更的文件,一 ...

  5. [ Shell ] 通过 Shell 脚本导出 GDSII/OASIS 文件

    https://www.cnblogs.com/yeungchie/ 常见的集成电路版图数据库文件格式有 GDSII 和 OASIS,virtuoso 提供了下面两个工具用来在 Shell 中导出版图 ...

  6. Shell脚本 | 抓取log文件

    在安卓应用的测试过程中,遇到 Crash 或者 ANR 后,想必大家都会通过 adb logcat 命令来抓取日志定位问题.如果直接使用 logcat 命令的话,默认抓取出的 log 文件包含安卓运行 ...

  7. shell脚本:变量,文件判断,逻辑运算等纪要

    shell脚本中的变量定义,引用各有不同的方式,除此之外,很常用的有文件属性判断,逻辑运算,数值运算等,下面记录一下它们的属性作用 变量 shell变量的定义分为两种:一种是直接赋值定义,另一种是嵌套 ...

  8. ubuntu 用shell脚本实现将当前文件夹下全部文件夹中的某一类文件复制到同一文件夹下

    当前文件夹下有一些文件和文件夹,当中每一个文件夹里都有若干.txt文件. 如今要求在当前文件夹创建一个新文件夹all,且将那些文件夹全部.txt文件 都复制到文件夹all.在ubuntu12.04的s ...

  9. shell脚本0——”一切皆文件“, 认识Shell

    一.”一切皆文件“与“管道” 1)管道:grep foo /path/to/file | grep -n -k 3 | more 实际过程与我们直观认为的相反,最好通过实际过程理解.首先运行的是mor ...

随机推荐

  1. Objective-C 链式语法的实现

    对于 Objective-C 的语法,喜欢的人会觉得它是如此的优雅,代码可读性强,接近自然语言,开发者在调用大多数方法时不需要去查看注释或文档,通常只凭借方法名就可以大致知道这个方法的作用,可以理解为 ...

  2. linux下生成core dump文件方法及设置

    linux下生成core dump文件方法及设置    from:http://www.cppblog.com/kongque/archive/2011/03/07/141262.html core ...

  3. Linux服务器管理: RPM包

    服务安装类型主要分两种: RPM安装和源码包编译安装: 1.RPM包查看: rpm -qa | grep 包名 用chkconfig --list 查看服务自启动命令    只对RPM包安装的服务生效 ...

  4. Highcharts X轴名称太长,如何设置下面这种样式

      Highcharts所有的图表除了饼图都有X轴和Y轴,默认情况下,x轴显示在图表的底部,y轴显示在左侧(多个y轴时可以是显示在左右两侧),通过chart.inverted = true 可以让x, ...

  5. 总结——R中查看属性的函数

    本文原创,转载注明出处,本人Q1273314690 R中知道一个变量的主要内容和结构,对我们编写代码是很重要的,也可以帮我们避免很多错误. 但是,R中有好几个关于属性查看的函数,我们往往不知道什么时候 ...

  6. FLAG是什么公司

    答: facebook, linkedin,  alphabeta,airbnb,amazon,apple, google

  7. .NET异步编程之回调

    C#中异步和多线程的区别是什么呢?异步和多线程两者都可以达到避免调用线程阻塞的目的,从而提高软件的可响应性.甚至有些时候我们就认为异步和多线程是等同的概念.但是,异步和多线程还是有一些区别的.而这些区 ...

  8. Sublime多行编辑快捷键

    鼠标选中多行,按下 Ctrl Shift L (Command Shift L) 即可同时编辑这些行: 鼠标选中文本,反复按 CTRL D (Command D) 即可继续向下同时选中下一个相同的文本 ...

  9. CSS选择器的特殊性和LOVE HA

    在CSS中当几个相同的选择器对同一个元素有不同的规则时,该怎么应用这些规则呢? 答案就是:CSS特殊性(CSS specificity) 选择器特殊性有选择器本身组成,特殊性由4个数值表述:0, 0, ...

  10. C#GDI+编程基础(二)

    pen类:绘制指定宽度和样式的直线.使用DashStyle属性绘制几种虚线,可以使用各种填充样式(包括纯色和纹理)来填充Pen绘制的直线,填充模式取决于画笔或用作填充对象的纹理. 创建画笔: //用指 ...