awk处理重复行错误分析

[root@localhost ~]#cat 0712

YRSD2-1-11

YRSD2-2-18

YRSD1-1-8

YRSD1-1-18

YRSD1-1-20

YRSD1-1-25

YRSD1-2-38

YRSD1-2-39

YRSD1-2-44

YRSD1-2-48

YRSD1-2-43

YRSD1-3-58

YRSD1-3-59

YRSD1-4-67

YRSD1-4-68

YRSD1-4-70

YRSD1-4-71

YRSD1-3-52

YRSD4-1-5

YRSD3-1-7

YRSD3-1-22

YRSD3-1-28

YRSD3-2-37

YRSD3-2-50

YRSD3-2-53

YRSD3-2-55

YRSD6-1-1

YRSD6-1-5

YRSD6-1-15

YRSD6-2-28

YRSD6-2-32

YRSD6-2-36

YRSD5-1-7

YRSD5-1-22

YRSD5-1-23

YRSD5-1-24

YRSD5-1-25

YRSD5-1-26

YRSD5-2-33

YRSD5-2-37

YRSD5-2-42

YRSD5-2-51

YRSD5-2-54

YRSD5-2-53

YRSD1-1-18

YRSD1-2-38

YRSD1-2-44

YRSD1-2-48

YRSD1-4-67

YRSD1-4-68

YRSD2-1-11

YRSD2-2-18

YRSD3-1-22

YRSD3-1-28

YRSD5-1-22

YRSD5-1-25

YRSD5-2-37

YRSD5-2-42

YRSD5-2-54

YRSD6-1-1

YRSD6-1-15

想将重复的行打印出来，结果搞错了，闲来无聊想想为什么会有这样的结果，算是对awk的加深印象

[root@localhost ~]#awk 'a[$0]++{for(i in a)print i,a[i]}' 0712 | wc -l

810

解析
a[$0]++结果为真时，执行action，所以第一遍不重复的时候，将数组存储
然后每次遇到重复的行，pattern结果为真，执行一次action，一共18个重复行，执行18次，每次结果为45行，共计45*18=810行

顺序对结果也有影响，对计数有影响

[root@localhost ~]#awk '++a[$0]{for(i in a)print i,a[i]}' 0712 | wc -l

1845

解析
因为++a[$0]第一次就有结果了，所以第一次就将a[第一行]打印出来，
第二行时，将第一行、第二行打印出来
第三行时，将第一二三行打印出来
以此类推
不重复行为45行
所以结果为45*（1+45)/2=1035
从第46行开始重复，且每次打印时数组均为45项，即45*18=810
1035+810=1845
over

[root@localhost ~]#awk 'a[$0]++;END{for(i in a)print i,a[i]}' 0712 | wc -l

63

awk只执行pattern对空间的内容没有影响，所以使用END模块也就没有效果
百度百科awk
其中 pattern 表示 AWK 在数据中查找的内容，而 action 是在找到匹配内容时所执行的一系列命令。花括号 ({}) 不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。

所以正确的END模式如下：

[root@localhost ~]#awk '{a[$0]++};END{for(i in a)print i,a[i]}' 0712 | wc -l

45

awk处理重复行错误分析的更多相关文章

awk除去重复行
awk去除重复行,思路是以每一行的$0为key,创建一个hash数组,后续碰到的行,如果数组里已经有了,就不再print了,否则将其print 测试文件: 用awk: 用sort+uniq好像出错了: ...
linux 下删除重复行-- uniq 与 awk
$ cat file liw liw liw hdsui mdksjd liw $ cat file | uniq -u # 只删除相邻的,不保留重复行 hdsui mdksjd liw $ cat ...
【shell】awk按域去除重复行
首先解释一下什么叫“按域去除重复行”: 有的时候我们需要去除的重复行并不是整行都重复,两行的其中一列的元素相同我们有的时候就需要认定这两行重复,因此有了今天的内容. 去除重复行shell有一个原生命令 ...
linux用命令删除重复行
文本处理时,经常要删除重复行,下面是三种方法第一,用sort+uniq,注意,单纯uniq是不行的. sort -n test.txt | uniq 第二,用sort+awk命令,注意,单纯awk同 ...
Linux合并文件、去除重复行的命令
Linux合并文件命令: awk '{printf("%s\n",$0)}' YQ-*101?.txt > 123.txt linux去除重复行命令:cat YQ-10 ...
Linux删除重复行排序和不排序的做法--转载
本文部分翻译自这里,来自 Jadu Saikia 的博客,这个博客上有很多非常有用的小技巧,有空可以多看看. 通常如果我们想获取一个文件里不重复的行的时候,我们可以直接通过 sort -u 命令,先把 ...
Linux删除重复行
本文转自http://blog.csdn.net/ithomer/article/details/6926325 文本处理时,经常要删除重复行,下面是三种方法第一,用sort+uniq,注意,单纯u ...
shell 删除文本中的重复行
三种常见方法:第一,用sort+uniq,注意,单纯uniq是不行的. shell> sort -k2n file | uniq > a.out 这里我做了个简单的测试,当file中的重复 ...
SQL Server删除重复行的6个方法
SQL Server删除重复行是我们最常见的操作之一,下面就为您介绍六种适合不同情况的SQL Server删除重复行的方法,供您参考. 1.如果有ID字段,就是具有唯一性的字段 delect ta ...

随机推荐

【ASP.NET Core】准备工作：在 Windows 10 上配置 Linux 子系统
ASP.NET Core 其实比传统的 ASP.NET 要简单很多,而且也灵活很多,并且可以跨平台独立运行. 在 Windows 平台上,我们只要在安装 Visual Studio 的时候选择跨平台的 ...
python函数高级特性
掌握了Python的数据类型.语句.函数,基本可以编写出很多有用的程序了.但是Python中,代码不是越多越好,而是越少越好.代码不是越复杂越好,而是越简单越好.基于这一思想,我们来介绍python中 ...
Elastic-Job-一个分布式调度解决方案
注:Elastic-Job是一个分布式调度解决方案,由两个相互独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成.Elastic-Job-Lite定位为轻量级无中心化 ...
Python 集合深浅copy
一,集合. 集合是无序的,不重复的数据集合,它里面的元素是可哈希的(不可变类型),但是集合本身是不可哈希(所以集合做不了字典的键)的.以下是集合最重要的两点: 去重,把一个列表变成集合,就自动去重了. ...
批量将webp格式的图片转成png的图片 https://cn.office-converter.com/WEBP-to-PNG
https://cn.office-converter.com/WEBP-to-PNG
初次了解struts的action类
Action类真正实现应用程序的事务逻辑,它们负责处理请求.在收到请求后,ActionServlet会为这个请求选择适当的Action 如果需要,创建Action的一个实例调用Action的perf ...
cookie/session（过时的写法）
cookie存在客户端的浏览器中,不太安全,容易被窃取,,session被存在服务器中(类似于字典中的value,),服务器会给浏览器返回这个value的key值,下次进来直接根据key取value. ...
385cc412a70eb9c6578a82ac58fce14c md5破解
在线破解很方便,你可能几秒钟就可以破解得到MD5原码...但是在线破解也不是万能的也有查不到的或者需要收费的(土豪略过这句话)...下面推荐个网站md5.geekzh.com 所有MD5免费查询 E ...
POJ 3154 Graveyard【多解，数论，贪心】
Graveyard Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 1707 Accepted: 860 Specia ...
[51nod1610]路径计数
路径上所有边权的最大公约数定义为一条路径的值. 给定一个有向无环图. T次修改操作,每次修改一条边的边权,每次修改后输出有向无环图上路径的值为1的路径数量(对1,000,000,007取模). Inp ...

awk处理重复行错误分析

awk处理重复行错误分析的更多相关文章

随机推荐

热门专题