shell文本处理工具总结

为了效率,应该熟练的掌握自动化处理相关的知识和技能,能力就表现在做同样的一件事情,可以做的很好的同时,耗时还很短。

再次总结shell文本处理的相关规则,对提高软件调试效率,加快数据处理分析都很有帮助。

Shell常用的文本处理工具,主要是4种:sed,grep,gawk,正则表达式。

1. sed

这是一种流式编辑器,区别于普通的交互式编辑器的地方是在处理文本前,需要提前设定好一组规则,它会每次读取一行,按照规则匹配输出,循环往复,直到处理完毕为止;

命令格式为: sed options script file,

具体如下: sed [-Ealn] command [file ...] sed [-Ealn] [-e command] [-f command_file] [-i extension] [file ...]

常用的处理命令有:

sed -e 'cmd1; cmd2; cmd3 ... ;cmdn' file , 连续执行多个命令;

sed -n, 不要自动为每个命令生成输出;

sed 's/a/b/' file, 将file里面的a换成b;

sed '/pattern/d' file, 将file里面匹配pattern的行删除;

sed '/pattern/{n;d}' file,将file里面匹配pattern的行找到,将其下一行删除;

sed '/pattern/{N; s/a/b/}' file, N选项会使得文本行仍然用换行符处理,但是会合并当成一行处理,所以这里的意思是将file里面匹配pattern的行找到,将下一行和在一起,将里面的a替换成b;

sed 'N; /pattern/D' file, 将file里面两行一起的处理,匹配到pattern后,将前面的一行删除,D也是一个多行处理选项;

sed 在shell脚本中使用多个命令,{ 和 }都单独各占一行; sed ‘1a \xxx’第一行后追加1行 sed ‘1i \xxx’第一行后插入1行 sed -n '^$/!p' 打印全部文件内容 sed -n '1,10p' 打印1-10行内容

2. grep

命令格式为:grep options pattern file

grep -r 递归目录查找

grep -n 打印行数

grep -i 忽略大小写

grep -v 反向匹配查找

grep -F -f 可以用来处理获得两个文件的交集,或者差集;

3. gawk

gawk是awk的gnu版本,该工具让流编辑器上了一层台阶,可以提供一个类编程的环境,而不再仅仅是一个命令行工具。

命令格式为: gawk options program file,

gawk会从标准输入等待数据的输入,program用一对花括号来定义; 数据字段变量,$0表示整个文本行,$n表示第n个数据段 一些重要的内建变量:FILEDWIDTH, FS,RS,OFS,ORS; BEGIN表示处理前运行的操作, END表示处理结束后运行的操作; 支持if,while,do-while等函数定义;

4. sort

sort -k 指定排序的栏;

sort -r 反转排序,数字默认的是由小到大;

sort -n 指定按照数字排序;

5. 正则表达式

在shell中熟练使用sed和awk的关键在于对正则表达式的运用,正则表达式,就是一套有用户定义的,用来过滤数据流的规则。

正则表达式的难点在于,linux环境下不同的应用程序可能有不同的正则表达式规则。

再次总结通用的两种类型: BRE(basic regular expression),基本上都支持这种规则, ERE(extend regular expression),扩展类型,部分应用程序支持(gawk可以,sed不行);

BRE的规则主要有:

^ 行首

$ 行尾

. 任意字符,除了换行符

* 任意字符出现一次或者多次

[] 区间匹配

[^abc] 排除字符组

[[:alpha:]] 匹配字母,不区分大小写

[[:alnum:]] 匹配数字和字母,不区分大小写

[[:digit:]] 匹配数字

[[:blank:]] 匹配空格或者tab

[[:print:]] 匹配可打印字符

[[:punct:]] 匹配标点符号

[[:space:]] 匹配任意空白字符

[[:lower:]] 匹配小写

[[:upper:]] 匹配大写

ERE的规则主要有:

?前面的字符出现0次或者1次

+ 前面的字符出现1次或者多次

| 可以将两个过滤表达式按照或的关系连起来

{m} 前面的字符出现m次

{n,m} 前面的字符出现n-m次

() 将括号内部的匹配聚合成一个整体,当成一次标准字符使用;

shell文本处理工具总结的更多相关文章

  1. Linux shell文本处理工具

    搞定Linux Shell文本处理工具,看完这篇集锦就够了 Linux Shell是一种基本功,由于怪异的语法加之较差的可读性,通常被Python等脚本代替.既然是基本功,那就需要掌握,毕竟学习She ...

  2. Linux Shell 文本处理工具集锦 zz

    内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符 ...

  3. Linux Shell 文本处理工具集锦

    本文将介绍Linux下使用Shell处理文本时最常用的工具:find.grep.xargs.sort.uniq.tr.cut.paste.wc.sed.awk:提供的例子和参数都是最常用和最为实用的: ...

  4. [转] Linux Shell 文本处理工具集锦

    内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符 ...

  5. Linux Shell 文本处理工具集锦(转载)

    内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符 ...

  6. Shell 文本处理工具

    转载自:http://www.cnblogs.com/wish123/p/5540210.html Linux下使用Shell处理文本时最常用的工具: find.grep.xargs.sort.uni ...

  7. Linux Shell 文本处理工具

    Linux下使用Shell处理文本时最常用的工具: find.grep.xargs.sort.uniq.tr.cut.paste.wc.sed.awk: 提供的例子和参数都是最常用和最为实用的: 我对 ...

  8. Linux Shell 文本处理工具集锦--Awk―sed―cut(row-based, column-based),find、grep、xargs、sort、uniq、tr、cut、paste、wc

    本文将介绍Linux下使用Shell处理文本时最常用的工具:find.grep.xargs.sort.uniq.tr.cut.paste.wc.sed.awk:提供的例子和参数都是最常用和最为实用的: ...

  9. Linux Shell 文本处理工具集锦【转】

    转自:http://www.cnblogs.com/me115/p/3427319.html 内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq ...

随机推荐

  1. http协议的发展历史

    在最早的时候,第一个定稿的http协议是http/0.9版本,在这个版本里面,http协议,它的内容,非常非常的简单 只有一个命令,就是GET 对应的就是我们现在经常用到的get请求,post请求,这 ...

  2. Spring Java配置

    Java配置 Java配置是Spring 4.x推荐的配置方式,可以完全替代xml配置:Java配置也是Sping Boot 推荐的配置方式.Java配置是通过@Configuration和@Bean ...

  3. 【转】Mac 程序员的十种武器

    http://chijianqiang.baijia.baidu.com/article/3733 上 在写 Mac 程序员的十个武器之前,我决定先讲一个故事,关于 Mac 和爱情的.(你们不是问 M ...

  4. 动画利器animate.css

    使用过CSS3编写动画的同学一定感叹CSS3的强大,但是也会感到书写的麻烦.每次都要计算动画的各个参数,十分麻烦.有没有一个库能封装一些常用的CSS3动画效果.答案是肯定的,animate.css就是 ...

  5. Win10预览版激活信息

    微软在10月2日零点正式公开了Win10预览版的下载地址,这个时间大家应该逐步开始安装工作了,因此提出下面两个问题的用户特别多,IT之家再稍作告知一下.1.Win10预览版安装密钥是什么?答:NKJF ...

  6. Java开发.gitignore文件包含.iml,.log的看法

    有一个开源项目https://github.com/github/gitignore 主要用来规范所有开发项目的.gitignore文件的编写,基本涵盖了所有的开发语言.开发环境等.今日我向JetBr ...

  7. git和svn的混用

    服务器上的项目是使用svn进行管理的. 本来本地的项目也是通过svn进行管理的,但是后来使用svn的分支功能进行项目的测试/新功能等等时,总是会出现各种各样的问题,遂转投git. 因为git的分支机制 ...

  8. python基础数据类型之字典的操作

    一. 字典的简单介绍字典(dict)是python中唯一的一个映射类型.他是以{ }括起来的键值对组成. 在dict中key是唯一的. 在保存的时候, 根据key来计算出一个内存地址. 然后将key- ...

  9. Docker自学纪实(五) 使用Dockerfile构建php网站环境镜像

    一般呢,docker构建镜像容器的方式有两种:一种是pull dockerhub仓库里面的镜像,一种是使用Dockerfile自定义构建镜像. 很多时候,公司要求的镜像并不一定符合dockerhub仓 ...

  10. javaScript的闭包 js变量作用域

    js的闭包 js的变量作用域: var a=90; //定义一个全局变量 function test(){ a=123; //使用外层的 a变量 } test(); document.write(&q ...