摘要:第三章讨论的是编写Shell脚本时经常用到的两个基本操作。第四章总共介绍了约30种处理文本文件的好用工具。

第三章 查找与替换

概括:本章讨论的是编写Shell脚本时经常用到的两个基本操作:文本查找、文本替换。

3.1  查找文本

如需从输入的数据文件中取出特定的文本行,主要的工具为grep程序。POSIX采用三种不同grep变体:grep、egrep、fgrep整合为单个版本,通过不同的选项,分别提供这三种行为模式。
who | grep -F root
上面使用-F选项,以查找固定字符串root。事实上,只要匹配的模式里未含有正则表达式的meta字符,则grep默认行为模式就等同于使用了-F。

3.2  正则表达式

POSIX的正则表达式有两种,基本正则表达式(BRE)以及扩展正则表达式(ERE)。
sed是处理简单字符串替换的主要工具。
在某些程序语言里,单个字符串可能包含数行,那种情况下,^与$指的分别是字符串的开头与结尾。
正则表达式匹配范例:
表达式 匹配
tolstoy 位于一行上任何位置的7个字母:tolstoy
^tolstoy 7个字母tolstoy,出现在一行的开头
tolstoy$ 7个字母tolstoy,出现在一行的结尾
^tolstoy$ 正好包括tolstoy这7个字母的一行,没有其他的任何字符
[Tt]olstoy 在一行上的任意位居中,含有Tolstoy或是tolstoy
tol.toy 在一行上的任意位居中,含有tol这3个字母,加上任何一个字符,再接着toy这三个字母
tol.*toy 在一行上的任意位居中,含有tol这3个字母,加上任意的0或多个字符,再继续toy这三个字母

区间表达式匹配规则:
\{n\} 前置正则表达式所得结果重现n次
\{n,\} 前置正则表达式所得结果重现至少n次
\{n,m\} 前置正则表达式所得结果重现n至m次

在s命令里以g结尾表示的是,全局性。如:
$ echo Tolstoy reads well. Tolstoy writes well. >example.txt 输入样本
$ sed 's/Tolstoy/Camus/' < example.txt 没有设置g
Camus reads well. Tolstoy writes well.
$ sed 's/Tolstoy/Camus/g'< example.txt 设置了'g'
Camus reads well. Camus writes well.
$sed 's/Tolstoy/Camus/2' < example.txt 仅替代第二个匹配者
Tolstoy reads well.Camus writes well.

sed -n '10,42p' foo.xml 仅打印10-42行

3.3  字段处理

cut命令用以剪下选定的字符范围或字段,join则是用来结合记录中具有共同键值的字段的文件。
awk多半用于简单的“命令行程序”,当想要只显示选定的字段,或是重新安排行内的字段顺序时,就是awk派上用场的时候了。

awk '{ print $1}' file 打印第一个字段
awk '{ print $2,$5}' file 打印第2与第5个字段
awk '{ print $1,$NF}' file 打印第一个与最后一个字段
awk 'NF>0 {print $0}' file 打印非空行
awk 'NF>0' file 同上
awk -F '\t' '{if($8==2){print }}' 打印第8列为2的行

第四章 文本处理工具

摘要:本章总共介绍了约30种处理文本文件的好用工具。它们都是功能很强的工具组,可用来编写Shell脚本。

4.1  排序文本

sort -t: -k1,1 file 以冒号隔开的第一个字段进行排序
sort -t: -k2nr,2 file 从字段2起始处开始,以数值类型反向排序并结束于字段3的结尾
sort -t: -k2n -k3n file 先以第二列排序,在以第三列排序
sort -t: -k2n -u file 输出键值字段匹配的唯一记录

4.2  删除重复

sort file |uniq 显示唯一的排序后的记录
sort file |uniq -c 计数唯一的排序后的记录
sort file |uniq -d 仅显示重复的记录
sort file |uniq -u 仅显示未重复的记录

4.3  重新格式化段落

fmt -s -w 10 file               长度大于10的行格式化为短的行

4.4  计算行数、字数以及字符数

echo hello wrold |wc 计算行数、字数、字节数
echo hello world |wc -c 计算字节数
echo hello world |wc -l 计算行数
echo hello world |wc -w 计算字数
wc file1 file2 计算两个文件里的数据

4.5  打印

4.6  提取开头或结尾数行

head -n file 输出文件的前n行
tail -n file 输出文件的后n行

Shell脚本学习指南 [ 第三、四章 ] 查找与替换、文本处理工具的更多相关文章

  1. Shell脚本学习指南 [ 第一、二章 ] 背景知识、入门

    摘要:第一章介绍unix系统的发展史及软件工具的设计原则.第二章介绍编译语言与脚本语言的区别以及两个相当简单但很实用的Shell脚本程序,涵盖范围包括了命令.选项.参数.Shell变量.echo与pr ...

  2. 笔记——shell脚本学习指南

    <shell脚本学习指南>机械工业出版 ISBN 987-7-111-25504-8 第2章 2.4 初级陷阱 1.当今的系统,对#!这一行的长度限制从63到1024个字符都有,尽量不要超 ...

  3. 转 shell脚本学习指南

    shell脚本学习指南 以下八点不敢说就能成为你shell脚本学习指南de全部,至少可以让你编写出可靠的shell脚本. 1. 指定bashshell 脚本的第一行,#!之后应该是什么?如果拿这个问题 ...

  4. Shell脚本学习指南笔记

    Shell脚本学习指南 作者:Danbo 2015-8-3 脚本编程语言与编译型语言的差异 许多中型.大型的程序都是用编译型语言写的,例如:C.C+.Java等.这类程序只要从源代码(Source C ...

  5. 学习笔记之Shell脚本学习指南 & sed与awk & 正则表达式

    正则表达式_百度百科 http://baike.baidu.com/link?url=ybgDrN2WQQKN64_gu-diCqdeDqL8LQ-jiQ-ftzzPaNUa9CmgBRDNnyx50 ...

  6. 《Shell脚本学习指南》书籍目录

    摘要:Shell脚本与Windows/Dos下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的.但是它比Windows下的批处理更 ...

  7. 《shell脚本学习指南》学习笔记之入门

    为什么要使用shell脚本? shell脚本能够轻易处理文件与目录之类的对象,而且是各UNIX系统之间经过POSIX标准化的通用的功能,因此Shell脚本只要“用心写”一次,即可应用到很多系统上,因此 ...

  8. shell脚本学习指南-学习(1)

    1.先看下面这个命令: $who  | wc  -l  计算当前登陆的用户个数: $who   当前登陆的有哪些用户: pipeling(   |  )可以在两个程序之间建立管道,左侧的结果成为右侧的 ...

  9. Shell脚本学习指南笔记(一)

    脚本语言通常是解释型的,这类程序的运行.是由解释器读入程序代码,并将其转换成内部的形式, 再执行,解释器本身是一般的编译型程序. 第一行的开头处使用#!这两个字符,当内核扫描到改行的其余部分,看是否存 ...

随机推荐

  1. this/super/static/final/匿名对象/继承/抽象类/访问权限修饰符

    1.this关键字的作用     1)调用本类中的属性;     2)调用本类中的构造方法;且只能放首行,且必须留一个构造方法作为出口,即不能递归调用     3)表示当前对象; 2.匿名对象     ...

  2. 基于H5+ API手机相册图片压缩上传

    // 母函数 function App(){} /** * 图片压缩,默认同比例压缩 * @param {Object} path * pc端传入的路径可以为相对路径,但是在移动端上必须传入的路径是照 ...

  3. moment算本月开始日期和结束日期

    moment算本月开始日期和结束日期 1.引入moment.js var vStartDate=new moment().add('month',addMonth).format("YYYY ...

  4. vijos 1034 家族(水题日常)

    描述 若某个家族人员过于庞大,要判断两个是否是亲戚,确实还很不容易,现在给出某个亲戚关系图,求任意给出的两个人是否具有亲戚关系. 规定:x和y是亲戚,y和z是亲戚,那么x和z也是亲戚.如果x,y是亲戚 ...

  5. The Singapore NRIC Check Digit

    The Singapore NRIC number is made up of 7 digits and a letter behind. This letter is calculated from ...

  6. 一、numpy入门

    Array import numpy as np # create from python list list_1 = [1, 2, 3, 4] array_1 = np.array(list_1)# ...

  7. java B转换KB MB GB TB PB EB ZB

    public static String readableFileSize(long size) { if (size <= 0) { return "0"; } final ...

  8. selenium-浏览器操作方法

    前戏 浏览器都有哪些方法呢?最大化,设置浏览器窗口的大小,刷新,前进,后退等等,让我们来一一介绍 获取网站titie from selenium import webdriver from time ...

  9. Bootstrap历练实例:响应式导航栏

    响应式的导航栏 为了给导航栏添加响应式特性,您要折叠的内容必须包裹在带有 classes .collapse..navbar-collapse 的 <div> 中.折叠起来的导航栏实际上是 ...

  10. shell脚本,awk 匹配的做修改后打印,不匹配的打印。

    文件file内容如下a 1a 2b 3b 4 b 5c 6c 7 要求:第一列匹配b时,如果第二列大于3,那么将第二列加上1后打印,其余的原封不动打印.结果如下: a 1a 2b 3b 5 b 6c ...