自学Linux Shell17.1-正则表达式
17.1-正则表达式
1. 正则表达式概念
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。规定一些特殊语法表示字符类、数量限定符和位置关系,然后用这些特殊语法和普通字符一起表示一个模式,这就是正则表达式(Regular Expression)。
使用原因:
- 程序设计过程中不可避免的遇到处理某些文本情况,有时候要查找符合某些比较复杂规则的字符串。正则表达式以非常简单的代码完成。
- Linux实用程序在输入数据时,将正则表达式模式和数据进行匹配。如果数据与模式一致,它接受处理(称作“匹配”)。如果数据与模式不一致,就拒绝(称作“过滤”)。
正则表达式是通过正则表达式引擎regular expression engine实现的。正则表达式引擎值是一套底层软件,负责解释正则表达式模式并使用这些模式进行文本匹配。
在linux系统中,比较流行的正则表达式引擎有两种:
- POSIX基础正则表达式引擎BRE
- POSIX扩展正则表达式引擎ERE
linux系统不同应用可以使用不同类型的正则表达式:
- 编程语言java 、perl 、python
- linux实用使用工具sed编辑器 、gawk程序、 grep工具
- 主流应用mysql、 PostgreSQL
常见的支持正则表达式的UNIX工具:
- grep命令族:用于匹配文本行
- sed流编辑器:用于改变输入流 (只符合BRE规范的子集)
- gawk程序:用于处理字符串的语言
- more或者less等:文件查看程序
- ed,vi或者vim等:文本编辑器
2. 正则表达式主要组成
- 字符类(Character Class)
- 数量限定符(Quantifier):
- 位置限定符(Anchor):描述各种字符类以及普通字符之间的位置关系
2.1 字符类
字符类(Character Class):在模式中表示一个字符,但是取值范围是一类字符中的任意一个。
. 用来匹配除换行符之外的的任意单个字符, 它必须匹配一个字符,如果在.字符的位置没有字符,那么模式不成立。(空格也是字符)
- "s..d" 匹配在s和d这两个字母之间一定有两个字符的单词
- "s.*d" 匹配在s和d字母之间有任意字符
- ".*" 匹配所有内容
[ ]包含出现在所有该字符组中的字符,可以在单个表达式中使用多个字符组,字符组可以使字符也可以是数字。
- " [aeiou ]" 匹配任意一个元音字母,
- " [0-9] " 匹配任意一位数字,
- " [a-z][0-9] " 匹配小写字母和一位数字构成的两位字符。
- " s[ao]id " 匹配s和i字母中,要么是a,要么是o
- " ^[a-z] " 匹配小写字母开头的行
- " [^0-9] " 匹配任意一位非数字字符,
- " [^a-z] " 表示任意一位非小写字母
- " ^[^a-z] " 匹配不是小写字母开头的行
- " ^[^a-zA-Z] " 匹配不是字母开头的行
- 在[ ]号内使用表示字符范围。
^ 脱字符定义从数据流文本行的行首开始的模式。如果模式出现在行首之外的位置,正则表达式模式则无法匹配。
- "^hello" 匹配以hello开头的行
- "^M" 匹配以大写“M”开头的行
- "[^0-9]" 匹配任意一位非数字字符,
- "[^a-z]" 表示任意一位非小写字母
- "^[^a-z]" 匹配不是小写字母开头的行
- "^[^a-zA-Z]" 匹配不是字母开头的行
[ [ :xxxx:] ] BRE特殊字符组,用来匹配特定类型的字符。
2.2 数量限定符
数量限定符(Quantifier): 每一部分可以有一个或多个x字符
2.3 位置限定符
位置限定符(Anchor):描述各种字符类以及普通字符之间的位置关系
2.4 其他特殊定符
3. 正则表达式分类
- 基本的正则表达式(Basic Regular Expression 又叫Basic RegEx 简称BREs)
- 扩展的正则表达式(Extended Regular Expression 又叫Extended RegEx 简称EREs)
- Perl的正则表达式(Perl Regular Expression 又叫Perl RegEx 简称PREs)
- Python的正则表达式(Python Regular Expression 又叫Perl RegEx 简称PREs) 等
自学Linux Shell17.1-正则表达式的更多相关文章
- 自学Linux命令行与Shell脚本之路
自学Linux命令行与Shell脚本之路[第一回]:初识Linux 1.1 自学Linux Shell1.1-Linux初识 1.2 自学Linux Shell1.2-Linux目录结构 1.3 ...
- 自学Linux Shell9.3-基于Red Hat系统工具包:RPM属性依赖的解决方式-YUM在线升级
点击返回 自学Linux命令行与Shell脚本之路 9.3-基于Red Hat系统工具包:RPM属性依赖的解决方式-YUM在线升级 本节主要介绍基于Red Had的系统(测试系统centos) yum ...
- 自学Linux Shell18.1-sed编辑器基础特性
点击返回 自学Linux命令行与Shell脚本之路 18.1-sed编辑器基础特性 linux世界中最广泛使用的两个命令行编辑器: sed gawk 1. sed概念 sed是stream edito ...
- 自学Linux Shell18.2-sed编辑器高级特性
点击返回 自学Linux命令行与Shell脚本之路 18.2-sed编辑器高级特性 linux世界中最广泛使用的两个命令行编辑器: sed gawk 1. sed小结 命令格式: 1 sed [opt ...
- 自学Linux Shell19.2-gawk程序高级特性
点击返回 自学Linux命令行与Shell脚本之路 19.2-gawk程序高级特性 linux世界中最广泛使用的两个命令行编辑器: sed gawk 1. gawk使用变量 编程语言共有的特性是使用变 ...
- 自学Linux Shell1.1-Linux初识
点击返回 自学Linux命令行与Shell脚本之路 1.1-Linux初识(架构.内核.shell) 1. Linux架构 Linux系统一般有4个主要部分:内核.shell.文件系统和应用程序.(有 ...
- 自学Linux Shell1.2-Linux目录结构
点击返回 自学Linux命令行与Shell脚本之路 1.2-Linux目录结构 /: 根目录,一般根目录下只存放目录,不要存放文件,/etc./bin./dev./lib./sbin应该和根目录放置 ...
- 自学Linux Shell1.3-Linux文件系统
点击返回 自学Linux命令行与Shell脚本之路 1.3-Linux文件系统 文件系统是文件存放在磁盘等存储设备上的组织方法.Linux系统能支持多种目前流行的文件系统,如EXT2. EXT3. F ...
- 自学Linux Shell2.1-进入shell命令行
点击返回 自学Linux命令行与Shell脚本之路 2.1-进入shell命令行 进入文本命令行界面(CLI)两种方法: 控制台终端 图形化终端 1. 通过Linux控制台终端访问CLI 按下Ctrl ...
随机推荐
- 使用HashSet<>去除重复元素的集合
比如,某一个阵列中,有重复的元素,我们想去除重复的,保留一个.HashSet<T>含不重复项的无序列表,从MSDN网上了解到,这集合基于散列值,插入元素的操作非常快. 你可以写一个方法: ...
- socket、tcp、udp、http 的认识及区别
一.先来一个讲TCP.UDP和HTTP关系的 1.TCP/IP是个协议组,可分为三个层次:网络层.传输层和应用层. 在网络层有IP协议.ICMP协议.ARP协议.RARP协议和BOOTP协议. 在传输 ...
- Git的学习与使用
Git使用教程 一:Git是什么? Git是目前世界上最先进的分布式版本控制系统. 二:SVN和Git最主要的区别? SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自 ...
- Python-dict-12
字典 Why:咱们目前已经学习到的容器型数据类型只有list,那么list够用?他有什么缺点呢? 1. 列表可以存储大量的数据类型,但是如果数据量大的话,他的查询速度比较慢. 2. 列表只能按照顺序存 ...
- 对于windows 10使用感受
windows 10是美国微软公司研发的新一代跨平台及设备应用的操作系统.在2015年7月29日12点起,windows 10推送全面开始,windows 7.windows 8 用户可以升级到win ...
- 读《移山之道——VSTS软件开发指南》
读<移山之道>这本书差不多用了一个星期的时间,感觉还是收获了一些知识的,以前只是会简单地编个小程序(虽然现在也是这样),但看过这本书之后我对软件开发这个概念的认识度有了从一片模糊到了解大体 ...
- Linux内核分析— —扒开系统调用的三层皮(上)
实验部分 根据系统调用表,选取一个系统调用.我选得是mkdir这个系统调用,其系统调用号为39,即0x27 由于mkdir函数的原型为int mkdir (const char *filename, ...
- 20135337——linux第四次实践:字符集总结与分析
ASCII & GB2312 & UTF-8 ASCII 主要用于显示现代英语和其他西欧语言.它是现今最通用的单字节编码系统,并等同于国际标准ISO 646: 7位(bits)表示一个 ...
- ChangeSort
package com.home.test; import java.util.Arrays; public class ChangeSort { public String[] changeLoca ...
- 使用Java+Kotlin双语言的LeetCode刷题之路(三)
BasedLeetCode LeetCode learning records based on Java,Kotlin,Python...Github 地址 序号对应 LeetCode 中题目序号 ...