Java正则表达式详细解析
元字符
- 正则表达式使用一些特定的元字符来检索、匹配和替换符合规则的字符串
- 元字符:普通字符、标准字符、限定字符(量词)、定位字符(边界字符)
正则表达式引擎
- 正则表达式是一个用正则符号写出来的公式
- 程序对正则表达式进行语法分析,建立语法分析树
- 再根据语法分析树结合正则表达式引擎生成执行程序(状态机),用于字符匹配
- 正则表达式引擎是一套核心算法,用于建立状态机
- 小结
- 正则表达式 => 语法分析树
- 语法分析树 + 正则表达引擎 => 状态机 => 用于字符匹配
- 目前实现正则表达式引擎的方式有两种
- DFA自动机(Deterministic Finite Automaton,确定有限状态自动机)
- NFA自动机(Nondeterministic Finite Automaton,非确定有限状态自动机)
- DFA自动机的构造代价远大于NFA自动机,但DFA自动机的执行效率高于NFA自动机
- 假设一个字符串的长度为n,如果采用DFA自动机作为正则表达式引擎,则匹配的时间复杂度为O(n)
- 如果采用NFA自动机作为正则表达式引擎,NFA自动机在匹配过程中存在大量的分支和回溯,假设NFA的状态数为s,
- 则匹配的时间复杂度为O(ns)
- NFA自动机的优势是支持更多高级功能,但都是基于子表达式独立进行匹配
- 因此在编程语言里,使用的正则表达式库都是基于NFA自动机实现的
NFA自动机
匹配过程
- NFA自动机会读取正则表达式的每一个字符,拿去和目标字符串匹配
- 匹配成功则换正则表达式的下一个字符,反之就继续就和目标字符串的下一个字符进行匹配
text="aabcab"
regex="bc"
回溯
- 用NFA自动机实现的比较复杂的正则表达式,在匹配过程中经常会引起回溯问题
- 大量的回溯会长时间占用CPU,从而带来系统性能开销
text="abbc"
regex="ab{1,3}c"
读取正则表达式第一个匹配符a和字符串第一个字符a进行比较,a对a,匹配
读取正则表达式第二个匹配符b{1,3}和字符串的第二个字符b进行比较,匹配,但b{1,3}表示1~3个字符,而NFA自动机具有贪婪特性,所以不会读取正则表达式的下一个匹配符c
使用b{1,3}和字符串的第四个字符c进行比较,发现不匹配,此时就会发生回溯,已经读取的字符串第四个字符c将被吐出去,指针回到第三个字符b的位置
发生回溯后,读取正则表达式的下一个匹配符c,和字符串的第四个字符c进行比较,结果匹配
避免回溯
避免回溯的方法:使用懒惰模式和独占模式
贪婪模式(Greedy)
- 在数量匹配中,如果单独使用+、?、*、{min,max}等量词,正则表达式会匹配尽可能多的内容
- text="abbc" , regex="ab{1,3}c",发生了一次匹配失败,就会引起一次回溯
- text="abbbc" , regex="ab{1,3}c",匹配成功
懒惰模式(Reluctant)
- 在懒惰模式下,正则表达式会尽可能少地重复匹配字符,如果匹配成功,会继续匹配剩余的字符串
- 使用?开启懒惰模式,text="abc" , regex="ab{1,3}?c"
- 匹配结果是"abc",在该模式下NFA自动机首先选择最小的匹配范围,即匹配1个b字符,避免了回溯问题
独占模式(Possessive)
- 和贪婪模式一样,独占模式一样会最大限度地匹配更多内容,但在匹配失败时会结束匹配,不会发生回溯问题
- 使用+开启懒惰模式,text="abbc" , regex="ab{1,3}+bc"
- 结果是不匹配,结束匹配,不会发生回溯问题
代码
match("ab{1,3}c", "abbc"); // abbc,贪婪模式,产生回溯
match("ab{1,3}c", "abbbc"); // abbbc,贪婪模式,不产生回溯
match("ab{1,3}?", "abbbb"); // ab,懒惰模式,不产生回溯
match("ab{1,3}+bc", "abbc"); // null,独占模式,不产生回溯
正则表达式的优化
- 少用贪婪模式,多用独占模式(避免回溯)
- 减少分支选择,分支选择类型"(X|Y|Z)"的正则表达式会降低性能,尽量减少使用,如果一定要使用
- 考虑选择的顺序,将比较常用的选择放在前面,使它们可以较快地被匹配
- 提取共用模式,(abcd|abef) => ab(cd|ef)
- 如果是简单的分支选择类型,可以用三次index代替(X|Y|Z)
- 减少捕获嵌套
- 捕获组:把正则表达式中,子表达式匹配的内容保存到以数字编号或显式命名的数组中,一般一个()就是一个捕获组
- 每个捕获组都有一个编号,编号0代表整个匹配到的内容
- 非捕获组:参与匹配却不进行分组编号的捕获组,其表达式一般由(?:exp)组成
- 减少不需要获取的分组,可以提高正则表达式的性能
捕获组
String text = "<input high=\"20\" weight=\"70\">test</input>";
String reg = "(<input.*?>)(.*?)(</input>)";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(text);
while (m.find()) {
System.out.println(m.group(0));// 整个匹配到的内容
System.out.println(m.group(1));//(<input.*?>)
System.out.println(m.group(2));//(.*?)
System.out.println(m.group(3));//(</input>)
// 输出:
// <input high="20" weight="70">test</input>
// <input high="20" weight="70">
// test
// </input>
}
非捕获组
String text = "<input high=\"20\" weight=\"70\">test</input>";
String reg = "(?:<input.*?>)(.*?)(?:</input>)";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(text);
while (m.find()) {
System.out.println(m.group(0));// 整个匹配到的内容
System.out.println(m.group(1));//(.*?)
// 输出
// <input high="20" weight="70">test</input>
// test
}
小结
在做好性能测试的前提下,可以使用正则表达式,否则能不用就不用,避免造成更多的性能问题.
文章的话到这里就结束了,希望大家在性能测试中,对正则表达式有自己的认识。今日的性能篇到此结束!
需要更多源码视频,面试题,Java技术书籍等学习资料的
可以关注我哦!加群772300343即可获取!
我是小架,我们下篇文章见!
Java正则表达式详细解析的更多相关文章
- java正则表达式详细总结
Java 提供了功能强大的正则表达式API,在java.util.regex 包下.本教程介绍如何使用正则表达式API. 正则表达式 一个正则表达式是一个用于文本搜索的文本模式.换句话说,在文本中搜索 ...
- Java 正则表达式详细使用
Java 正则表达式 java.util.regex.Pattern java.util.regex.Matcher 1.Matchmatch 是从字符串最头部开始匹配,一直到结束,需要匹配整个串 S ...
- Java 正则表达式详细实例解析
案例1:判断字符串是否是abc package Regex; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * ...
- java容器详细解析
前言:在java开发中我们肯定会大量的使用集合,在这里我将总结常见的集合类,每个集合类的优点和缺点,以便我们能更好的使用集合.下面我用一幅图来表示 其中淡绿色的表示接口,红色的表示我们经常使用的类. ...
- WeakHashMap和Java引用类型详细解析
WeakHashMap是种弱引用的HashMap,这是说,WeakHashMap里的key值如果没有外部强引用,在垃圾回收之后,WeakHashMap的对应内容也会被移除掉. 1.1 Java的引用类 ...
- java容器详细解析(转)
:在java开发中我们肯定会大量的使用集合,在这里我将总结常见的集合类,每个集合类的优点和缺点,以便我们能更好的使用集合.下面我用一幅图来表示 其中淡绿色的表示接口,红色的表示我们经常使用的类. 1: ...
- JAVA 正则表达式 (超详细)
(PS:这篇文章为转载,我不喜欢转载的但我觉得这篇文章实在是超赞了,就转了过来,这篇可以说是学习JAVA正则表达的必读篇.作者是个正真有功力的人,阅读愉快) 在Sun的Java JDK 1.40版本中 ...
- 转载:JAVA 正则表达式 (超详细)
在Sun的JavaJDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用Java.util.regex包. 可粗略估计一下,除了偶尔用Linux的外,其他Linu x ...
- java类生命周期详细解析
(一)详解java类的生命周期 引言 最近有位细心的朋友在阅读笔者的文章时,对java类的生命周期问题有一些疑惑,笔者打开百度搜了一下相关的问题,看到网上的资料很少有把这个问题讲明白的,主要是因为目前 ...
随机推荐
- go语言之面向对象
Go 语言结构体 Go 语言中数组可以存储同一类型的数据,但在结构体中我们可以为不同项定义不同的数据类型. 结构体是由一系列具有相同类型或不同类型的数据构成的数据集合. 结构体表示一项记录,比如保存图 ...
- ETCD:系统限制
原文地址:System limits 请求大小限制 etcd被设计用来处理小键值对典型的如元数据.较大的请求数据也起作用,但可能会增加其他请求的延迟.默认情况下,任意的请求最大的空间为1.5MiB,这 ...
- sql server报【将截断字符串或二进制数据】错误
会出现这个错误的原因是因为表设置的列长度小于要插入的数据的长度. 可以从下列的6个方面去排查: 1.表设置的列名长度太短. 2.插入的数据太长. 3.有默认值. 4.有触发器. 5 从char数据类型 ...
- 在 Linux 下学习 C 语言有什么好处?
作者:宅学部落链接:https://www.zhihu.com/question/23893390/answer/832610610来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请 ...
- 硬盘容量统计神器WinDirStat
最近遇到C盘快要爆满的问题,我的笔记本是128G SSD + 1t HDD,给C盘分配的空间是80G固态,由于平时疏远管理,造成了C盘臃肿,迁移一些软件,但还是没有太好的解决,这是上知乎发现有大神推荐 ...
- Windows7中启动Mysql服务时提示:拒绝访问的一种解决方式
场景 在Windows7中打开任务管理器--服务下 找到mysql的服务点击启动时提示: 拒绝访问 这是因为权限不够导致的不能启动sql服务. 点击 任务管理器右下角的服务 在这里就可以正常启动服务
- JS If...Else
JS If...Else 条件语句用于基于不同的条件来执行不同的动作. 条件语句 通常在写代码时,您总是需要为不同的决定来执行不同的动作.您可以在代码中使用条件语句来完成该任务. 在 JavaScri ...
- 如何判断Linux系统安装在VMware上?
如何判断当前Linux系统是否安装在VMware上面呢? 因为公司大部分服务器位于VMware上,也有小部分系统部署在物理机上面.今天老大要求统计一下VMware和物理机上服务器的数量,个人简单测试. ...
- Shell—各种括号的用法
括号的种类 小括号,圆括号 ( ) 中括号,方括号 [ ] 大括号.花括号 { } 一.单小括号 () 1.另开命令组——小括号中的命令将会新开启一个子shell独立顺序运行,所以括号中的变量不能够被 ...
- Python机器学习笔记——One Class SVM
前言 最近老板有一个需求,做单样本检测,也就是说只有一个类别的数据集与标签,因为在工厂设备中,控制系统的任务是判断是是否有意外情况出现,例如产品质量过低,机器产生奇怪的震动或者机器零件脱落等.相对来说 ...