译:Java 中的正则表达式性能概述
原文链接:https://www.baeldung.com/java-regex-performance
作者: baeldung
译者:Darren Luo
1. 概述
在本快速教程中,我们将展示模式匹配引擎是如何工作的。我们还将介绍在 Java 中优化正则表达式的不同方式。
有关正则表达式的的使用介绍,请参阅此文。
2. 模式匹配引擎
java.util.regex 包使用了一种叫做 Nondeterministic Finite Automaton(NFA)(不确定性有穷自动机)的模式匹配引擎。它被认为是不确定的是因为在对给定字符串尝试匹配正则表达式时,输入的每个字符可能针对正则表达式的不同部分进行多次检查。
在后台,上面提到的引擎使用回溯。这种通用算法尝试用尽所有可能性,知道它宣告失败。考虑下面的示例可以更好的理解 NFA:
"tra(vel|ce|de)m"
在输入字符串“travel”时,该引擎首先会查找“tra”并立即找到它。
在这之后,它将从第四个字符开始尝试匹配“vel”。这将匹配上,所以她将继续并尝试匹配”m“。
那将不能匹配,因此,它将回到第四个字符并搜索”ce“。这次将不再匹配,所以它将再次回到第四个位置并尝试匹配”de“。这个字符串耶不能匹配,因此它将返回输入字符串的第二个字符并尝试搜索另一个“tra”。
最后一次失败时,算法将返回失败。
在上面的简单例子里,在尝试将输入字符串和正则表达式匹配时,引擎必须多次回溯。因此,减少回溯次数时非常重要的。
3. 优化正则表达式的方法
3.1 避免重新编译
Java 中的正则表达式被编译为内部数据接口。这个编译时一个耗时的过程。
我们每次调用 String.matches(String regex) 方法时,制定的正则表达式都会重新编译。
if (input.matches(regexPattern)) {
// do something
}
我们可以看到,每次进行条件求值时,正则表达式将被编译。
要进行优化,只能首先编译模式,然后创建一个 Matcher 来查找值中的匹配:
Pattern pattern = Pattern.compile(regexPattern);
for(String value : values) {
Matcher matcher = pattern.matcher(value);
if (matcher.matches()) {
// do something
}
}
上述优化的替代方案时使用相同的 Matcher 示例及其 reset() 方法:
Pattern pattern = Pattern.compile(regexPattern);
Matcher matcher = pattern.matcher("");
for(String value : values) {
matcher.reset(value);
if (matcher.matches()) {
// do something
}
}
由于 Matcher 不是线程安全的情况,我们必须谨慎使用这种变体。在多线程场景中可能存在危险。
总而言之,无论哪种情况,我们都保证在任何时间点都只有一个 Matcher 用例,可以用 reset 来重用它。对于这个例子,重复使用预编译已经足够了。
3.2. 使用替换(Alternation)
正如上一节我们测试的那样,替换使用不当可能会对性能产生影响。最重要的是将选项放置最可能发生的前方,这样能更快的匹配。
此外,我们必须提取提取他们之间的共同模式。下面两个是不一样的:
(travel | trade | trace)
对比:
tra(vel | de | ce)
后一个更快,因为 NFA 将尝试匹配“tra”,如果没找到它,则不会尝试任何替代方案。
3.3. 捕获分组(Group)
每次我们捕获分组时,我们都会遭受一次小规模的惩罚。
如果我们需要在分组里捕获文本,我们应该考虑使用非捕获分组。请用“(?:M)”替代使用“(M)”。
总结
在这篇短文中,我们简要回顾了 NFA 的工作原理。然后,我们通过与扁我们的模式并重用 Matcher 来探索如何优化我们正则表达式的性能。
最后,我们指出我们在使用替换和分组的一些注意事项。
和往常一样,可以在 Github 上找到完整的源代码。
http://www.spring4all.com/article/1479
译:Java 中的正则表达式性能概述的更多相关文章
- 9.JAVA中的正则表达式
一.JAVA中的正则表达式 1.概念:以某种特定的方式描述字符串 1.Java中正则表达式的规则 ? #{0,1}-?有一个-或者没有 \\ #表示一个" ...
- JAVA中的正则表达式--待续
1.关于“\”,在JAVA中的正则表达式中的不同: 在其他语言中"\\"表示为:我想要在正则表达式中插入一个普通的反斜杠: 在Java中“\\”表示为:我想要插入一个正则表达式反斜 ...
- java中使用正则表达式匹配字符串
在Java中使用正则表达式去匹配相应的字符串: String importFileRole = "(import)\\s*[a-zA-Z0-9_<>.]+\\;";// ...
- (转)Java中使用正则表达式的一个简单例子及常用正则分享
转自:http://www.jb51.net/article/67724.htm 这篇文章主要介绍了Java中使用正则表达式的一个简单例子及常用正则分享,本文用一个验证Email的例子讲解JAVA中如 ...
- 【java 正则表达式】记录所有在java中使用正则表达式的情况
本篇记录在java中邂逅正则表达式的所有美丽瞬间.因为在java和js中正则表达式的语法并不一致. 1.匹配字符串中有出现[2.1开头或者&2.1或者&3.1等的] Pattern m ...
- Java中String连接性能的分析【转】
[转]http://www.blogjava.net/javagrass/archive/2010/01/24/310650.html 总结:如果String的数量小于4(不含4),使用String. ...
- java 中使用正则表达式操作字符串
import java.awt.Toolkit; import java.awt.datatransfer.Clipboard; import java.awt.datatransfer.DataFl ...
- java中的正则表达式捕获组与引用的概念
今天群里有个人问,怎样用增则表达式匹配三角形的三边,其实只是要匹配三个数字而已,如 301 402 503 开始认为很简单,我就写了一个 "(([1-9]\\d?)\\s){2}$2&q ...
- Java中String连接性能的分析
总结:如果String的数量小于4(不含4),使用String.concat()来连接String,否则首先计算最终结果的长度,再用该长度来创建一个StringBuilder,最后使用这个String ...
随机推荐
- java面试题06
题目: 数据库 1. 表名:g_cardapply 字段(字段名/类型/长度): g_applyno varchar 8://申请单号(关键字) g_applydate bigint 8://申请日期 ...
- Mac环境下安装node.js、npm、express
一:node.js安转 方法一:下载node.js for Mac 地址: http://nodejs.org/download/ 直接下载 pkg的,双击安装,一路点next,很容易就搞定了. 安装 ...
- BZOJ_2064_分裂_状压DP
BZOJ_2064_分裂_状压DP Description 背景: 和久必分,分久必和... 题目描述: 中国历史上上分分和和次数非常多..通读中国历史的WJMZBMR表示毫无压力. 同时经常搞OI的 ...
- ACM学习历程—HDU2068 RPG的错排(组合数学)
Description 今年暑假杭电ACM集训队第一次组成女生队,其中有一队叫RPG,但做为集训队成员之一的野骆驼竟然不知道RPG三个人具体是谁谁.RPG给他机会让他猜猜,第一次猜:R是公主,P是草儿 ...
- 【LeetCode】091. Decode Ways
题目: A message containing letters from A-Z is being encoded to numbers using the following mapping: ' ...
- Lagom学习 四 CompletionStage
Future: Java 8 之前的 Java 版本功能较弱,仅支持两种用法:要么检查 future 是否已经完成,要么等待 future 完成; Java 8 增加了 CompletableFutu ...
- 你所不知道的html5与html中的那些事(四)——文本标签
文章简介: 关于html5相信大家早已经耳熟能详,但是他真正的意义在具体的开发中会有什么作用呢?相对于html,他又有怎样的新的定义与新理念在里面呢?为什么一些专家认为html5完全完成后 ...
- java 原始类与封装类 的区别
int是java提供的8种原始数据类型之一.Java为每个原始类型提供了封装类,Integer是java为int提供的封装类.int的默认值为0,而Integer的默认值为null,即Integer可 ...
- <c和指针>学习笔记4之字符串
1 字符串基础 NUL字节是字符串的终止符,但它本身并不是字符串的一部分,所以字符串的长度并不包括NUL字节. (1)字符串长度 size_t strlen(char const * string)注 ...
- linux 下 .o 文件, .a文件,.so文件的区别
最近在unbuntu环境下开发代码,由于很少使用linux开发环境,所以对linux编译方面了解更少,关于.o, .a, .so文件和可执行文件一直很困惑 今天特意查了一下关于它们的区分: .o 就相 ...