问题与分析

某天领导report了一个问题:线上的CPU自从上一个版本迭代后就一直处于居高不下的状况,领导看着这段时间的曲线图判断是有两条线程在不停的死循环。

接到任务后去查看了AWS的CloudWatch,发现线上CPU确实一直居高不下,使用率基本是之前的两倍;另外发现线程使用率以比之前频繁很多。后来公司的大佬拿到dump后经过分析发现,是由正则表达式造成的CPU持续高使用率的问题。

堆栈信息如下:

at java.util.regex.Pattern$Loop.match(Pattern.java:4787)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4719)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4281)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4274)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$GroupCurly.match0(Pattern.java:4487)
at java.util.regex.Pattern$GroupCurly.match(Pattern.java:4407)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4274)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4660)
at java.util.regex.Pattern$Loop.match(Pattern.java:4787)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4719)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4281)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4274)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$GroupCurly.match0(Pattern.java:4487)
at java.util.regex.Pattern$GroupCurly.match(Pattern.java:4407)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4274)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4660)
at java.util.regex.Pattern$Loop.match(Pattern.java:4787)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4719)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4274)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4274)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$GroupCurly.match0(Pattern.java:4487)
at java.util.regex.Pattern$GroupCurly.match(Pattern.java:4407)
at java.util.regex.Pattern$Curly.match0(Pattern.java:4274)
at java.util.regex.Pattern$Curly.match(Pattern.java:4236)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4660)
at java.util.regex.Pattern$Loop.matchInit(Pattern.java:4803)
at java.util.regex.Pattern$Prolog.match(Pattern.java:4743)
at java.util.regex.Pattern$GroupCurly.match0(Pattern.java:4487)
at java.util.regex.Pattern$GroupCurly.match(Pattern.java:4407)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4719)
at java.util.regex.Pattern$BranchConn.match(Pattern.java:4570)
at java.util.regex.Pattern$BmpCharProperty.match(Pattern.java:3800)
at java.util.regex.Pattern$Branch.match(Pattern.java:4606)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4660)
at java.util.regex.Pattern$Start.match(Pattern.java:3463)
at java.util.regex.Matcher.search(Matcher.java:1248)
at java.util.regex.Matcher.find(Matcher.java:637)
at com.core.cbx.mybatis.plugin.sql.TableAliasParseInjector.getTableAlias(TableAliasParseInjector.java:48)

还是第一次知道正则表达式也会引发这种问题,网上查了下资料,原来有不少人也遇到同样的问题。而这个问题,是由正则表达式的灾难性回溯(Catastrophic Backtracking),或者说回溯陷阱造成的。

另外,可以发现在jdk的JIRA里也有人提出了这个issue,不过目前依然还没有解决这个bug,下面是官方的issue链接:StackOverflowError in java.util.regex.Pattern

引擎与回溯

这里引用下一位老哥的原文,简单介绍下正则表达式的引擎和回溯机制。

正则引擎主要可以分为基本不同的两大类:一种是DFA(确定型有穷自动机),另一种是NFA(不确定型有穷自动机)。简单来讲,NFA 对应的是正则表达式主导的匹配,而 DFA 对应的是文本主导的匹配。

DFA从匹配文本入手,从左到右,每个字符不会匹配两次,它的时间复杂度是多项式的,所以通常情况下,它的速度更快,但支持的特性很少,不支持捕获组、各种引用等等;而NFA则是从正则表达式入手,不断读入字符,尝试是否匹配当前正则,不匹配则吐出字符重新尝试,通常它的速度比较慢,最优时间复杂度为多项式的,最差情况为指数级的。但NFA支持更多的特性,因而绝大多数编程场景下(包括java,js),我们面对的是NFA。

Java的正则表达式引擎用的是NFA算法,在根据正则表达式来匹配文本时,拥有回溯机制。在遇到以下字符时就有可能发生回溯:

  1. ?
  2. +
  3. *
  4. {min, max}

以上四种默认是贪婪模式去匹配文本,也就是说,会尽可能多地去匹配更多的字符。在这个匹配的过程中,必然会一次次地匹配文本,一直到匹配不上时,才会回溯一次,重新用正则表达式的下一个字符去匹配回溯之前匹配不上的文本。

这里说的比较抽象,有兴趣的可以自行搜索下正则表达式的回溯以及贪婪模式、懒惰模式(也叫勉强模式)和独占模式(也叫侵占模式),下面附上一篇图文并茂的文章:正则表达式三种模式:贪婪模式、懒惰模式、独占模式

总之,简单地说,由于正则表达式的回溯,如果我们的正则表达式写得不够好,并且被匹配的字符串文本又非常长,就有可能大量触发回溯,导致CPU飙升,甚至是堆栈溢出。这也就是所谓的灾难性回溯,或者说回溯陷阱。

这里还是拿上面文章里的例子来举例:为了校验马来西亚的商店名字,写了如下一条正则表达式:

^([A-Za-z0-9._()&'\\- ]|[aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ])+$

这就是一个很简单的^()+$结构,由于校验允许使用英文字母大小写、数字、越南文和一些特殊字符如“&”,“-”,“_”等,于是直接把这些字符都塞到[]里,然后为了方便观看把越南文特地抽出来塞到另一个[]里,最后把这两个[]|拼接起来。

看上去非常简单的结构,但却会在线上时不时引发CPU过高的问题,可以用下面的测试类简单跑一下看看:

import java.util.regex.Matcher;
import java.util.regex.Pattern; public class Test { private static final String REGEX_TABLE_ALIAS = "^([A-Za-z0-9._()&'\\- ]|[aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ])+$"; public static void main(final String[] args) {
final String string = "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa!";
final Pattern pattern = Pattern.compile(REGEX_TABLE_ALIAS);
final Matcher matcher = pattern.matcher(string);
final boolean result = matcher.find();
System.out.println(result);
}
}

你会发现,当在校验这个aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa!字符串时,竟然无法立刻打印出校验结果,需要等待相当长的一段时间。如果把这个字符串改成这个,!aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa,就可以秒出结果。

这两个字符串是一样长,区别仅仅是!在首位和末位而已,但在校验时花费的时间却完全不同,原因是!是非法字符,但在末位时,会触发大量回溯,如果这个字符串文本有数百位,上千位,就很有可能会发生堆栈溢出。

原文作者的解决方法是把原来的正则表达式改为独占模式,也就是在+后加上+,将^()+$结构变成^()++$结构。这种做法我认为其实不太好,独占模式也是会尽可能地匹配更多的字符,但是却不会发生回溯,如果正则表达式写得不好,就可能会校验漏。

其实有个更好的改法,就是单纯把原来的表达式里的两个[]合并成一个[],如下:

^([A-Za-z0-9._()&'\\- aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ])+$

这时候再去跑上面的测试类,你会发现在校验上面的两个字符串文本时,都可以秒出校验结果。原因是新的表达式减少了回溯的机会,相当于把Java里连续多个if语句给合并成一个了,这样就减少了分支,自然就降低了灾难性回溯的可能性。

具体案例与解决方案

上面是其他人遇到的案例,这里说下博主遇到的case以及最终的解决方案。在系统中我们用的是自己魔改过的mybatis,其中有个正则表达式是用来获取sql中的表别名的,如下:

(FROM|JOIN|,)(\\s)+([A-Z0-9_]+(\\s)+[A-Z0-9_]+(,| )*)+(\\s)+(JOIN|WHERE|INNER|LEFT|OUTER|ON|ORDER)

这个本来一直都没有问题,直到前段时间系统迭代后,有客户在页面上搜索了一段比较长的字符串。这个搜索的操作其实就是向db发出一条sql,用来模糊查询若干个字段是否含有用户搜索的这段字符串。然后在组装这条sql的时候,会使用到上述的正则表达式来获取表别名,具体组装逻辑这里就不说了。最后组装成的sql比较长,大概一万多个字符(已经简化过了)。之所以这么长,是因为我们会拿用户输入的字符串去挨个模糊查询数据表里的很多个字符类型的列,也就是说,会有大量的like '%xxxx%'的部分。

当这条很长的sql被上述的正则表达式匹配时,就会发生灾难性回溯,导致系统长时间假死。这里就不贴出来具体的sql了,就简单分析下上述正则表达式存在什么问题。

表达式分成了三块部分,第一部分是(FROM|JOIN|,)(\\s)+,第二部分是([A-Z0-9_]+(\\s)+[A-Z0-9_]+(,| )*)+,第三部分是(JOIN|WHERE|INNER|LEFT|OUTER|ON|ORDER)。这个很好理解,就是简单匹配下表别名,比如:from Table_A a, Table_B b where ...

可以发现,表达式的第一部分和第二部分都有,,而第二部分的末尾使用了+限定必须至少匹配一次,导致当sql过长时并存在大量逗号空格时,会触发大量回溯。为了避免这种情况,应当尽量把第二部分末尾的+去掉,如果可能的话,可以转换成*

最终的修改方案是分为了两部分:

第一部分是简化sql,因为原本是直接拿组装后的sql去匹配,其实sql里大量的like '%xxxx%'部分毫无意义,因为目的只是拿到表别名而已。所以在匹配之前,把这些模糊匹配的部分直接去掉了。

第二部分是修改正则表达式,测试时直接拿简化前的sql去匹配,如果不会发生灾难性回溯就算过关了。最终修改后的样子如下:

(FROM|JOIN)(\\s)+([A-Z0-9_]+(\\s)+[A-Z0-9_]+((\\s)*(,|JOIN)(\\s)*[A-Z0-9_]+(\\s)+[A-Z0-9_]+)*)(\\s)+(JOIN|WHERE|INNER|LEFT|OUTER|ON|ORDER)

这里推荐个在线检查正则表达式匹配字符串文本的网站,可以用来发现是否会触发灾难性回溯:Online regex tester and debugger: PHP, PCRE, Python, Golang and JavaScript

关于这个网站的用法可以看看这篇文章的末尾部分:一个正则表达式引发的血案,让线上CPU100%异常!

排查高CPU使用率的方法

  1. 使用top命令查找在大量占用CPU的进程的PID
  2. 使用ps -mp pid -o THREAD,tid,time定位到大量占用CPU的线程TID;也可以用这个命令直接排序下,更方便找到大量占用CPU的线程:ps -mp pid -o THREAD,tid,time|uniq -c|sort -nr
  3. 将上述找到的线程TID转换成十六进制:printf “%x\n” TID,比如原本的线程TID是28802,可以用上面的命令转成十六进制数7082
  4. 使用PID以及刚刚转成十六进制的TID来打印出该线程的堆栈信息:jstack PID|grep TID -A 100。也可以把完整的堆栈信息输入到一个log文件里,有两种方法:
    1. 方法一是用kill -3 PID > threadDump.log 2>&1,这种方法不适用于JDK1.6以上的版本
    2. 方法二是用jstack -l PID > threadDump.log 2>&1
  5. 接下来就是分析堆栈信息,定位到问题代码的位置了。

下面简单介绍下上述命令的几个关键参数的含义:

ps命令:
-m 显示所有的执行者。
-p 指定进程的PID,并列出该进程的状况。
-o 用户自定义输出格式。 unic命令:
-c 检查文件是否已经按照顺序排序,排序过为真 sort命令:
-n 按照数值大小进行排序
-r 以相反的顺序进行排序,即降序排序,从大排到小 jstack命令:
-l long listing. Prints additional information about locks,会打印出额外的锁信息,可以在发生死锁时用来观察锁持有情况
-m to print both java and native frames (mixed mode),不仅会输出Java堆栈信息,还会输出C/C++堆栈信息(比如Native方法) kill命令:
-signal 指定发送的信号类型,比如:
-3是打印进程的线程信息,并不会终止进程;
-9是强制杀死进程,一般用于立即杀死无响应或者卡死的进程;
-15是柔和地终止进程,一般会在终止之前保存数据、关闭连接,需要经过一段时间后才会完全退出进程,效果等同于-TERM

参考链接

由Java正则表达式的灾难性回溯引发的高CPU异常:java.util.regex.Pattern$Loop.match的更多相关文章

  1. java.util.regex.Pattern的应用

    java.util.regex.Pattern 正则表达式的一种已编译的实现. 正则表达式通常以字符串的形式出现,它首先必须被编译为Pattern类的一个实例.结果模型可以用来生成一个Matcher, ...

  2. Java-API:java.util.regex.Pattern

    ylbtech-Java-API:java.util.regex.Pattern 1.返回顶部   2.返回顶部   3.返回顶部   4.返回顶部   5.返回顶部 1. https://docs. ...

  3. Java正则表达式入门——转自RUNOOB.COM

    Java 正则表达式 正则表达式定义了字符串的模式. 正则表达式可以用来搜索.编辑或处理文本. 正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别. Java正则表达式和Perl的是最为相似 ...

  4. Java 正则表达式详细使用

    Java 正则表达式 java.util.regex.Pattern java.util.regex.Matcher 1.Matchmatch 是从字符串最头部开始匹配,一直到结束,需要匹配整个串 S ...

  5. Java - 15 Java 正则表达式

    Java 正则表达式 正则表达式定义了字符串的模式. 正则表达式可以用来搜索.编辑或处理文本. 正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别. Java正则表达式和Perl的是最为相似 ...

  6. Java正则表达式教程及示例

    本文由 ImportNew - ImportNew读者 翻译自 journaldev.欢迎加入翻译小组.转载请见文末要求. [感谢 @CuGBabyBeaR  的热心翻译.如果其他朋友也有不错的原创或 ...

  7. Java-Runoob:Java 正则表达式

    ylbtech-Java-Runoob:Java 正则表达式 1.返回顶部 1. Java 正则表达式 正则表达式定义了字符串的模式. 正则表达式可以用来搜索.编辑或处理文本. 正则表达式并不仅限于某 ...

  8. 《Java基础知识》Java正则表达式

    正则表达式定义了字符串的模式. 正则表达式可以用来搜索.编辑或处理文本. 正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别. 正则表达式实例 一个字符串其实就是一个简单的正则表达式,例如  ...

  9. 【转】java正则表达式

    在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包. 可粗略估计一下,除了偶尔用Linux的外,其他Linu ...

随机推荐

  1. 在论坛中出现的比较难的sql问题:12(递归问题2 拆分字符串)

    原文:在论坛中出现的比较难的sql问题:12(递归问题2 拆分字符串) 最近,在论坛中,遇到了不少比较难的sql问题,虽然自己都能解决,但发现过几天后,就记不起来了,也忘记解决的方法了. 所以,觉得有 ...

  2. centos 7 配置pytorch运行环境

    华为云服务器,4核心8G内存,没有显卡,性能算凑合,赶上双11才不到1000,性价比还可以,打算配置一套训练densenet的环境. 首先自带的python版本是2.7,由于明年开始就不再维护了,所以 ...

  3. C#用户控件实战01_CSS布局

    很多应用系统的主页布局,一般采用如下案例所示布局较多,如下图的CSS布局框架,上.中.下,接下来我们演示,在C#中实现如下的业务架构布局. 代码范例: 在<body></body&g ...

  4. Django2.0 分页的应用

    #分页例子from django.core.paginator import Paginatordef blog_list(request):      blog_all_list = models. ...

  5. 总结一下几个for循环常见用法和区别

    1.for循环//有人喜欢使用一个临时变量把长度缓存起来,说是数据量大时效果更好(我本人没有去验证) for(j = 0,len=arr.length; j < len; j++) { //执行 ...

  6. 安装HANA Rules Framework(HRF)

    1. 收集文档 1.1  SAP HANA Rules Framework by the SAP HANA Academy link 1.2  HANA Rules Framework (HRF) b ...

  7. DBShop前台RCE

    前言 处理重装系统的Controller在判断是否有锁文件后用的是重定向而不是exit,这样后面的逻辑代码还是会执行,导致了数据库重装漏洞和RCE. 正文 InstallController.php中 ...

  8. PLSQL 设置 里面timestamp显示的格式

    转自: https://blog.csdn.net/dietime1943/article/details/52672813# PL/SQL下timestamp日期显示格式问题 现象: 日期检索出来显 ...

  9. Linux命令——ls

    15 Interview Questions on Linux “ls” Command – Part 1 10 Useful ‘ls’ Command Interview Questions – P ...

  10. C++——多态性 与 虚函数

    多态性 多态性是面向对象程序设计的关键技术之一.若程序设计语言不支持多态性,不能称为面向对象的语言.利用多态性技术,可以调用同一个函数名的函数,实现完全不同的功能. 多态性(polymorphism) ...