简单的探索下正则表达式的相关知识,首先先了解下正则表达式的引擎和匹配过程区别,再试着掌握如何在场景中编写正则表达式,再然后探索下根据上文已知的原理和编写过程怎么去优化正则表达式,最后给出一些js里正则相关的小扩展。

基础及原理简单介绍

了解一下正则表达式的正则引擎(正则表达式使用的理论模型是有穷自动机,具体实现称为正则引擎)。

正则引擎分有DFA(确定型有穷自动机)的和NFA(非确定型有穷自动机)的实现,根据编译相关知识的描述,两者是可以等价转换的。NFA又分传统型和POSIX标准,下面是三者一个简单的对照表:

-/-         回溯     忽略优先量词     捕获型括号       应用算法
DFA ❌ ❌ ❌ 文本主导
传统型NFA ✔️ ✔️ ✔️ 表达式主导
POSIX NFA ✔️ ❌ ✔️ 表达式主导

回溯指的是:一个类似枚举的搜索尝试过程,在搜索尝试过程中寻找问题的解,当在分歧点选择一条路径,记住另一/多条路径供之后使用,在选择路径后的探索过程中发现不满足求解条件时,就返回到分歧点,尝试其他路径(回溯遵循后进先出原则/LIFO-last in first out)。

忽略优先量词指的是:支持尽可能少的匹配结果。

捕获型括号指的是:匹配并捕获结果,获取组号。

文本主导指的是:匹配搜索过程中的每个字符都对匹配过程进行控制(这样的结果就是:虽然我不能回溯,但我速度快呀 - DFA的傲娇...)。

表达式主导指的是:表达式中的控制权在不同的表达式元素之间转换,然后与文本进行匹配。

三者还有一些其他的差异,如编译阶段的处理及匹配最左最长原则等,由于文章里以js的正则为准,就不做更多区别的介绍,详情可参考书籍《精通正则表达式》,不过值得注意的是本书中的内容不一定完全适合各个语言或平台中的正则表达式...

正则匹配的过程规则总结:

1. 优先选择最左端的匹配结果(匹配是从左到右开始的)

  匹配先从需要查找的字符串的第一个字符尝试匹配;

  如果匹配到结果,则返回结果;

  如果匹配不到结果,则就需要从字符串的第二个字符位置开始重新匹配;

  以此类推,直到尝试过所有的字符串位置作为匹配起始点进行匹配后,返回匹配失败结果。

  如 forever 中匹配是否存在 ever:

  第一轮:从f开始匹配,fore不匹配ever;

  第二轮:从o开始匹配,orev不匹配ever;

  第三轮:从r开始匹配,reve不匹配ever;

  第四轮:从e开始匹配,ever匹配ever,获得ever匹配起始点(此处为3)的索引和匹配结果。

2. 标准量词总是匹配优先的(*、+、?、{m,n})

  匹配优先:尽可能多的匹配;忽略优先:尽可能少的匹配。

  标准量词总是匹配优先的,如:foo 针对表达式取 fo|foo(下面匹配基于JavaScript)

  匹配优先结果:foo,/f[o]{1,2}/

  忽略优先结果:fo,/f[o]{1,2}?/,加?后表示忽略优先量词

更多原理和匹配过程详解可以参考园友@BattleHeart的文章"浅析正则表达式—(原理篇)"

在需求场景中构建正则表达式

要构建正则表达式,得先了解一些正则表达式的一些普通字符和元字符。这些可以参照"百度百科-正则表达式_符号",该表对于正则使用生疏的同学可以作字典参考,这里对于这些字符就不多做赘述。

以几个例子来说明下在有正则需求的场景中该如何来写表达式。

例子一:查询句子中某些单词出现的次数。

首先分析情况得出:先给出个大致形状,/pattern/g ,经测试发现:

"the weather's often cold in the north and windy in the east".match(/the/g).length
// output 4

输出4,明显不对,这时候还需要考虑单词的边界情况,需要在pattern两边加上限制\b,并且注意不需要匹配单词边界,于是得出:

/\bthe\b/g

再测一下:

"the weather's often cold in the north and windy in the east".match(/\bthe\b/g).length
// output 3

正确。

例子二:比如需要给数字加 ",(逗号)" 形成货币格式的场景,如1234567,变成1,234,567。

首先分析情况得出:逗号应该加在"左边存在数字,右边的数字个数是3的倍数"。

这里用到正则的"非获取匹配,反向肯定预查 : (?<=pattern)" 和 "非获取匹配,正向肯定预查 : (?=pattern)",非获取匹配指的是匹配但不获取匹配值,正/反向肯定预查指的是正/反向匹配时在任何匹配条件的字符串开始处匹配查找字符串。

先反向肯定预查"左边存在数字"的组合,给出(?<=\d);再正向肯定预查"右边数字个数是3的倍数的组合",给出(?=(\d{3})+$);结合两者,加上全局的匹配 g,得出:

/(?<=\d)(?=(\d{3})+$)/g

测试一下效果:

'123456789'.replace(/(?<=\d)(?=(\d{3})+$)/g,',')
// output 123,456,789
'23456789'.replace(/(?<=\d)(?=(\d{3})+$)/g,',')
// output 23,456,789
'1234'.replace(/(?<=\d)(?=(\d{3})+$)/g,',')
// output 1,234

例子三:比如想把雷老板的Are you ok 歌词处理一下。

首先不想替换掉"...",其次注意转义字符,最后结合需要取的是引号内包含且非"的字符,于是得出:

 /\"([^\"\.]*)\"/g 

测试一下:

var str = `
Are you ok?
Auther Mr.Lei
1. "Thank you!"
2. "Are you ok?"
3. "Hello"
4. "Thank you"
5. "Thank you every much"
6. "How are you Indian Mi fans?"
7. "Do you like Mi 4i?"
8. "..."
`; var reg = /\"([^\"\.]*)\"/g;
var replaceStr = str.replace(reg,'\"???\"');
// output
// Are you ok?
// Auther Mr.Lei
// 1. "???"
// 2. "???"
// 3. "???"
// 4. "???"
// 5. "???"
// 6. "???"
// 7. "???"
// 8. "..."

如何写正则表达式的总结:先写出明确的匹配条件,再根据需求去组合或添加细节。

正则表达式优化的一些探索

《精通正则表达式》书中和网上查找了不少资料,并且根据对NFA的理解,列出了一些符合理论的优化建议(不排除更多可能):

  1. 减少或者优化判断分支;

  2. 精确匹配条件(字符和量词);

  3. 限制匹配优先的作用范围,如+和*的区别,+减少了多选结构的回溯次数;

  4. 节省引用(使用非获取匹配);

  5. 将复杂的多条件正则拆分成多个简单的单条件正则;

  6. 锚点的优化,^(a|b)而非(^a|^b);

  7. 量词等价转换的效率差异(因语言而异);

  8. 使用固化分组(在支持的情况下,js并不支持);

  9. 使用变量存储正则表达式(减少正则编译过程);

  10. 还有更多细节...

《精通正则表达式》的第五及第六章都有涉及这些优化的介绍,网上google/baidu也是不少资料和案例。

根据其主要做的优化过程大致可总结出以下几点(不排除更多可能):

  1. 减少匹配的回溯次数,减少时间;

  2. 节省引用(使用非获取匹配),减少空间;

  3. 正则表达式自身优化以达到编译最优;

  4. 也许更多吧...

以上是书籍和网上给出的优化建议,给出的案例大多是针对的perl和PHP的,在JavaScript中并不适用,为了验证js里的正则如何优化,下面是我给出的一些测试结果...

基于JavaScript的正则表达式...这一小节给不出完整的测试代码,因为在多个浏览器和nodejs端跑了很多测试代码,给定的情况是不同的...

但单独某个端或者浏览器给出的结果是稳定的,以下是给出Chrome和Firefox浏览器和Nodejs各跑100000次(原先是1W长度字符串跑1000次,后面为了效果更明显最终增加为10W长度字符串跑10W次)测试的结果总结...还有Safari浏览器、360浏览器、QQ浏览器的测试结果也统一不了。

Chrome浏览器下:
使用.、*这类元字符或范围比精确查找条件的性能要优;
非贪婪模式比贪婪模式性能优;
获取匹配比非获取匹配性能优;
优化判断分支(将最可能匹配的结果放前面)后性能更差; Firefox浏览器下:
精确查找条件比使用.、*这类元字符或者范围的性能优;
非贪婪模式比贪婪模式性能优;
获取匹配比非获取匹配性能优;
优化判断分支(将最可能匹配的结果放前面)后性能更差; Nodejs环境下:
使用.、*这类元字符或范围比精确查找条件的性能优;
贪婪模式比非贪婪模式性能优;
获取匹配比非获取匹配性能优;
优化判断分支(将最可能匹配的结果放前面)性能优;

以上的测试结果并不能给出肯定的答案,所以建议在JavaScript里使用正则的时候先测一下性能以免导致不愉快的意外,至于JavaScript中正则表达式的实现过程更是需要看V8的代码了...

JavaScript RegExp 小扩展

lastIndex 和 test 方法的爱恨情仇

var str = 'abcabc';
var regexp = /a/g; console.log(regexp.test(str)); // output true
console.log(regexp.lastIndex); // output 1 console.log(regexp.test(str)); // output true
console.log(regexp.lastIndex); // output 4 console.log(regexp.test(str)); // output false
console.log(regexp.lastIndex); // output 0

test 方法在执行后将 lastIndex 属性值置为匹配到的结果索引值,并返回匹配结果;下一次执行 test 方法时从 lastIndex 位置开始匹配,并返回匹配结果;以此类推;最后一次执行 test 方法,索引重置为0,匹配结果为false。

RegExp vs indexOf 谁才是快男

在固定匹配值和"只匹配一次"的条件下,针对判断字符串是否包含某个"固定的"字符串,indexOf 优于 regexp,性能将近一半。

var str = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36";

console.time('reg');
/Mac/.test(str);
console.timeEnd('reg'); console.time('indexOf');
str.indexOf('Mac');
console.timeEnd('indexOf');

经过多次测试  reg 的平均值 是 indexOf 的近2倍(环境:chrome & nodejs);然而在其他匹配条件下,RegExp 更灵活,更方便,更全面。

关于String.prototype.indexOf方法内部代码暂时不知道怎么去探究,根据以下文档有解释,但未明确的理解,参考文档:

[ECMAScript 2015 (6th Edition, ECMA-262)]

[ECMAScript 1st Edition (ECMA-262)](初始定义)

注意:本文只是一次知识探讨,仅供做参考作用,请勿以之为准,如果需要更进一步的学习请以书籍以及自我实践所得为准。

正则表达式的一些探索(偏JavaScript)的更多相关文章

  1. Sentry(v20.12.1) K8S 云原生架构探索,JavaScript 性能监控之采样 Transactions

    系列 Sentry-Go SDK 中文实践指南 一起来刷 Sentry For Go 官方文档之 Enriching Events Snuba:Sentry 新的搜索基础设施(基于 ClickHous ...

  2. Sentry(v20.12.1) K8S 云原生架构探索,JavaScript Enriching Events(丰富事件信息)

    系列 Sentry-Go SDK 中文实践指南 一起来刷 Sentry For Go 官方文档之 Enriching Events Snuba:Sentry 新的搜索基础设施(基于 ClickHous ...

  3. Sentry(v20.12.1) K8S 云原生架构探索,JavaScript 性能监控之管理 Transactions

    系列 Sentry-Go SDK 中文实践指南 一起来刷 Sentry For Go 官方文档之 Enriching Events Snuba:Sentry 新的搜索基础设施(基于 ClickHous ...

  4. 身份证号码的正则表达式及验证详解(JavaScript,Regex)

    简言 在做用户实名验证时,常会用到身份证号码的正则表达式及校验方案.本文列举了两种验证方案,大家可以根据自己的项目实际情况,选择适合的方案. 身份证号码说明 居民身份证号码,正确.正式的称谓应该是&q ...

  5. 单例模式 | 程序员都想要探索的 Javascript 设计模式

    最近打算系统的学习 Javascript 设计模式,以便自己在开发中遇到问题可以按照设计模式提供的思路进行封装,这样可以提高开发效率并且可以预先规避很多未知的问题. 先从最基本的单例模式开始 什么是单 ...

  6. 正则表达式回溯-导致CPU偏高

    最近了解了下有关正则表达式回溯的内容,想想就写下来,方便自己. 正则表达式匹配算法是建立在正则表达式引擎的基础上的,目前有两种引擎:DFA(确定型有穷自动机)和NFA(不确定型有穷自动机).这两种引擎 ...

  7. 正则表达式备忘(基于JavaScript)

    基于JS学习的正则表达式 备忘 e.g.匹配以0开头的三位或四位区号,以-分格的7或8位电话号码var reg1 = /^0\d{2,3}\-\d{7,8}$/;或var reg1 = new Reg ...

  8. javascript正则表达式(RegExp)简述

    首先我们来思考以下两个个场景 我们使用window操作系统,有时候需要找一个文件,刚刚好这个文件我不知道放哪里去了,这个时候我们该怎么办呢? 我们使用word写论文的时候,不小心将"订价&q ...

  9. javascript类型系统——正则表达式RegExp类型

    × 目录 [1]对象 [2]实例属性 [3]静态属性[4]实例方法 前面的话 前面已经介绍过javascript中正则表达式的基础语法.javascript的RegExp类表示正则表达式,String ...

随机推荐

  1. HTTPie命令介绍

    HTTPie 是一个 HTTP 的命令行客户端.其目标是让 CLI 和 web 服务之间的交互尽可能的人性化.HTTPie 可用于与 HTTP 服务器做测试.调试和常规交互. 1 定制 HTTP 方法 ...

  2. Python从入门到精通之Seventh!

    函数浅析:可以减少代码重用,保持一致性,可扩展性,易维护性. 定义方法:def 函数名(形参):     '''功能注释'''      代码块 打印函数名时,会出现函数的内存地址.两个函数名相同时, ...

  3. WindowsPE权威指南 第二章 小工具 PEComp代码的C语言实现

    主程序代码 PEComp.c #include <windows.h> #include <Richedit.h> #include <Commctrl.h> #i ...

  4. 微信小程序拉起登录的操作

    第一步,前端调用wx.login()接口把token数据请求过来, 第二部,把tok嗯发送到总计的服务器,然后进行微信openid和assession的获取 第三部验证session是否过期,过期重新 ...

  5. Linux 防火墙管理及操作

    1.关闭firewall:systemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service #禁止fire ...

  6. opencv2.4.13+python2.7学习笔记--使用 knn对手写数字OCR

    阅读对象:熟悉knn.了解opencv和python. 1.knn理论介绍:算法学习笔记:knn理论介绍 2. opencv中knn函数 路径:opencv\sources\modules\ml\in ...

  7. data science学习笔记1

    Mutiple Plots on One Graph plt.plot(x, norm.pdf(x)) plt.plot(x, norm.pdf(x, 1.0, 0.2)) #1.0 = mean, ...

  8. java面试一、1.3线程与进程

    免责声明:     本文内容多来自网络文章,转载为个人收藏,分享知识,如有侵权,请联系博主进行删除. 1.3.进程和线程 线程和进程的概念.并行和并发的概念 线程和进程: 线程:是程序执行流的最小单元 ...

  9. socketserver 实现并发

    基于tcp的套接字,关键就是两个循环,一个链接循环,一个通信循环 socketserver模块中分两大类:server类(解决链接问题)和request类(解决通信问题) server类: reque ...

  10. 安装xgboost

    http://blog.csdn.net/xizero00/article/details/73008330,python2.7 和python3.5 都可以安装成功.