一.概念

语法模式类似perl.表达式必须用分隔符闭合,比如一个正斜杠(/).

分隔符可以是任意非字母非数字,除反斜杠(\)和空字节之外的非空白ascii字符

如果分隔符 在表达式中使用,需要使用反斜线进行转义

二.组成

元字符

一个正则表达式基本组成

/原子和元字符/模式修正符              /代表定界符的一个

正则表达式的威力在于其能够在模式中包含选择和循环。它们通过使用元字符来编码在模式中,元字符不代表其自身,它们用一些特殊的方式来解析。

根据在方括号的内部还是外部分为两种。

1.方括号之外的元字符

元字符(符号)

说明

\

一般用于转义字符

^

断言目标的开始位置(或在多行模式下是行首)

$

目标的结束位置(活在多行模式下行尾)

.

匹配除换行符外任何字符(默认时)

[,]

开始,结束字符类定义

|

开始一个可选分支

( ,)

子组的开始,结尾标记

?

作为量词,表示 0 次或 1 次匹配。位于量词后面用于改变量词的贪婪特性

*

量词,0 次或多次匹配

+

量词,1 次或多次匹配

{ ,}

自定义量词开始标记,结束标记

2.模式中方括号内的部分称为“字符类”

元字符

说明

\

转义字符

^

仅在作为第一个字符时,表明字符类取反

-

标记字符范围

元字符用法说明举例

1.转义(反斜线)

\后紧跟着一个非字母数字字符,则取消该字符可能具有的任何特殊含义。此种适用于字符类之中或之外。

对于非数字字母的字符,总是需要其进行原文匹配时候在它前面加一个反斜线,来代表它代表自己。

匹配 “*” 时,由于其有特殊含义,所以用 “\*”取消掉了其特殊含义

匹配”.”用”\.”

匹配”\” 用”\\”

但要注意:

反斜线在单引号字符串和双引号字符串中都有特殊含义,因此要匹配一个反斜线,模式中必须写”\\\\”或’\\\’

2.反斜线第二种用途提供了一种对非打印字符进行可见编码的控制手段。除了二进制的0会终结一个模式外,并不会严格的限制非打印字符(自身)的出现,但是当一个模式以文本编辑器的方式编辑准备的时候,使用下面的转义序列相比比使用二进制字符会更容易。

符号

说明

\a

响铃字符(十六进制 07)

\cx

"control-x",x 是任意字符

\e

转义 (十六进制 1B)

\f

换页 (十六进制 0C)

\n

换行 (十六进制 0A)

\p{xx} (p小写)

一个符合 xx 属性的字符

\P{xx} (p大写)

一个不符合 xx 属性的字符

\r

回车 (十六进制 0D)

\t

水平制表符 (十六进制 09)

\xhh

hh十六进制编码的字符

\ddd

ddd八进制编码的字符,或者后向引用

\040

空格的另外一种用法

\40

当提供了少于40个子组时也认为是空格。

\7

始终是后向引用

\11

可能是后向引用,也可能是制表符

\011

总是一个制表符

\0113

一个制表符紧跟着一个3(因为每次最多只读取3个8进制位

\113

八进制113代表的字符

\377

8进制377是10进制255, 因此代表一个全1的字符

\81

一个后向引用或者一个二进制 0 紧跟着两个数字 8 和 1(因为8不是8进制有效数字)

3.反斜线第三种用法,描述特定的字符类

符号

说明

\d

任意十进制数字

\D

任意非十进制数字

\h

任意水平空白字符(从php 5.2.4起)

\H

任意非水平空白字符(从php 5.2.4起)

\s

任意空白字符

\S

任意空白字符

\v

任意垂直空白字符(since PHP 5.2.4)

\V

任意非垂直空白字符(since PHP 5.2.4)

\w

任意单词字符

\W

任意非单词字符

上面每一对转义序列都代表了完整字符集中两个不相交的部分, 任意字符一定会匹配其中一个,同时一定不会匹配另外一个。

第四种用法 简单的断言

\b

单词边界 注意在字符类中是退格

\B

非单词边界

\A

目标的开始位置(独立于多行模式)

\Z

目标的结束位置或结束处的换行符(独立于多行模式)

\z

目标的结束位置(独立于多行模式)

\G

在目标中首次匹配位置

\A,\Z,\z断言不同于传统的^和$

因为他们永远匹配目标字符串的开始和结尾,而不会受模式修饰符的限制

\Z和 \z之间的不同在于当字符串结束字符时换行符时 \Z 会将其看做字符串结尾匹配, 而 \z 只匹配字符串结尾。

代码1

$p='#\A[a-z]{3}#m';
$str='abc
defg
hijkl';
preg_match_all($p,$str,$all);
print_r($all);

发现后面加不加模式修正符m结果都一样

只匹配到abc

而代码2:

$p='#^[a-z]{3}#m';
$str='abc
defg
hijkl';
preg_match_all($p,$str,$all);
print_r($all);

不加m只匹配abc

加上之后匹配了abc,def,hij

果真,\A不受模式修正符的影响

同理可比较$与\Z

\Z与\z

代码3

$p='#[a-z]\Z#';

$str="a\n";

preg_match_all($p,$str,$all);

print_r($all);

模式修正为\E时匹配到a

当模式修正为\e时,由于它只匹配到字符的结束,不认换行符,所以匹配不到任何东西

G 断言在指定了$offset 参数的 preg_match()() 调用中, 仅在当前匹配位置在匹配开始点的时候才是成功的

当 $offset 的值不为 0 的时候, 它与 \A 是不同的。

参见php手册

自 PHP 4.3.3开始, \Q和 \E 可以用于在模式中忽略正则表达式元字符.

即把有特殊含义的字符放在\Q与\E之间

如代码4

$p='#\w+\Q.$.\E$#';
$str="a.$.";
preg_match_all($p,$str,$all);
print_r($all);

匹配到 a.$.

自 PHP 5.2.4 开始。 \K 可以用于重置匹配。 比如, foot\Kbar 匹配”footbar”。 但是得到的匹配结果是 ”bar”。但是, \K 的使用不会干预到子组内的内容, 比如 (foot)\Kbar 匹配 ”footbar”,第一个子组内的结果仍然会是 ”foo”。译注: \K 放在子组和子组外面的效果是一样的。

\p{Lu}匹配大写字母

句点

在字符类外部

\C可以被用于匹配单字节, 也就是说在UTF-8模式下,句点可以匹配多字节字符

Character classes

alnum

字母和数字

alpha

字母

ascii

0 - 127的ascii字符

blank

空格和水平制表符

cntrl

控制字符

digit

十进制数(same as \d)

graph

打印字符, 不包括空格

lower

小写字母

print

打印字符,包含空格

punct

打印字符, 不包括字母和数字

space

空白字符 (比\s多垂直制表符)

upper

大写字母

word

单词字符(same as \w)

xdigit

十六进制数字

比如'#[[:upper:]]#'匹配大写字母

'#[[:alpha:]]#'   匹配字母

可选路径|

竖线字符用于分离模式中的可选路径。 比如模式gilbert|Sullivan匹配 ”gilbert” 或者 ”sullivan”。 竖线可以在模式中出现任意多个,并且允许有空的可选路径(匹配空字符串)。 匹配的处理从左到右尝试每一个可选路径,并且使用第一个成功匹配的。 如果可选路径在子组(下面定义)中, 则”成功匹配”表示同时匹配了子模式中的分支以及主模式中的其他部分。

代码5

$p='#p(hp|ython|erl)#';
$str="php python perl";
preg_match_all($p,$str,$all);
print_r($all);

子组(子模式)

子组通过圆括号分割界定,并且它们可以嵌套,主要有以下两种用法与功能

1.将可选分支局部化。比如

模式 p(hp|ython|erl) 匹配php,python,perl中的一个

2.将子组设定为捕获子组

整个模式匹配后, 左括号从左至右出现的次序就是对应子组的下标(从 1 开始), 可以通过这些下标数字来获取捕获子模式匹配结果。

代码6

$p='#(\d)#';
$str="abc123";
$r=preg_replace($p,'<font color=red>\1</font>',$str);
echo $r;

但当只想分组而又不想捕获时

在子组定义的左括号后面紧跟字符串 ”?:” 会使得该子组不被单独捕获, 并且不会对其后子组序号的计算产生影响

代码7:匹配数字 把数字改为红色的

$p='#.*(?:\d).*([a-z])#U';
$str="3df5g";
$r=preg_replace($p,'<font color=red>\1</font>',$str);
echo $r;

如果匹配数字的模式不加?:

那么\1代表的就是匹配就是数字,加上后只是分组不捕获了,\1就代表捕获的字母了

为了方便简写,如果需要在非捕获子组开始位置设置选项, 选项字母可以位于 ? 和 : 之间,比如:

(?i:saturday|Sunday)

(?:(?i)saturday|Sunday)

其中i是模式修正符,忽略大小写

上面两种写法实际上是相同的模式。因为可选分支会从左到右尝试每个分支, 并且选项没有在子模式结束前被重置, 并且由于选项的设置会穿透对后面的其他分支产生影响,因此, 上面的模式都会匹配 ”SUNDAY” 以及 ”Saturday”。

在 PHP 4.3.3 中,可以对子组使用 (?P<name>pattern) 的语法进行命名。 这个子模式将会在匹配结果中同时以其名称和顺序(数字下标)出现, PHP 5.2.2中又增加了两种味子组命名的语法: (?<name>pattern) 和 (?’name’pattern)。不能双引号

代码如下8:

$p="#.*(?<alpha>[a-z]{3})(?'digit'\d{3}).*#";
$str="abc123111def111g";
preg_match_all($p,$str,$arr);
print_r($arr);

结果:

有时需要多个匹配可以在一个正则表达式中选用子组。 为了让多个子组可以共用一个后向引用数字的问题, (?\语法允许复制数字。 考虑下面的正则表达式匹配Sunday:

(?:(Sat)ur|(Sun))day

这里当后向引用 1 空时Sun 存储在后向引用 2 中. 当后向引用 2 不存在的时候 Sat 存储在后向引用 1中。 使用 (?|修改模式来修复这个问题:

代码9:

$p='#(?:(sat)ur|(sun))day#';
$str="sunday saturday";
preg_match_all($p,$str,$arr);
print_r($arr);

结果:

(?|(Sat)ur|(Sun))day

使用这个模式, Sun和Sat都会被存储到后向引用1中。

在看这个模式前先看以2个下代码

代码10-1

$p='#(a|b)\d#';
$str="b2a1";
preg_match_all($p,$str,$arr);
print_r($arr);

结果是:Array

(
[0] => Array
(
[0] => b2
[1] => a1
) [1] => Array
(
[0] => b
[1] => a
) )
代码10-2
$p='#((a)|b)\d#';
$str="b2a1";
preg_match_all($p,$str,$arr);
print_r($arr);

结果:

Array
(
[0] => Array
(
[0] => b2
[1] => a1
) [1] => Array
(
[0] => b
[1] => a
) [2] => Array
(
[0] =>
[1] => a
)
)
对10-2代码:
第一次完整匹配到的内容是b2,所以包括匹配内容b的括号即为其第一个子模式是即为b,第二个子模式由于(a)没有匹配,所以为空
第二次完整匹配到a1,其第一个子模式为a,第二次的由于((a)|b)是外层大括号里包含的
代码10-3:
$p='#((a)|(b))\d#';
$str="b2a1";
preg_match_all($p,$str,$arr);
print_r($arr);
 结果:
Array
(
[0] => Array
(
[0] => b2
[1] => a1
) [1] => Array
(
[0] => b
[1] => a
) [2] => Array
(
[0] =>
[1] => a
) [3] => Array
(
[0] => b
[1] =>
) )

代码10-4:

$p='#(?:(a)|(b))\d#';
$str="b2a1";
preg_match_all($p,$str,$arr);
print_r($arr);
结果:
Array
(
[0] => Array
(
[0] => b2
[1] => a1
) [1] => Array
(
[0] =>
[1] => a
) [2] => Array
(
[0] => b
[1] =>
) )
 

代码10:

$p='#(?|(sat)ur|(sun))day#';
$str="sunday saturday";
preg_match_all($p,$str,$arr);
print_r($arr);

结果

 后向引用

如果紧跟反斜线的数字小于 10, 它总是一个后向引用。模式中的捕获数要大于等于后向引用的个数

后向引用会直接匹配被引用捕获组在目标字符串中实际捕获到的内容, 而不是匹配子组模式的内容

(sens|respons)e and \1ibility将会匹配 ”sense and sensibility” 和 ”response and responsibility”, 而不会匹配 ”sense and responsibility”。

代码11

$p='#(sens|respons)e and \1ibility#';
$str="sense and sensibility response and responsibility sense and responsibility";
preg_match_all($p,$str,$arr);
print_r($arr);

结果

ab(?i)c匹配abC和abc

(?i)+原子

表示(?i)后的原子不区分大小写

如果在后向引用时被强制进行了大小写敏感匹配

((?i)abc)\s+\1

匹配 abc abc

ABC ABC

AbC AbC

只要两个一样不分大小写

但不匹配 ABC aBC等

这里其实要考虑的是后向引用期望得到的内容是和那个被引用的捕获子组得到的内容是完全一致的

代码12:

$p='#((?i)abc)\s+\1#';
$str="abc abc |ABC ABC |AbC AbC |abc Abc ";
preg_match_all($p,$str,$arr);
print_r($arr);

结果

可能会有超过一个的后向引用引用相同的子组。 一个子组可能并不会真正的用于特定的匹配,此时, 任何对这个子组的后向引用也都会失败。

先看以下代码13

$p='#(a|(bc))#';
$str="abc ";
preg_match_all($p,$str,$arr);
print_r($arr);

完整匹配了2次

[0][0]是第一次完整的匹配

[1][0]是第一次匹配的第一个子模式

[2][0]是第一次匹配的第二个子模式

[0][1]第二次完整匹配

[1][1]第二次匹配的第一个子模式

[2][1]是第二次匹配的第二个子模式

从上面可以发现对于模式

(a|(bc))

最外面的括号是第一个匹配子模式

里面的括号里的是第二个子模式

所以对于以下代码14:

$p='#(a|(bc))\2#';
$str="aabcbc";
preg_match_all($p,$str,$arr);
print_r($arr);

结果

当第一匹配a时,就没有第二子模式了

就无从\2谈起

所以第一次完整匹配中必须得有让第二个子模式存在的机会即里面的括号里的内容必须被匹配到,所以必须得有bc才能有匹配。

因为可能会有多达 99 个后向引用, 所有紧跟反斜线后的数字都可能是一个潜在的后向引用计数。 如果模式在后向引用之后紧接着还是一个数值字符, 那么必须使用一些分隔符用于终结后向引用语法。

以下代码15为例:

$p='#([a-z]{3})\1 5#x';
$str="aaaaaa5";
preg_match_all($p,$str,$arr);
print_r($arr);

模式后向引用\1后紧跟数字的话就像以上代码 就会误认为第15个引用

我们空下一格,然后在模式修正里忽略模式里的空格就能成功匹配

如果一个后向引用出现在它所引用的子组内部, 它的匹配就会失败

(a\1) 就不会得到任何匹配

而这种引用可以用于内部的子模式重复

(a|b\1)会匹配 ”a”但不会匹配b( 因为子组内部有一个可选路径,可选路径中有一条路能够完成匹配,在匹配完成后, 后向引用就能够引用到内容了)。

代码16:

$p='#(a|b\1)+#';
$str="abba";
preg_match_all($p,$str,$arr);
print_r($arr);

结果

在每次子模式的迭代过程中, 后向引用匹配上一次迭代时这个子组匹配到的字符串。为了做这种工作, 模式必须满足这样一个条件,模式在第一次迭代的时候, 必须能够保证不需要匹配后向引用。 这种条件可以像上面的例子用可选路径来实现,也可以通过使用最小值为 0 的量词修饰后向引用的方式来完成。

在 PHP 5.2.2之后, \g转义序列可以用于子模式的绝对和相对引用。 这个转义序列必须紧跟一个无符号数字或一个负数, 可以选择性的使用括号对数字进行包裹。 序列\1, \g1,\g{1} 之间是同义词关系。 这种用法可以消除使用反斜线紧跟数值描述反向引用时候产生的歧义。 这种转义序列有利于区分后向引用和八进制数字字符, 也使得后向引用后面紧跟一个原文匹配数字变的更明了,比如 \g{2}1。

代码17:

$p='#([a-z]{2})\g{1}5#';
$str="abab5";
preg_match_all($p,$str,$arr);
print_r($arr);

可与代码15对比

\g 转义序列紧跟一个负数代表一个相对的后向引用。比如: (foo)(bar)\g{-1} 可以匹配字符串 ”foobarbar”, (foo)(bar)\g{-2} 可以匹配 ”foobarfoo”。 这在长的模式中作为一个可选方案, 用来保持对之前一个特定子组的引用的子组序号的追踪。

代码18

$p='#(foo)(bar)\g{-1}#';
$p1='#(foo)(bar)\g{-2}#';
$str="foobarbar";
$str1="foobarfoo";
preg_match_all($p,$str,$arr);
preg_match_all($p1,$str1,$arr1);
print_r($arr);
print_r($arr1);

结果:

后向引用也支持使用子组名称的语法方式描述, 比如 (?P=name) 或者 PHP 5.2.2 开始可以实用\k<name> 或 \k’name’。 另外在 PHP 5.2.4 中加入了对\k{name} 和 \g{name} 的支持。

代码19:

$p="#(?'alpha'[a-z]{2})(?<digt>[0-9]{3})\k<digt>(?P=alpha)#";
$str="aa123123aa";
preg_match_all($p,$str,$arr);
print_r($arr);

结果:

可与代码8比较着看

注意标红的

Alpha前一个有引号,后一个没有

P大写

参考资料:<php手册>

未完待续....

Php中正则小结(一)的更多相关文章

  1. JS中正则匹配的三个方法match exec test的用法

    javascript中正则匹配有3个方法,match,exec,test: match是字符串的一个方法,接收一个RegExp对象做为参数: match() 方法可在字符串内检索指定的值,或找到一个或 ...

  2. Python3中正则模块re.compile、re.match及re.search函数用法详解

    Python3中正则模块re.compile.re.match及re.search函数用法 re模块 re.compile.re.match. re.search 正则匹配的时候,第一个字符是 r,表 ...

  3. iOS开发中正则式的使用

    iOS开发中正则式的使用 第一:常规的使用方式 NSString *str = @"abcded111093212qweqw"; //找到内部一个即可 NSString *patt ...

  4. JavaScript中正则使用

    字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在.比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦, ...

  5. JavaScript与PHP中正则

    一.JavaScript 有个在线调试正则的工具,点击查看工具.下面的所有示例代码,都可以在codepen上查看到. 1.创建正则表达式 var re = /ab+c/; //方式一 正则表达式字面量 ...

  6. 关于php中正则匹配包括换行符在内的任意字符的问题总结

    要使用正则匹配任意字符的话,通常有以下几种方法,这里我分别对每一种方法在使用的过程中做一个总结: 第一种方式:[.\n]*? 示例 ? PHP preg_match_all('/<div cla ...

  7. JavaScript 中 正则替换 replace

    本文初步介绍 replace 在 js 中,我们常常会遇到 用来 解决开发中常会遇到的 问题的 知识总结, 如果你已经 非常熟悉,又可以绕道了. 定义和用法 replace() 方法用于在字符串中常用 ...

  8. php中正则案例分析

    案例一如下: $regex='/[\s\S]*/'; $str='lemon'; $matches=array(); if(preg_match($regex,$str,$matches)){ var ...

  9. JavaScript中正则的使用(1)

    通过例子学习正则中的常见语法(1) $num javascript var a = 'javascript'; var b = a.replace(/(java)(script)/gi, '$2-$1 ...

随机推荐

  1. USB枚举过程

    1. 枚举是什么?        枚举就是从设备读取一些信息,知道设备是什么样的设备,如何进行通信,这样主机就可以根据这些信息来加载合适的驱动程序.调试USB设备,很重要的一点就是USB的枚举过程,只 ...

  2. CodeForces 602E【概率DP】【树状数组优化】

    题意:有n个人进行m次比赛,每次比赛有一个排名,最后的排名是把所有排名都加起来然后找到比自己的分数绝对小的人数加一就是最终排名. 给了其中一个人的所有比赛的名次.求这个人最终排名的期望. 思路: 渣渣 ...

  3. Sqlserver中存储过程,触发器,自定义函数

    Sqlserver中存储过程,触发器,自定义函数: 1. 触发器:是针对数据库表或数据库的特殊存储过程,在某些行为发生的时候就会被激活 触发器的分类: DML触发器:发生在数据操作语言执行时触发执行的 ...

  4. jxl的API

    jxl的API 使用Windows操作系统的朋友对Excel(电子表格)一定不会陌生,但是要使用Java语言来操纵Excel文件并不是一件容易的事.在Web应用日益盛行的今天,通过Web来操作Exce ...

  5. MySQL数据库优化技术概述

    对于一个以数据库为中心的应用,数据库的优化直接影响到程序的性能,因此数据库性能至关重要.一般来说,要保证数据库的效率,要做好以下几个方面的工作: 1. 数据库表设计: 表的设计合理化(符合3NF): ...

  6. HDU1116图论

    http://acm.split.hdu.edu.cn/showproblem.php?pid=1116 #include<stdio.h> #include<algorithm&g ...

  7. Ubuntu 12.04 gedit编辑器 中文乱码

    百度一下查看了很多关于这个问题的解决方法,无非是用通过配置编辑器修改键值来解决.但是由于我的ubuntu是12.04版本的,搜索到的很多方法都不能用,网上一般的解决办法如下: 打开“注册表”(从字面理 ...

  8. android界面布局技巧(一)

    (1)//得到手机的宽高 Display display = getWindowManager().getDefaultDisplay(); int screenWidth = display.get ...

  9. python核心编程 第二天

    1.标准输入输出: import sys saveout=sys.stdout#保存当前输出状态 logfile=open('E://log.txt','r')# 打开文件 sys.stdout=lo ...

  10. QQ音乐无损歌曲接口api

    1.打开QQ音乐官网 y.qq.com 2.选择你要的歌曲,进入后查看网址,以虎口脱险这个歌曲为例:http://y.qq.com/#type=song&mid=000Ib8E71sUNi7 ...