正则表达式入门(ed模糊匹配)

元字符:

/b 代表着单词的开头或结尾，也就是单词的分界处.如果要精确地查找hi这个单词的话，我们应该使用/bhi/b.

.是另一个元字符，匹配除了换行符以外的任意字符,*同样是元字符，它指定*前边的内容可以重复任意次以使整个表达式得到匹配。

.*连在一起就意味着任意数量的不包含换行的字符。

/d是一个新的元字符，匹配任意的数字,0/d/d-/d/d/d/d/d/d/d/d也就是中国的电话号码.为了避免那么多烦人的重复，我们也可以这样写这个表达式：0/d{2}-/d{8}。

/s匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。/w匹配字母或数字或下划线或汉字。

/b/w{6}/b 匹配刚好6个字母/数字的单词。

字符转义：使用/来取消这些字符的特殊意义。因此，你应该使用/.和/*。当然，要查找/本身，你也得用//。

代码     说明
   . 匹配除换行符以外的任意字符
/w 匹配字母或数字或下划线或汉字
/s 匹配任意的空白符
/d 匹配数字
/b 匹配单词的开始或结束
^   匹配字符串的开始
$   匹配字符串的结束

重复：
常用的限定符
代码/语法说明
   * 重复零次或更多次
   + 重复一次或更多次
   ? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

要想查找数字，字母或数字，你只需要在中括号里列出它们就行了，像[aeiou]就匹配任何一个元音字母，[.?!]匹配标点符号(.或?或!)

反义：
常用的反义代码
代码/语法   说明
   /W   匹配任意不是字母，数字，下划线，汉字的字符
   /S   匹配任意不是空白符的字符
   /D   匹配任意非数字的字符
   /B   匹配不是单词开头或结束的位置
[^x]   匹配除了x以外的任意字符
      [^aeiou]   匹配除了aeiou这几个字母以外的任意字符

替换：
   正则表达式里的替换指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开。
   0/d{2}-/d{8}|0/d{3}-/d{7}这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。
   /(0/d{2}/)[- ]?/d{8}|0/d{2}[- ]?/d{8}这个表达式匹配3位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。你可以试试用替换|把这个表达式扩展成也支持4位区号的。
   /d{5}-/d{4}|/d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用替换时，顺序是很重要的。如果你把它改成/d{5}|/d{5}-/d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配替换时，将会从左到右地测试每个分枝条件，如果满足了某个分枝的话，就不会去管其它的替换条件了。

分组：

如果想要重复一个字符串又该怎么办？你可以用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了。
(/d{1,3}/.){3}/d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：/d{1,3}匹配1到3位的数字，(/d{1,3}/.}{3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(/d{1,3})。不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址(IP地址中每个数字都不能大于255)。如果能使用算术比较的话，或许能简单地解决这个问题，但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：
((2[0-4]/d|25[0-5]|[01]?/d/d?)/.){3}(2[0-4]/d|25[0-5]|[01]?/d/d?)。

后向引用：

后向引用用于重复搜索前面某个分组匹配的文本。例如，/1代表分组1匹配的文本。难以理解？请看示例：
/b(/w+)/b/s+/1/b可以用来匹配重复的单词，像go go, kitty kitty。首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(/b(/w+)/b)，然后是1个或几个空白符(/s+，最后是前面匹配的那个单词(/1)。

懒惰限定符
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

位置指定:

接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们用于指定一个位置，就像/b,^,$那样，因此它们也被称为零宽断言。最好还是拿例子来说明吧：

(?=exp)也叫零宽先行断言，它匹配文本中的某些位置，这些位置的后面能匹配给定的后缀exp。比如/b/w+(?=ing/b)，匹配以 ing结尾的单词的前面部分(除了ing以外的部分)，如果在查找I'm singing while you're dancing.时，它会匹配sing和danc。

(?<=exp)也叫零宽后行断言，它匹配文本中的某些位置，这些位置的前面能给定的前缀匹配exp。比如(?<=/bre)/w+/b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了)，你可以这样查找需要在前面和里面添加逗号的部分：((?<=/d)/d{3})*/b。请仔细分析这个表达式，它可能不像你第一眼看出来的那么简单。

下面这个例子同时使用了前缀和后缀：(?<=/s)/d+(?=/s)匹配以空白符间隔的数字(再次强调，不包括这些空白符)。

负向位置指定:

前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现，但并不想去匹配它时怎么办？例如，如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样：

/b/w*q[^u]/w*/b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐，直接就观察出来了)，你会发现，如果q出现在单词的结尾的话，像Iraq,Benq，这个表达式就会出错。这是因为[^u]总是匹配一个字符，所以如果q是单词的最后一个字符的话，后面的 [^u]将会匹配q后面的单词分隔符(可能是空格，或者是句号或其它的什么)，后面的/w+/b将会匹配下一个单词，于是/b/w*q[^u]/w*/b 就能匹配整个Iraq fighting。负向位置指定能解决这样的问题，因为它只匹配一个位置，并不消费任何字符。现在，我们可以这样来解决这个问题：/b/w*q(?!u)
/w*/b。

零宽负向先行断言(?!exp)，只会匹配后缀exp不存在的位置。/d{3}(?!/d)匹配三位数字，而且这三位数字的后面不能是数字。

同理，我们可以用(?<!exp),零宽负向后行断言来查找前缀exp不存在的位置：(?<![a-z])/d{7}匹配前面不是小写字母的七位数字(实验时发现错误？注意你的“区分大小写”先项是否选中)。

一个更复杂的例子：(?<=<(/w+)>).*(?=<///1>)匹配不包含属性的简单HTML标签内里的内容。(<?(/w+)>)指定了这样的前缀：被尖括号括起来的单词(比如可能是)，然后是.*(任意的字符串),最后是一个后缀(?=<///1>)。注意后缀里的//，它用到了前面提过的字符转义；/1则是一个反向引用，引用的正是捕获的第一组，前面的 (/w+)匹配的内容，这样如果前缀实际上是的话，后缀就是了。整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀本身)。

注释:
小括号的另一种用途是能过语法(?#comment)来包含注释。例如：2[0-4]/d(?#200-249)|25[0-5](?#250-255)|[01]?/d/d?(?#0-199)。

要包含注释的话，最好是启用“忽略模式里的空白符”选项，这样在编写表达式时能任意的添加空格，Tab，换行，而实际使用时这些都将被忽略。启用这个选项后，在#后面到这一行结束的所有文本都将被当成注释忽略掉。

例如，我们可以前面的一个表达式写成这样：

(?<= # 查找前缀，但不包含它
 <(/w+)> # 查找尖括号括起来的字母或数字(标签)
 ) # 前缀结束
 .* # 匹配任意文本
 (?= # 查找后缀，但不包含它
 <///1> # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签
 ) # 后缀结束

贪婪与懒惰:
当正则表达式中包含能接受重复的限定符(指定数量的代码，例如*,{5,12}等)时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。考虑这个表达式：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab和ab（为什么第一个匹配是aab而不是ab？简单地说，最先开始的区配最有最大的优先权——The Match That Begins Earliest Wins）。

表5.懒惰限定符 *? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

-------------------------------------------------------

下面是一些常用的正则表达式:

匹配中文字符的正则表达式： [/u4e00-/u9fa5]
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^/x00-/xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：/n/s*/r
评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(/S*?)[^>]*>.*?<//1>|<.*? />
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^/s*|/s*$
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*
评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^/s]*
评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注：表单验证时很实用

匹配国内电话号码：/d{3}-/d{8}|/d{4}-/d{7}
评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：[1-9][0-9]{4,}
评注：腾讯QQ号从10000开始

匹配中国邮政编码：[1-9]/d{5}(?!/d)
评注：中国邮政编码为6位数字

匹配身份证：/d{15}|/d{18}
评注：中国的身份证为15位或18位

匹配ip地址：/d+/./d+/./d+/./d+
评注：提取ip地址时有用

匹配特定数字：
^[1-9]/d*$　　 //匹配正整数
^-[1-9]/d*$ 　 //匹配负整数
^-?[1-9]/d*$　　 //匹配整数
^[1-9]/d*|0$　 //匹配非负整数（正整数 + 0）
^-[1-9]/d*|0$　　 //匹配非正整数（负整数 + 0）
^[1-9]/d*/./d*|0/./d*[1-9]/d*$　　 //匹配正浮点数
^-([1-9]/d*/./d*|0/./d*[1-9]/d*)$　 //匹配负浮点数
^-?([1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0)$　 //匹配浮点数
^[1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]/d*/./d*|0/./d*[1-9]/d*))|0?/.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：
^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
^/w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串
评注：最基本也是最常用的一些表达式

18311 xencons=12wS0 on 3/29/2007 4 - Minor Error save_state missing

g/^18311/+0,s/xencons=[:a-z:]*[:A-Z:]*[:0-9:]*/xencons=ttyS/g
.
18311 xencons=ttyS on 3/29/2007 4 - Minor Error save_state missing long image listing: pan -il

18311   xencons=ttyS on 3/29/2007     4 - Minor Error save_state missing long image listing: pan -il
g/^18311/+0,s/xencons=[:a-z:|:0-9:|:A-Z:]/xencons=ttyS9/g
.
18311   xencons=ttyS9tyS on 3/29/2007     4 - Minor Error save_state missing long image listing: pan -il
g/^18311/+0,s/xencons=[:a-z:|:0-9:|:A-Z:]*/xencons=ttyS9/g
.
18311   xencons=ttyS9 on 3/29/2007     4 - Minor Error save_state missing long image listing: pan -il

正则表达式入门(ed模糊匹配)的更多相关文章

Java替换中使用正则表达式实现中间模糊匹配
使用“.+?”实现中间模糊匹配的代码: public class Test { public static void main(String[] args) { String str="总会 ...
postgresql模糊匹配正则表达式性能问题
postgresql 模糊匹配目前建议使用like,~~,不建议使用正则表达式, 目前有性能问题 https://yq.aliyun.com/articles/405097 正则表达式效率比较低 ...
Python 正则表达式入门（中级篇）
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
Python 正则表达式入门（初级篇）
Python 正则表达式入门(初级篇) 本文主要为没有使用正则表达式经验的新手入门所写. 转载请写明出处引子首先说正则表达式是什么? 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达 ...
分享录制的正则表达式入门、高阶以及使用 .NET 实现网络爬虫视频教程
我发布的「正则表达式入门以及高阶教程」,欢迎学习. 课程简介正则表达式是软件开发必须掌握的一门语言,掌握后才能很好地理解到它的威力: 课程采用概念和实验操作 4/6 分隔,帮助大家理解概念后再使用大 ...
JavaScript正则表达式详解（一）正则表达式入门
JavaScript正则表达式是很多JavaScript开发人员比较头疼的事情,也很多人不愿意学习,只是必要的时候上网查一下就可以啦~本文中详细的把JavaScript正则表达式的用法进行了列表,希望 ...
记一个同时支持模糊匹配和静态推导的Atom语法补全插件的开发过程: 序
简介过去的一周,都睡的很晚,终于做出了Atom上的APICloud语法提示与补全插件:apicloud_autocomplete.个中滋味,感觉还是有必要记录下来的.代码基于 GPL-3.0 开源, ...
转载 Python 正则表达式入门（中级篇）
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
转载 Python 正则表达式入门（初级篇）
Python 正则表达式入门(初级篇) 本文主要为没有使用正则表达式经验的新手入门所写.转载请写明出处引子首先说正则表达式是什么? 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达式 ...

随机推荐

Linux设备树学习
1.概念设备树用于实现驱动代码与设备信息相分离.驱动代码只负责处理驱动的逻辑而关于设备的具体信息存放到设备树文件中.(dts文件,编译后为dtb文件).一个dts文件对应一个ARM的machine, ...
There is no Action mapped for action name hello.
SSH框架系列：Spring读取配置文件以及获取Spring注入的Bean
分类: [java]2013-12-09 16:29 1020人阅读评论(0) 收藏举报 1.简介在SSH框架下,假设我们将配置文件放在项目的src/datasource.properties路 ...
线程与FORK
1.线程锁的问题需要调用进程线程锁处理函数 prefork-----获取父亲进程锁----在fork掉用之前,目的是为了在子进程中获取到可释放的锁 parentfork----释放父亲进程锁 chi ...
吴裕雄--天生自然JAVA数据库编程：JDBC操作步骤及数据库连接操作
public class ConnectionDemo01{ // 定义MySQL的数据库驱动程序 public static final String DBDRIVER = "org.gj ...
NO25 三剑客之SED行天下
功能说明 Sed是Stream Editor(流编辑器)缩写,是操作.过滤和转换文本内容的强大工具.常用功能有增删改查,过滤,取行. [root@oldboy ~]# sed --version #→ ...
Java多线程编程之守护线程
Java的线程分为两种,一个是用户线程,一个是守护线程.守护线程守护的对象就是用户线程,当用户线程结束后,守护它的守护线程也就会结束.二者的本质基本是一样的,唯一区别在于何时结束. 用户线程:直到自己 ...
面试-PA和XSYX面试小结
XSYX 1.自我介绍 2. 最近一个项目的业务和技术栈 3. 分布式锁解决库存问题 4. spring的IOC和AOP讲解 5. 类加载器层级 6.线程池核心参数和问题 7. 期待的团队是怎样的? ...
解决fedora28桌面图标问题
正文在fedora28中默认是没有桌面图标的,对于那些习惯使用桌面的图标的人来说使用有点不适应. 替代方法是: 下载nemo,在终端内输入sudo dnf install nemo 创建~/.con ...
java.neo的ByteBuffer与Netty 的ByteBuf
JDK的ByteBuffer的缺点: 1.final byte[] hb;这是JDKde ByteBuffer对象中用于存储数据的对象声明;可以看到,其字节数组是被声明为final的,也就是长度是固定 ...

正则表达式入门(ed模糊匹配)

正则表达式入门(ed模糊匹配)的更多相关文章

随机推荐

热门专题