C#中正则表达式的使用

目前为止，许多编程语言和工具都包含对正则表达式的支持，C#也不例外，C#基础类库中包含有一个命名空间（System.Text.RegularExpressions）和一系列可以充分发挥规则表达式威力的类(Regex、Match、Group等)。那么，什么是正则表达式，怎么定义正则表达式呢？

一、正则表达式基础

l          什么是正则表达式

   在编写字符串的处理程序时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。

    通常，我们在使用WINDOWS查找文件时，会使用通配符（*和?）。如果你想查找某个目录下的所有Word文档时，你就可以使用*.doc进行查找，在这里，*就被解释为任意字符串。和通配符类似，正则表达式也是用来进行文本匹配的工具，只不过比起通配符，它能更精确地描述你的需求——当然，代价就是更复杂。

l          一个简单的例子——验证电话号码 

学习正则表达式的最好方法是从例子开始，下面我们从验证电话号码开始，一步一步的了解正则表达式。

在我们国家，电话号码（如：-）通常包含3到4为以0开头的区号和一个7或8为的号码，中间通常以连字符’-’隔开。在这个例子中，首先我们要介绍一个元字符\d，它用来匹配一个0到9的数字。这个正则表达式可以写成：^\d{,}-\d{,}$

我们来对他进行分析，0匹配数字“”，\d匹配一个数字，{,}表示重复2到3次，-只匹配”-”自身，接下来的\d同样匹配一个数字，而 {,}则表示重复7到8次。当然，电话号码还可以写成 ()，这里就交给读者完成。

l          元字符

在上面的例子中，我们接触到了一个元字符\d，正如你所想的，正则表达式还有很多像\d一样的元字符，下表列出了一些常用的元字符：

元字符

 说明

.

 匹配除换行符以外的任意字符

\b

 匹配单词的开始或结束

\d

 匹配数字

\s

 匹配任意的空白符

\w

 匹配字母或数字或下划线或汉字

^

 匹配字符串的开始

$

 匹配字符串的结束

表1、常用的元字符

l          转义字符

   如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

例如：unibetter\.com匹配unibetter.com，C:\\Windows匹配C:\Windows。

l          限定符

限定符又叫重复描述字符，表示一个字符要出现的次数。比如我们在匹配电话号码时使用的{,}就表示出现3到4次。常用的限定符有：

限定符

 说明

*

 重复零次或更多次

+

 重复一次或更多次

?

 重复零次或一次

{n}

 重复n次

{n,}

 重复n次或更多次

{n,m}

 重复n到m次

表2、常用的限定符

二、.NET中正则表达式的支持

    System.Text.RegularExpressions 命名空间包含一些类，这些类提供对 .NET Framework 正则表达式引擎的访问。该命名空间提供正则表达式功能，可以从运行在 Microsoft .NET Framework 内的任何平台或语言中使用该功能。 

    、在C#中使用正则表达式

在了解了C#中支持正则表达式的类后，我们一起来将上面提到的验证电话号码的正则表达式写入C#代码中，实现电话号码的验证。

第一步，建立一个名为SimpleCheckPhoneNumber的Windows项目。

第二步，引入System.Text.RegularExpressions命名空间。

第三步，写出正则表达式。这里的正则表达式就是上面的验证号码的字符串。由于上面的字符串只能验证用连字符连接区号和号码的方式的电话号码，所以我们做了一些修改：\d{,}-\d{,}|\(\d{,}\)\d{,}。在这个表达式中，| 号面的一部分是我们上面提到过的，后面一部分是用来验证()65624150这种电话号码写法的。由于 (  和  ) 也是元字符，所以要用转义字符。| 表示分支匹配，要么匹配前面的一部分，要么匹配后面的一部分。

第四步，正则表达式构造一个Regex类。

第五步，使用Regex类的IsMatch方法验证匹配。Regex类的IsMatch()方法返回一个bool值，如果有匹配项，返回true，否则返回false。

三、正则表达式进阶

l      分组

在匹配电话号码的时候，我们已经用到过重复单个字符。下面我们来了解如何使用分组来匹配一个IP地址。

众所周知，IP地址是四段点分十进制的字符串表示的。所以，我们可以通过地址的分组，来进行匹配。首先，我们来匹配第一段：[-]\d|[-]|[]?\d\d? 这段正则表达式可以匹配IP地址的一段数字。[-]\d 匹配以2开头，十位为0到4，个位为任何数字的三位字段，[-] 匹配以25 开头，个位为0到5 的三位字段，[]?\d\d? 匹配任何以1者0头，个位和十位为任何数子的字段。? 表示出现零次或一次。所以， [] 和 最后一个 \d 都可以不出现，如果我们再向这个字符串后面添加一个 \. 来匹配 . 就可以划分一个段了。现在，我们把 [-]\d|[-]|[]?\d\d?\. 当做一个分组，就可以写成 ([-]\d|[-]|[]?\d\d?\.) 。接下来我们就来使用这个分组。将这个分组重复两次，然后，再使用 [-]\d|[-]|[]?\d\d? 就可以了。完整的正则表达式为： ([-]\d|[-]|[]?\d\d?\.){}[-]\d|[-]|[]?\d\d? 

l      后向引用

在我们了解分组以后，我们就可以使用后向引用了。所谓后向引用，就是使用前面捕获的结果，对后面的字符进行匹配。多用于匹配重复字符。比如匹配 go go 这样的重复字符。我们就可以使用 (go) \1来进行匹配。

默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。当然，你也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?<Word>\w+)(或者把尖括号换成'也行：(?'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用\k<Word>,所以上一个例子也可以写成这样：\b(?<Word>\w+)\b\s+\k<Word>\b。

自定义组名还有另外一个好处，在我们的C#程序中，如果需要得到分组的值，我们就可以很明确的使用我们定义的分组的名字来得到，而不必使用下标。

当我们并不想使用后向引用时，是不需要捕获组记忆任何东西的，这种情况下就可以利用(?:nocapture)语法来主动地告诉正则表达式引擎，不要把圆括号的内容当作捕获组，以便提高效率。

l      零宽断言

在前面的元字符介绍中，我们已经知道了有这样一类字符，可以匹配一句话的开始、结束（^ $）或者匹配一个单词的开始、结束（\b）。这些元字符只匹配一个位置，指定这个位置满足一定的条件，而不是匹配某些字符，因此，它们被成为 零宽断言。所谓零宽，指的是它们不与任何字符相匹配，而匹配一个位置；所谓断言，指的是一个判断。正则表达式中只有当断言为真时才会继续进行匹配。

在有些时候，我们精确的匹配一个位置，而不仅仅是句子或者单词，这就需要我们自己写出断言来进行匹配。下面是断言的语法：

断言语法

 说明

(?=pattern)

 前向肯定断言，匹配pattern前面的位置

(?!pattern)

 前向否定断言，匹配后面不是pattern的位置

(?<=pattern)

 后向肯定断言，匹配pattern后面的位置

(?<!pattern)

 后向否定断言，匹配前面不是pattern的位置

表3、断言的语法及说明

很难理解吗？我们来看一个例子。

有一个标签：<book>，我们想要得到标签<book>的标签名（book），这个时候，我们就可以使用断言来处理。看下面这个表达式：(?<=\<)(?<tag>\w*)(?=\>) ，使用这个表达式，可以匹配< 和 >之间的字符，也就是这里的book。使用断言还还可以写出更加复杂的表达式，这里就不再举例了。

还有一点非常重要，就是断言语法所使用的圆括号并不作为捕获组，所以不能使用编号或命名来对它进行引用。

l 贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。来看一下这个表达式：a\w*b ，用它来匹配字符串 aabab 时，得到的匹配结果是 aabab 。这种匹配被称为贪婪匹配。

有些时候，我们希望让它尽可能的少重复，即用上面的例子得到的匹配结果是 aab，这时我们就要使用懒惰匹配。懒惰匹配需要在重复限定符的后面添加一个 ? 符号，上面的表达式就可以写成：a\w*?b 我们再来匹配字符串 aabab时，得到的匹配结果是 aab 和 ab 。

也许这个时候你要问，ab 比aab重复次数更少，为什么不先匹配ab呢？其实在正则表达式中还有比贪婪/懒惰优先级更高的规则：最先开始的匹配拥有最高的优先权——The match that begins earliest wins。

l 注释

语法：(?#comment)

   例如：[-]\d(?#-)|[-](?#-)|[]?\d\d?(?#-)

   注意：如果使用注释，则需要格外注意不要在注释的小括号前面出现空格、换行符等一些字符，如果可以忽略这些字符，则最好使用“忽略模式里的空白符”选项，即C#中RegexOptions枚举的IgnorePatternWhitespace选项（C#中的RegexOptions枚举下面将会提到）。

l C#中的处理选项

在C#中，可以使用RegexOptions 枚举来选择C#对正则表达式的处理方式。下面是MSDN中RegexOptions 枚举的成员介绍：

l C#中Capture类、Group类、Match类

Capture类：表示单个子表达式捕获中的结果。Capture类表示单个成功捕获中的一个子字符串。该类没有公共构造函数，可以从Group类或者Match类中得到一个Capture类的对象集合。Capture类有三个常用属性，分别是Index、Length和Value。Index表示捕获的子字符串的第一个字符的位置。Length表示捕获的子字符串的长度，Value表示捕获的子字符串。

Group类：表示正则表达式中分组的信息。该类提供了对分组匹配的正则表达式的支持。该类没有公共构造函数。可以从Match类中得到一个Group类的集合。如果正则表达式中的分组已命名，则可以使用名字对其进行访问，如果没有命名，则可以采用下标访问。注意：每一个Match的Groups集合中的第0个元素（Groups[]）都是这个Match捕获的字符串，也是Capture的Value。

Match类：表示单个正则表达式匹配的结果。该类同样没有公共构造函数，可以从Regex类的Match()方法得到该类的一个实例，也可以使用Regex类的Matches()方法得到给类的一个集合。

这三个类都能表示单个正则表达式匹配的结果，但Match类得到的更为详细，包含捕获和分组信息。所以，Match类在这个三个类中是最常用的。

C#中正则表达式的使用的更多相关文章

详解Javascript中正则表达式的使用
正则表达式用来处理字符串特别好用,在JavaScript中能用到正则表达式的地方有很多,本文对正则表达式基础知识和Javascript中正则表达式的使用做一个总结. 第一部分简单列举了正则表达式在Ja ...
JavaScript正则表达式详解（二）JavaScript中正则表达式函数详解
二.JavaScript中正则表达式函数详解(exec, test, match, replace, search, split) 1.使用正则表达式的方法去匹配查找字符串 1.1. exec方法详解 ...
mysql中正则表达式的使用
mysql中正则表达式的性能要高于like,所以这里总结一下正则表达式的使用. 正则表达式的模式及其含义: 下面举例说明其用法: 建表student: create table student(id ...
java中正则表达式基本用法
正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它用以描述在查找文字主体时待匹配的一个或多个字符串.正则表达式作为 ...
java基础---->java中正则表达式二
跟正则表达式相关的类有:Pattern.Matcher和String.今天我们就开始Java中正则表达式的学习. Pattern和Matcher的理解一.正则表达式的使用方法一般推荐使用的方式如下 ...
C#和Javascript中正则表达式使用的总结
说明:本文并非原创,而是从网站上搜集了一些资料整理的!如有雷同,纯属巧合 1.js中正则表达式的使用在js中定义正则表达式很简单,有两种方式,一种是通过构造函数,一种是通过//,也就是两个斜杠.例如 ...
Java中正则表达式去除html标签
Java中正则表达式去除html的标签,主要目的更精确的显示内容,比如前一段时间在做类似于博客中发布文章功能,当编辑器中输入内容后会将样式标签也传入后台并且保存数据库,但是在显示摘要的时候,比如显示正 ...
JavaScript中正则表达式判断匹配规则以及常用的方法
JavaScript中正则表达式判断匹配规则以及常用的方法: 字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在. 正则表达式是一种用来匹配字符串的强有力的武器.它的设计思想 ...
JAVA中正则表达式常用的四个方法
JAVA中正则表达式处理字符串的四个常用方法:匹配.分割.替换.截取.其跟字符串的常用函数相似,但是使用正则表达式会更简单.更加简洁.下面是具体的例子: public class TestRegex ...

随机推荐

return, exit, _exit的区别
return是返回的最常用的方式 _exit属于POSIX定义的系统调用 exit是GLIBC封装之后的函数 1 _exit和exit都会导致整个进程退出,清理进程所占用的资源,但是glibc封装ex ...
学习：Log中'main', 'system', 'radio', 'events'
在Android中不同的log写到不同的设备中,共有/dev/log/system, /dev/log/main, /dev/log/radion, /dev/log/events四中类型.其中默认L ...
HTML的表单
HTML表单 <!-- <form></form>标签对用来创建一个表单,即定义表单的开始和结束位置,<form>表单具有下面等属性 1.action属性用来 ...
context理解
官方文档的解释是:Context提供了关于应用环境全局信息的接口.它是一个抽象类,它的执行被Android系统所提供.它允许获取以应用为特征的资源和类型.同时启动应用级的操作,如启动Activity, ...
Postfix之telnet测试
1.# 2. 3.#若没安装telnet 需安装telnet 4.yum install telnet 5. 6.#telnet测试smtp连接postfix 7.telnet 127.0.0.1 2 ...
学习笔记：APP切图那点事儿–详细介绍android和ios平台
学习笔记:APP切图那点事儿–详细介绍android和ios平台转载自:http://www.woofeng.cn/articles/168.html 版权归原作者所有作者:亚茹有李原文地址 ...
【题解】【排列组合】【素数】【Leetcode】Unique Paths
A robot is located at the top-left corner of a m x n grid (marked 'Start' in the diagram below). The ...
C# DataSet取值
1.读取dataset中某表某行某列的值: dataset.Tables[].Rows[].ItemArray[].ToString()dataset.Tables[0].Rows[0][0]; 该示 ...
coreseek(sphinx)安装1(xml数据源配置和测试)
1.下载coreseek-3.2.14-32版本.网址:http://www.coreseek.cn/products-install/install_on_windows/ (有详细的安装说明) ...
137. Single Number II
Given an array of integers, every element appears three times except for one. Find that single one. ...

C#中正则表达式的使用

C#中正则表达式的使用的更多相关文章

随机推荐

热门专题