.net高级技术(class0515)
本次课程中讲的有的东西都是根据初学者的认知规律进行了调整,并不是严谨的,比如很多地方在多AppDomain条件下很多说法就不对了,但是说严谨了大家就晕了,因此继续不严谨的讲吧。 很多面试题都在这阶段的课程中。 .Net高级技术属于拔高内容,根据自己的基础决定学习深度。 参考教材: 《C#高级编程》 《C#图解教程》 《CLR Via C#》
正则表达式前奏:地狱
需求1:“192.168.10.5[port=8080]”,这个字符串表示IP地址为192.168.10.5的服务器的8080端口是打开的,请用程序解析此字符串,然后打印出“IP地址为***的服务器的***端口是打开的”。
需求2:“192.168.10.5[port=21,type=ftp]”,这个字符串表示IP地址为192.168.10.5的服务器的21端口提供的是ftp服务,其中如果“,type=ftp”部分被省略,则默认为http服务。请用程序解析此字符串,然后打印出“IP地址为***的服务器的***端口提供的服务为***”
需求3:判断一个字符串是否是Email?必须含有@和.、不能以@或者.开始或者结束、@要在最后一个.之前
需求4:从一个文本中提取出所有的Email:我有全部333M的照片,要的给我发email:me@wo.com。我也要you@you.com,123456@163.com,楼主好人:888888@qq.cn。 需求5:提取网页中的所有图片、超链接。
正则表达式入门:天堂
正则表达式是用来进行文本处理的技术,是语言无关的,在几乎所有语言中都有实现。javascript中还会用到。
一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。 就像通配符“*.jpg”、“%ab%”,它是对字符串进行匹配的特殊字符串 正则表达式是非常复杂的,不要希望一次都掌握,理解正则表达式能做什么(字符串的匹配、字符串的提取、字符串的替换),掌握常用的正则表达式用法,以后用到再查就行。 找工作的亮点。后面项目中的敏感词过滤、Validator等也会涉及到正则表达式。
元字符1
要想学会正则表达式,理解元字符是一个必须攻克的难关。不用刻意记
.:匹配任何单个字符。例如正则表达式“b.g”能匹配如下字符串:“big”、“bug”、“b g”,但是不匹配“buug”,“b..g”可以匹配“buug”。
[ ] :匹配括号中的任何一个字符。例如正则表达式“b[aui]g”匹配bug、big和bag,但是不匹配beg、baug。可以在括号中使用连字符“-”来指定字符的区间来简化表示,例如正则表达式[0-9]可以匹配任何数字字符,这样正则表达式“a[0-9]c”等价于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串;还可以制定多个区间,例如“[A-Za-z]”可以匹配任何大小写字母,“[A-Za-z0-9]”可以匹配任何的大小写字母或者数字。
( ) :将 () 之间括起来的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体。改变优先级、定义提取组两个作用。
| :将两个匹配条件进行逻辑“或”运算。'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。
元字符2
*:匹配0至多个在它之前的子表达式,和通配符*没关系。例如正则表达式“zo*”能匹配 “z” 、“zo”以及 “zoo”;因此“.*”意味着能够匹配任意字符串。"z(b|c)*"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)*"能匹配z、zab、zabab(用括号改变优先级)。
+ :匹配前面的子表达式一次或多次,和*对比(0到多次)。例如正则表达式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ,不能匹配"z"。
? :匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 。一般用来匹配“可选部分”。
{n} :匹配确定的 n 次。"zo{2}"→zoo。例如,“e{2}” 不能匹配“bed”中的“e”,但是能匹配“seed”中的两个“e”。
{n,} :至少匹配n次。例如,“e{2,}”不能匹配“bed”中的“e”,但能匹配 “seeeeeeeed”中的所有“e”。
{n,m} :最少匹配 n 次且最多匹配 m 次。“e{1,3}”将匹配“seeeeeeeed”中的前三个“e”。
元字符3
^(shift+6) :匹配一行的开始。例如正则表达式“^regex”能够匹配字符串“regex我会用”的开始,但是不能匹配“我会用regex”。
^另外一种意思:非!(暂时不用理解)
$ :匹配行结束符。例如正则表达式“浮云$” 能够匹配字符串“一切都是浮云”的末尾,但是不能匹配字符串“浮云呀”
简写表达式
注意这些简写表达式是不考虑转义符的,这里的\就表示字符\,而不是C#字符串级别的\,在C#代码中需要使用@或者\双重转义。区分C#级别的转移和正则表达式级别的转移,恰好C#的转义符和正则表达式的转义符都是\而已。正则表达式的转移是在C#之后的(层层盘剥)。把C#的转义符想成%就明白了。在C#看来@"\-"就是\-这个普通的字符串,只不过在正则表达式分析引擎看来他有了特殊含义。"\\d"或者@"\d"
\d:代表一个数字,等同于[0-9]
\D:代表非数字,等同于[^0-9]
\s:代表换行符、Tab制表符等空白字符
\S:代表非空白字符
\w:匹配字母或数字或下划线或汉字,即能组成单词的字符
\W:非\w ,等同于[^\w]
d:digital;s:space、w:word。大写就是“非”
.Net中的正则表达式1
参考:《C#高级编程》7.3。发元字符解释PPT
正则表达式在.Net就是用字符串表示,这个字符串格式比较特殊,无论多么特殊,在C#语言看来都是普通的字符串,具体什么含义由Regex类内部进行语法分析。 正则表达式(Regular Expression)的主要类:Regex
常用的3种情况:(C#语法)
判断是否匹配:Regex.IsMatch(“字符串”,”正则表达式”);
字符串提取:Regex.Match(“字符串”,“要提取的字符串的正则表达式”);
字符串提取(循环提取所有): Regex.Matches()
字符串替换:Regex.Replace(“字符串”,”正则”,”替换内容”);
.Net中的正则表达式2
Regex.IsMatch方法用于判断一个字符串是否匹配正则表达式。
字符串匹配例子:
Regex.IsMatch("bbbbg","^b.*g$");
Regex.IsMatch("bg", "^b.*g$");
Regex.IsMatch("gege", "^b.*g$");
一定不能忘了^和$,否则也能匹配yesbagit
字符串匹配案例1
练习1:判断是否是合法的邮政编码(6位数字)
Regex.IsMatch("100830","^[0-9]{6}$")
Regex.IsMatch("119", @"^\d{6}$");
解释:由元字符定义得知“[0-9]”表示0到9的任意字符,“{6}”表示前面的字符匹配6此,因此“[0-9]{6}”中的{6}表示对数字匹配6次。简写表达式得知“[0-9]”可以被“\d”代替,所以第二种写法“\d{6}”也是正确的。
字符串匹配案例2
判断一个字符串是不是身份证号码,即是否是15或18位数字。
错误写法:Regex.IsMatch(“123456789123456789”, @“^\d{15}|\d{18}$”),表示15位数字开头或者18位数字结尾.//匹配“以15位数字开始”或者“以18位数字结束”( | 的优先级最低,最后执行)
正确写法:Console.WriteLine(Regex.IsMatch("0111111111111111", @"^\d{15}$|^\d{18}$"))或者@"^(\d{15}|\d{18})$"
字符串匹配案例3
判断字符串是否为正确的国内电话号码,不考虑分机。
010-8888888或010-88888880或010xxxxxxx
0335-8888888或0335-88888888(区号-电话号)
10086、10010、95595、95599、95588(5位)
13888888888(11位都是数字)
Regex.IsMatch(phoneNumber, @“^((\d{3,4}\-?\d{7,8})|(\d{5})|(\d{11}))$");
按照要求一个一个写,都用|连起来。注意:由于区号有时为010-xxxxxxx有时为010xxxxxxx,-可有可无,所以需要?,由于-表示一个区间,所以这里要转义\-。最后不要忘记在所有|的最外层加一对()
while (true)
{
string phoneNumber = Console.ReadLine();
bool b = Regex.IsMatch(phoneNumber, @"^((\d{3,4}\-\d{7,8})|(\d{5})|(\d{11}))$");
Console.WriteLine(b);
}
字符串匹配案例4
判断一个字符串是否是合法的Email地址。一个Email地址的特征就是以一个字符序列开始,后边跟着“@”符号,后边又是一个字符序列,后边跟着符号“.”,最后是字符序列 Regex.IsMatch("email12@mail.com", @"^\w+@\w+\.\w+$");
[]括号中的任意字符,\w字母、数字、下划线,+一到多个。由于.在正则表达式中有特殊的含义,因此对于真正想表达“.”则需要转移“\.”。
Email:
^(([a-zA-Z0-9_\-\.]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{,}){,})+([;.](([a-zA-Z0-9_\-\.]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{,}){,})+)*$
字符串匹配练习
1、匹配IP地址,4段用.分割的最多三位数字。 192.168.54.77、333.333.333.333假设都是正确的。
2、判断是否是合法的日期格式“2008-08-08”。四位数字-两位数字-两位数字。
3、判断是否是合法的url地址,http://www.test.com/a.htm、ftp://127.0.0.1/1.txt。字符串序列://字符串序列。@"^\w+://.+$"。//简化的识别,项目中你搜“w3c URL 正则表达式”。.+而不是\w,否则"?id=1"中的?就不能匹配了。 http://www.test.com/a.aspx?id=1
元字符中的字符,如果想直接匹配的话都需要转移: \. \+ \? \+ \- \* ……….
=================================================
取巧的办法:从ASP.Net的RegularExpressionValidator中抄常用的正则表达式,工作中一般是从网上找现成的。或者去http://www.regexlib.com/ 搜索。
IP地址正则表达式:
^([-]|[-][-]|[-]{}[-]{}|[-]{}[-]{}|[-])\.([-]|[-][-]|[-]{}[-]{}|[-]{}[-]{}|[-]|)\.([-]|[-][-]|[-]{}[-]{}|[-]{}[-]{}|[-]|)\.([-]|[-][-]|[-]{}[-]{}|[-]{}[-]{}|[-])$ URL匹配:
^(http|https|ftp)\://([a-zA-Z0-9\.\-]+(\:[a-zA-Z0-9\.&%\$\-]+)*@)*((25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9])\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])|localhost|([a-zA-Z0-9\-]+\.)*[a-zA-Z0-9\-]+\.(com|edu|gov|int|mil|net|org|biz|arpa|info|name|pro|aero|coop|museum|[a-zA-Z]{2}))(\:[0-9]+)*(/($|[a-zA-Z0-9\.\,\?\'\\\+&%\$#\=~_\-]+))*$ ([-])|([])匹配月份
字符串提取-提取所有“超链接”
MatchCollection matches = Regex.Matches(str, "<a href=\".*?\">.*?</a>");
foreach (Match item in matches)
{
if (item.Success)
{
Console.WriteLine(item.Value);
}
}
@“<a((\s*?)(.+?)(\s*?))>.+?</a>“ //空白符无法匹配。使用\s
.不匹配回车、换行等空白字符。
Regex.Match()只能匹配第一个,怎么办? match的Success属性表示是否匹配成功;
提取文档中所有匹配该正则表达式的字符串。
介绍贪婪模式。
test1.htm
@“<a((\s*?)(.+?)(\s*?))>.+?</a>“ //空白符无法匹配。使用\s
//提取字符串的时候不需要用^$
string str = "<a href=\"www.baidu.com\">baidu</a>fdsfdsfdsfdfd<a href=\"www.google.com\">google</a>乱七八糟什么都有ffdsf<a href=\"www.163.com\">163</a>s辅导书frewrewre<a href=\"www.sohu.com\">sohu</a><h1>这个是测试!!</h1><a href=\"www.sina.com.cn\">sina</a>sfdsfdss";
@“<a((\s*?)(.+?)(\s*?))>.+?</a>“ //空白符无法匹配。使用\s
贪婪模式与非贪婪模式
从文本提取出名字:
Match match = Regex.Match("大家好。我是S.H.E。我22岁了。我病了,呜呜。", "我是(.+)。");//没有加^$。
看结果。+、*、{n}、{n,}、{n,m}的匹配默认是贪婪(greedy)的:尽可能多的匹配,直到“再贪婪一点儿”其后的匹配模式就没法匹配为止。
在+、*后添加?就变成非贪婪模式(? 的另外一个用途):让其后的匹配模式尽早的匹配。修改成"我是(.+?)。"
一般开发的时候不用刻意去修饰为非贪婪模式,只有遇到bug的时候发现是贪婪模式的问题再去解决。
提取网页中的所有url
提取网页中的所有http://.....
没有在<a ></a>标签中的也要提取
MatchCollection matches = Regex.Matches(htmltxt, @"http://[a-zA-z0-9\-_\?&=\.]+");
foreach (Match match in matches)
{
Console.WriteLine(match.Value);
}
.net高级技术(class0515)的更多相关文章
- [译]基于GPU的体渲染高级技术之raycasting算法
[译]基于GPU的体渲染高级技术之raycasting算法 PS:我决定翻译一下<Advanced Illumination Techniques for GPU-Based Volume Ra ...
- paip.java 架构师之路以及java高级技术
paip.java 架构师之路以及java高级技术 1. Annotation 设计模式... 概念满天飞.ORM,IOC,AOP. Validator lambda4j memcache. 对 ...
- 【ASP.NET Identity系列教程(三)】Identity高级技术
注:本文是[ASP.NET Identity系列教程]的第三篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...
- .Net高级技术
本次课程中讲的有的东西都是根据初学者的认知规律进行了调整,并不是严谨的,比如很多地方在多AppDomain条件下很多说法就不对了,但是说严谨了大家就晕了,因此继续不严谨的讲吧. 很多面试题都在这阶段的 ...
- 【Spring】Spring MVC高级技术
前言 前面学习了简单的Spring Web知识,接着学习更高阶的Web技术. 高级技术 Spring MVC配置的替换方案 自定义DispatcherServlet配置 在第五章我们曾编写过如下代码. ...
- Java基础(十三) 文件高级技术
文件高级技术 一.常见文件类型处理 一)属性文件 属性文件很简单,一行表示一个属性,属性就是键值对,键和值用(=)或者(:)分隔. #ready to work name = tang age = p ...
- DataSnap高级技术(7)—TDSServerClass中Lifecycle生命周期三种属性说明
From http://blog.csdn.net/sunstone/article/details/5282666 DataSnap高级技术(7)—TDSServerClass中Lifecycle生 ...
- SpringInAction--SpringMvc高级技术(servlet、filter、multipart)
前面学了spirng的一些配置,以及web方面的知识,今天就在学习一下在spring比较常用的一些高级技术... 首先来介绍下什么叫servlet吧(来着维基百科) Servlet(Server Ap ...
- spring-mvc高级技术
Spring MVC高级技术包括但不限于web.xml配置.异常处理.跨重定向请求传递数据 1.web.xml文件的配置 <!DOCTYPE web-app PUBLIC "-//Su ...
随机推荐
- OPenGL中三维图形的矩阵变换
对于二维的图形开发,拿简单的图片显示来说,我们主要的目的:就是在一块显示buffer中,不停的把每个像素进行着色,然后就可以绘制出来了.为了速度,很多其他的加速方法,但原理基本上就是这样了. 很直观, ...
- TCL语言笔记:TCL练习
一.关于随机数的练习 1.随机生成一个最大值到最小值之间的整数 proc random {min max} { return [expr round(($max-$min)*rand()+$min)] ...
- C++:运算符重载函数
5.运算符重载 5.1 在类外定义的运算符重载函数 C++为运算符重载提供了一种方法,即在运行运算符重载时,必须定义一个运算符重载函数,其名字为operator,后随一个要重载的运算符.例如,要重载& ...
- Android Handler使用实例
本文主要介绍Android中Handler的简单使用方法,Handler跟多线程,消息队列联系很紧密,在平常的实际程序开发中比较常见.本文分为4个简单的例子来学校handler Handler使用例1 ...
- linq 分类
linq技术为我们开发人员提供了五个比较实用的数据访问类型: LinQ to Object:可以允许对内存中的类对象查询. LinQ to DataSet:可以对内存中的DataSet缓存数据,执行数 ...
- MapReduce编程系列 — 5:单表关联
1.项目名称: 2.项目数据: chile parentTom LucyTom JackJone LucyJone JackLucy MaryLucy Ben ...
- [从jQuery看JavaScript]-匿名函数与闭包(Anonymous Function and Closure)【转】
(function(){ //这里忽略jQuery所有实现 })(); 半年前初次接触jQuery的时候,我也像其他人一样很兴奋地想看看源码是什么样的.然而,在看到源码的第一眼,我就迷糊了.为什么只有 ...
- 2008年我买了一本书 书名叫“PHP 6”
上个星期天,我感觉应该整理一下我的书柜.于是,在书柜里,我发现了一本几乎完全忘记的书(我想不起来为什么要买它!):<PHP 6 – 快速简洁的Web开发> 这本书出版于2008年一月.而六 ...
- maven项目配置Jetty服务器
<plugin> <groupId>org.mortbay.jetty</groupId> <artifactId>jetty-maven-plugin ...
- 深入分析 ThreadLocal 内存泄漏问题
前言 ThreadLocal 的作用是提供线程内的局部变量,这种变量在线程的生命周期内起作用,减少同一个线程内多个函数或者组件之间一些公共变量的传递的复杂度.但是如果滥用ThreadLocal,就可能 ...