希望能帮到有需要的朋友。-----转载请注明出处。

对于正则处理相关的知识,我一开始是从网上找资料配合使用Java API1.6的一个中文版进行学习,很感谢翻译这个版本的团队(机构)或者个人,很感谢那些无私分享自己的知识的朋友。

下文中对于正则的相关知识,现在我是从oracle提供的最新的Java API,可能和以前我看得1.6有些出入,贴出API地址:http://docs.oracle.com/javase/8/docs/api/

一,概括

在Java中,使用java.util.regex包下的Pattern和Matcher类对字符串进行处理。在这其中,其实最为重要还是正则匹配表达式(下文统称正表)的编写。大家可以在写完正表以后再这个网站上测试一下,我就经常在这网站上测试。这是链接:http://tool.oschina.net/regex/

但是有些正则表达式它不能识别,大家最好自己在as或者eclipse上写个单元测试,测试一下。

二,Pattern

该类继承自java.lang.Object类,并且实现了Serializable接口。

该类有两个获取实例的静态方法,分别是compile(String regex)和compile(String regex,int flag)。第二个方法多了个flag,主要用于定制获取的实例的匹配模式。

API中已经标示出Pattern的Field Summary,标识出来该类有9个常量。如下

CANON_EQ  Enables canonical equivalence.(启用规范的等价,应该是默认的,只匹配)

CASE_INSENSITIVE  Enables case-insensitive matching.(不区分大小写)

COMMENTS  Permits whitespace and comments in pattern.(模式中允许空白和注释)

DOTALL  Enables dotall mode.(这种模式下.匹配行尾)

LITERAL  Enables literal parsing of the pattern.(启动字面量解析模式)

MULTILINE  Enables multiline mode.(多行模式)

UNICODE_CASE  Enables Unicode-aware case folding.(If your code is intended to be portable and uses case-insensitive matching on non-ASCII characters, you should use this flag.)

UNICODE_CHARACTER_CLASS  Enables the Unicode version of Predefined character classes and POSIX character classes.(启用预定义的字符类和POSIX字符类的Unicode版本)

UNIX_LINES  Enables Unix lines mode.(启动Unix的行模式)

当使用Pattern.complie(regex)获取Pattern实例时,由于没有指定flag,系统默认传递了0。其它的就不细说了。对于上面几个flag,在看源码之前我一般都使用Pattern.complie(regex)获取Pattern实例,多行模式的话,在写正表的时候注意一下也是可以匹配多行的。

另使用flag()方法还可以取得当前Pattern实例的模式整数值。

如果只需要判断能否匹配成功,可以调用Pattern.matches(regex,input)。返回true就是匹配成功

三,Matcher

使用Patter的实例patter,调用patter.matcher(CharSequence input),input需要传入实现的CharSequence接口的实参,一般就是字符串。

Matcher中有大量的方法,我只写下少量我用过。

boolean find();是否从下个子序列中找出符合规则的内容。

String group();返回之前的捕获组内容。

String group(int);返回给定组的捕获内容

int gourpCount();返回捕获组的个数

在find()匹配成功一个后,有个类似于指针的东西,移到这个成功捕获的捕获组后面。此时使用group()捕获出来的是指针之前的捕获组内容。我们可以写个单元测试验证一下。

这是输入whatab1whatab2wahtab3whatab4ss,这是正表ab[\d]。匹配的是输入中

下面是方法

 public static String method(String regex, String input) {
Matcher matcher = Pattern.compile(regex).matcher(input);
StringBuilder builder = new StringBuilder();
int i = 0;
while (matcher.find()) {
builder.append("这是第").append((++i)).append("组:捕获到【");
builder.append(matcher.group()).append("】。\n");
}
return builder.toString();
}

输出结果是:

调用方法,参数是
Utils.method("ab[\\d]","whatab1whatab2whatab3whatab4ss")
这是第1组:捕获到【ab1】。
这是第2组:捕获到【ab2】。
这是第3组:捕获到【ab3】。
这是第4组:捕获到【ab4】。  

如果使用group(int),指定具体的匹配位置,需要有多个捕获组,既是"()"。

使用同样的输入,把正表改成.*?(ab([\d])).*?

在Utils的method方法中,分别使用group(),group(0),group(1)和group(2)拼接捕获数组,打印内容如下。

group()打印结果

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(0)打印结果

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(1)打印结果

这是第1组:捕获到【ab1】。
这是第2组:捕获到【ab2】。
这是第3组:捕获到【ab3】。
这是第4组:捕获到【ab4】。

group(2)打印结果

这是第1组:捕获到【】。
这是第2组:捕获到【】。
这是第3组:捕获到【】。
这是第4组:捕获到【】。

从打印结果我们可以看出,group()和group(0)捕获的内容一致。这里有个特俗情况,如果以"()"将整个正表括起来,那么group(0)和group(1)有什么区别呢?

正表改成(.*?(ab([\d])).*?),下面是打印结果

group(0)和group()

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(1)

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(2)

这是第1组:捕获到【ab1】。
这是第2组:捕获到【ab2】。
这是第3组:捕获到【ab3】。
这是第4组:捕获到【ab4】。

group(3)

这是第1组:捕获到【】。
这是第2组:捕获到【】。
这是第3组:捕获到【】。
这是第4组:捕获到【】。

如果要捕获"()"里内容,需要注意的是,最好获取一下groupCount()的整型数值,以免没有匹配到该捕获组的内容,导致程序异常。

四,正则表达式

对于正表的编写,首先需要了解其各个符合的含义。

下面是对常用的一些符号进行说明,当然还有绝大部分没有涵盖,大家可以从Java的API中的java.util.regex.Pattern类下查看。

"()":捕获组,在Matcher中已做说明

"[]":匹配范围,注意的是,如果输入[ac]就只匹配a或者c,并不是匹配字符串ac。例如输入,abcac,使用[ac]可以匹配出四组,

  分别是:1.a  2.c  3.a  4.c

"{}":出现次数,有若干写法,{n,m}表示最少出现n次,最多m次,{n}表示出现n次。{n,}表示最少n次。{}一般与[]配合使用,规定[]匹配范围内的字符出现了几次。在这种情况下,有时还会和"|"链接使用。例如XXabXXabXXacXXa1XXdav11 ,使用[abvc]{2}|[a\d]{2}可以匹配出来

ab
ab
ac
a1
av
11

".":一般来说,代表了除空格和其它行尾行首的任何字符(个人理解有误求指出)。

"\d":等价于[0-9],代表0到9的任何数字。

"\D":与\d相反,标示除了\d以外的任意字符

"\w":单词字符

"\W":非单词字符

"\s":空白字符

"\S":非空白字符。在对字符串处理时,如果没有自定多行模式,可将"."替换成"[\\s\\S]"。

"^":如果放置在"[]"里头,表示取其余范围。如"[^a]"表示出了a的任意字符。^也可以表示行首。

"$":表示行尾。

————————————————————————————————————————————————————————

以下三个符号加"{}"在正则表达式中有三种匹配模式,分别是Greedy ,Reluctant 和Possessive ,下面会仔细说区别

"X?":如X?,表示X匹配到一次或者一次也没有。注意的是,在正表后面加个?以后,就成了非贪婪模式。

"X+":如X?,表示X匹配到一次或者多次。

"X*":如X*,表示X匹配到0次或者多次。

"X?"是贪婪模式,会匹配尽可能的内容。"X??"是非贪婪模式,会匹配符合条件的最少的内容。"X?+"是Possessive quantifiers,这个模式我没有用过,也不知道是怎么回事,求分享指导。

——————————————————————————————————————————————————————————

"|":如X|Y,表示匹配X或者Y。

"\Q"和"\E":如\Q|.?\E使得中间的字符失去正则含义,作为普通字符匹配。如ab|.?ab,如果要匹配|.?,需要使用\|\.\?来匹配,但是使用\Q|.?\E就可以直接匹配,不用写那么多转移字符。

"\b":单词边界,如果用来匹配特定单词,可以使用它。如\bregex\b它可以匹配到hello regex!中的regex,但是匹配不到helloregex!中的regex,原因就在于后者的regex不是单词,边界被混杂。

"\B":同"\d"和"\w"将单词变成大写,表示相反的范围。此处表示的是非单词的边界。这玩意儿真心不知道怎么用。试一下。同样的,输入是hello regex!。使用\Be\B,可以匹配到三个e.但是使用\Bregex\B,就匹配不到,因为hello regex!中的regex已经到边界了,把输入改成helloregexs!就可以使用\Bregex\B,匹配到regex。

"\A":表示从输入的开端开始匹配。例如输入"abcdcfg",使用"[\\w]*?c"可以匹配到abc和dc,但是使用"\\A[\\w]*?c"只能匹配到abc。就是因为\A表示从开端开始匹配。

"\G":表示上一次匹配到的结尾。这个真心没用过,求分享,求指导。

"Z"和"z":不知道什么意思,求分享。

"(?=X)":直译是零宽度正向的预测先行。首先这个预测先行,指的是左边的字符,不是右边的字符。如XXabSS,XX是ab的先行,SS是ab的后行。这个东西就匹配在"X"前面的内容。如"XXabcYYabc","[\\s\\S]*?(?=abc)"可以匹配出来XX和YY。API里面的这个解析太特么不好懂了。需要注意的是(?=X)中的X是可以被捕获的。如输入"XabcSabc",匹配"[\\w](?=abc)[\\w]{2}",会匹配出来2个结果,分别是Xab和Sab。

"(?!X)":直译是零宽度的负向预测先行。负个鸡毛,英死早,不会意译。(?=X)表示的是匹配内容右边是X,这个就表示匹配内容的是右边不是X。如输入"XXabcYYabc",正表是"[\\w]{2}(?!X)[\\w]{2}",匹配出来XXab和cYYa。有些朋友可能疑惑,为什么呢?因为XXab前面没有内容,所以可以匹配出来XXab。如果输入不变,将正表换成"[^X]{2}(?!XX)[\\w]{2}",匹配出来的就是abcY和Yabc。

"(?<=X)":直译是零宽度的正向预测后行。表示匹配内容右边的字符串是X。测试一下,输入"XXabcYYabc",正表是"[\\w].*?(?<=abc)",匹配到了"XXabc"和"YYabc"。

"(?<!X)":直译是零宽度的负向预测后行。表示匹配内容右边不是X。测试一下,输入"XXabcYYabc",正表是"[\\w].*?(?<!abc)abc",匹配打印结果如下

这是第1组:捕获到【XXabc】。
这是第2组:捕获到【YYabc】。

第一组中"[\\w].*?(?<!abc)"先捕获到"XX",后面加个"abc"。第二组同理。

"(?>X)":作为一个独立的非捕获组。

五,总结

由于本人水平有限,对于很多东西还未能进行讲解,包括正则匹配时各种模式的匹配原理,包括java.regex.utils包中的其它类的各种方法,包括Pattern类中其它标明的正则符号,文中可能还有很多地方有误,求指出。 

 

java中关于正则一些基础使用的更多相关文章

  1. Java中实现异常处理的基础知识

    Java中实现异常处理的基础知识 异常 (Exception):发生于程序执行期间,表明出现了一个非法的运行状况.许多JDK中的方法在检测到非法情况时,都会抛出一个异常对象. 例如:数组越界和被0除. ...

  2. java中的正则操作总结

    http://www.cnblogs.com/nerxious/archive/2013/01/03/2842910.html 正则表达式在处理字符串的效率上是相当高的 关于正则表达式的使用,更多的是 ...

  3. Java 中的正则(Pattern)

    /**String 中 replaceAll(),matches(),split() 等方法,都是调用Pattern中的方法.学习了,瞬间觉得Pattern强大了 public String repl ...

  4. java中使用 正则 抓取邮箱

    我们来抓取豆瓣网的邮箱吧!把这个页面的所有邮箱都抓取下来 如https://www.douban.com/group/topic/8845032/: 代码如下: package cn.zhangzon ...

  5. java中的几种基础排序

    import java.util.Random;import java.util.Arrays; public class Puppy {     public static void main(St ...

  6. Java中CSS&JS篇基础笔记

    HTML就是由一组标签所组成的.HTML的字体标签: <font>标签: 属性:color,size,face HTML的排版标签: h标签:标题标签. p标签:段落标签. b标签:加粗标 ...

  7. java中url正则regex匹配

    String regex = "^(?:https?://)?[\\w]{1,}(?:\\.?[\\w]{1,})+[\\w-_/?&=#%:]*$"; 解释说明: ^ : ...

  8. 并发王者课-铂金1:探本溯源-为何说Lock接口是Java中锁的基础

    欢迎来到<并发王者课>,本文是该系列文章中的第14篇. 在黄金系列中,我们介绍了并发中一些问题,比如死锁.活锁.线程饥饿等问题.在并发编程中,这些问题无疑都是需要解决的.所以,在铂金系列文 ...

  9. Java中关于String类型的一些思考

    作为初学者在学习Java的时候,变量类型是不可避免会遇到的,在以往我们的印象中字符串String都是作为基本类型而存在的,但是在Java中String类型确是一个实实在在的引用类型,是可以通过new关 ...

随机推荐

  1. js 页面刷新方法

    1.reload方法,该方法强迫浏览器刷新当前页面语法:location.reload([bForceGet])参数:bForceGet,可选参数,默认为false从客户端缓存里取当前页.true,则 ...

  2. jmeter上传文件搞了一天,才搞定,没高人帮忙效率就是低,赶紧记下来,以备后用

    先用谷歌浏览器抓包,抓到的包类似这样: 在jmeter里添加一个http请求,配置好参数,方法,端口,路径等, 勾选 在“同请求一起发送参数”里填写上面抓包的部分数据: 分别对应录入,勾选“编码” 我 ...

  3. ArcSDE安装步骤及问题

    ArcSDE安装步骤及问题 自己在安装ArcSDE的时候遇到了一些问题,现在将详细的安装过程和遇到的问题记在这里,以备以后使用. 1. 安装Oracle: 2. 安装ArcSdeOracle10g: ...

  4. JPush API client library for C Sharp(极光推送API)

    概述 这是 JPush REST API 的 C# 版本封装开发包,是由极光推送官方提供的,一般支持最新的 API 功能. 对应的 REST API 文档:http://docs.jpush.io/s ...

  5. EasyUI TextBox的onkeypress事件

    关于EasyUI TextBox的事件好像不多,像keypress,keydown在textbox的事件里都没有,所以要用这些事件要采取一些特殊的方法,今天用到了这些就记录一下,有两种方法 方法1: ...

  6. 百度云 + GIT

    百度云同步 百度云同步,会将本地的某个文件目录和云端进行同步.如果在本地将这个同步的目录设置为Git的中心服务器,那么本地push到中心服务器的内容也会被同步到云端.其他开发者只要也进行相同的设置,就 ...

  7. R12将银行和分行都使用TCA管理

    R12将银行和分行都使用TCA管理,后台保存在HZ_PARTIES . 银行帐号:如果是付款或者是收款(本公司的帐号,内部帐号),都保存在ce_bank_accounts,ce_bank_acct_u ...

  8. tomcat gzip compression not working for large js files

    solution 1: <Connector port="8080" protocol="HTTP/1.1" connectionTimeout=&quo ...

  9. CheckBox设置Enabled为False后,无法修改ForeColor

    设置CheckBox的AutoCheck为False,Enabled为True,即可解决.

  10. javascript验证香港身份证

    var assert = require('assert'); describe('test', function() { it('coc', function() { var testCard01 ...