java正则(贪婪、勉强)

贪婪、勉强和侵占量词间的不同

　　在贪婪、勉强和侵占三个量词间有着细微的不同。

　　贪婪(*, ?, +)：读入整个串，从后往前匹配

　　勉强(*?, ??, +?)：从前往后匹配

　　侵占(*+, ?+, ++)：读入整个串，从前往后匹配，匹配的是整个串

　　贪婪量词之所以称之为“贪婪的”，这是由于它们强迫匹配器读入（或者称之为吃掉）整个输入的字符串，来优先尝试第一次匹配，如果第一次尝试匹配（对于整个输入的字符串）失败，匹配器会通过回退整个字符串的一个字符再一次进行尝试，不断地进行处理直到找到一个匹配，或者左边没有更多的字符来用于回退了。赖于在表达式中使用的量词，最终它将尝试地靠着 1 或 0 个字符的匹配。

　　但是，勉强量词采用相反的途径：从输入字符串的开始处开始，因此每次勉强地吞噬一个字符来寻找匹配，最终它们会尝试整个输入的字符串。

　　最后，侵占量词始终是吞掉整个输入的字符串，尝试着一次（仅有一次）匹配。不像贪婪量词那样，侵占量词绝不会回退，即使这样做是允许全部的匹配成功。

　　为了说明一下，看看输入的字符串是 xfooxxxxxxfoo 时。

Enter your regex: .*foo // 贪婪量词

Enter input string to search: xfooxxxxxxfoo

I found the text "xfooxxxxxxfoo" starting at index 0 and ending at index 13.

Enter your regex: .*?foo // 勉强量词

Enter input string to search: xfooxxxxxxfoo

I found the text "xfoo" starting at index 0 and ending at index 4.

I found the text "xxxxxxfoo" starting at index 4 and ending at index 13.

Enter your regex: .*+foo // 侵占量词

Enter input string to search: xfooxxxxxxfoo

No match found.

　　第一个例子使用贪婪量词.*，寻找紧跟着字母“f”“o”“o”的“任何东西”零次或者多次。由于量词是贪婪的，表达式的.*部分第一次“吃掉”整个输入的字符串。在这一点，全部表达式不能成功地进行匹配，这是由于最后三个字母（“f”“o”“o”）已经被消耗掉了。那么匹配器会慢慢地每次回退一个字母，直到返还的“foo”在最右边出现，这时匹配成功并且搜索终止。

　　然而，第二个例子采用勉强量词，因此通过首次消耗“什么也没有”作为开始。由于“foo”并没有出现在字符串的开始，它被强迫吞掉第一个字母（“x”），在 0 和 4 处触发了第一个匹配。测试用具会继续处理，直到输入的字符串耗尽为止。在 4 和 13 找到了另外一个匹配。

　　第三个例子的量词是侵占，所以在寻找匹配时失败了。在这种情况下，整个输入的字符串被.*+消耗了，什么都没有剩下来满足表达式末尾的“foo”。

　　你可以在想抓取所有的东西，且决不回退的情况下使用侵占量词，在这种匹配不是立即被发现的情况下，它将会优于等价的贪婪量词。

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class Test {

public static void main(String[] args) {

String str = "<biao><>c";

Pattern pattern;

Matcher matcher;

// 贪婪: 最长匹配 .* : 输出: <biao><>c

pattern = Pattern.compile("<.*>");

matcher = pattern.matcher(str);

while (matcher.find()) {

System.out.println(matcher.group());

}

// 不知是否非贪婪 .*? : 输出: <biao>, <>,

pattern = Pattern.compile("<.*?>");

matcher = pattern.matcher(str);

while (matcher.find()) {

System.out.println(matcher.group());

}

// 使用组, 输出<>里的内容, 输出: 'biao', ' ', 'b'

// 0组代表整个表达式, 子组从1开始

pattern = Pattern.compile("<(.*?)>");

matcher = pattern.matcher(str);

while (matcher.find()) {

System.out.println(matcher.group(1));

}

贪婪、勉强和侵占量词间的不同

　　在贪婪、勉强和侵占三个量词间有着细微的不同。

　　贪婪(*, ?, +)：读入整个串，从后往前匹配

　　勉强(*?, ??, +?)：从前往后匹配

　　侵占(*+, ?+, ++)：读入整个串，从前往后匹配，匹配的是整个串

　　但是，勉强量词采用相反的途径：从输入字符串的开始处开始，因此每次勉强地吞噬一个字符来寻找匹配，最终它们会尝试整个输入的字符串。

　　为了说明一下，看看输入的字符串是 xfooxxxxxxfoo 时。

Enter your regex: .*foo // 贪婪量词

Enter input string to search: xfooxxxxxxfoo

I found the text "xfooxxxxxxfoo" starting at index 0 and ending at index 13.

Enter your regex: .*?foo // 勉强量词

Enter input string to search: xfooxxxxxxfoo

I found the text "xfoo" starting at index 0 and ending at index 4.

I found the text "xxxxxxfoo" starting at index 4 and ending at index 13.

Enter your regex: .*+foo // 侵占量词

Enter input string to search: xfooxxxxxxfoo

No match found.

　　第三个例子的量词是侵占，所以在寻找匹配时失败了。在这种情况下，整个输入的字符串被.*+消耗了，什么都没有剩下来满足表达式末尾的“foo”。

　　你可以在想抓取所有的东西，且决不回退的情况下使用侵占量词，在这种匹配不是立即被发现的情况下，它将会优于等价的贪婪量词。

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class Test {

public static void main(String[] args) {

String str = "<biao><>c";

Pattern pattern;

Matcher matcher;

// 贪婪: 最长匹配 .* : 输出: <biao><>c

pattern = Pattern.compile("<.*>");

matcher = pattern.matcher(str);

while (matcher.find()) {

System.out.println(matcher.group());

}

// 不知是否非贪婪 .*? : 输出: <biao>, <>,

pattern = Pattern.compile("<.*?>");

matcher = pattern.matcher(str);

while (matcher.find()) {

System.out.println(matcher.group());

}

// 使用组, 输出<>里的内容, 输出: 'biao', ' ', 'b'

// 0组代表整个表达式, 子组从1开始

pattern = Pattern.compile("<(.*?)>");

matcher = pattern.matcher(str);

while (matcher.find()) {

System.out.println(matcher.group(1));

}

java正则(贪婪、勉强)的更多相关文章

java 正则贪婪匹配匹配sql语句中的引号内容
public class Demo { public static void main(String[] args) { String sql1 = "use test;select * f ...
JAVA 正则表达式的三种模式: 贪婪, 勉强和占有的讨论
假设待处理的字符串是 xfooxxxxxxfoo 模式.*foo (贪婪模式): 模式分为子模式p1(.*)和子模式p2(foo)两个部分. 其中p1中的量词匹配方式使用默认方式(贪婪型). 匹配开 ...
Java正则表达中Greedy Reluctant Possessive 的区别
Java正则表达中Greedy Reluctant Possessive 的区别分类: java2015-01-16 00:28 1280人阅读评论(9) 收藏举报正则表达式Java 目录 ...
Java正则速成秘籍（二）之心法篇
导读正则表达式是什么?有什么用? 正则表达式(Regular Expression)是一种文本规则,可以用来校验.查找.替换与规则匹配的文本. 又爱又恨的正则正则表达式是一个强大的文本匹配工具,但 ...
Java正则速成秘籍（一）之招式篇
导读正则表达式是什么?有什么用? 正则表达式(Regular Expression)是一种文本规则,可以用来校验.查找.替换与规则匹配的文本. 又爱又恨的正则正则表达式是一个强大的文本匹配工具,但 ...
Java正则速成秘籍（三）之见招拆招篇
导读正则表达式是什么?有什么用? 正则表达式(Regular Expression)是一种文本规则,可以用来校验.查找.替换与规则匹配的文本. 又爱又恨的正则正则表达式是一个强大的文本匹配工具,但 ...
java 正则匹配空格字符串正则表达式截取字符串
java 正则匹配空格字符串正则表达式截取字符串需求:从一堆sql中取出某些特定字符串: 比如配置的sql语句为:"company_code = @cc and project_id = ...
url 中非法字符替换,java 正则替换
url在传输时不允许的一些字符串,参考自:http://www.ietf.org/rfc/rfc1738.txt 以下字符用java正则替换为"_",一句话搞定: "{& ...
通用且常用的Java正则匹配工具，用以检查邮箱名、电话号码、用户密码、邮政编码等合法性
一个通用且常用的Java正则匹配工具,用以检查邮箱名.电话号码.用户密码.邮政编码等合法性. import java.util.regex.Matcher; import java.util.rege ...

随机推荐

no.10京东咚咚架构演讲读后感
京东之与旺旺相当于淘宝,他们都是服务于买家和卖家的沟通.京东咚咚的功能比较简单,实现了一个 IM 的基本功能,接入.互通消息和状态. 另外还有客服功能,就是顾客接入咨询时的客服分配,按轮询方式把顾客分 ...
Redis主从复制以及主从复制原理
Redis 是一个开源的使用 ANSI C 语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value 数据库,并提供多种语言的 API.从 2010年 3 月 15 日起,Redis 的开 ...
Windows 远程桌面连接 CentOS7 (xrdp)
Windows 远程桌面连接 CentOS7 (xrdp) 前提: CentOS安装桌面,如果无桌面,请执行: yum -y groups install "GNOME Desktop&qu ...
javaweb04 ServletRequest&ServletResponse
WEB浏览器与WEB服务器之间的一问一答的交互过程必须遵循一定的规则,这个歌规则就是 HTTP协议HTTP协议是超文本传输协议,它是TCP/IP协议集中的一个应用层协议,用于定义WEB浏览器与WEB服 ...
1. 现代 javascript 用法简介及 babel
简介包含 ECMAScript 基本概念,babel 使用 ,eslint 使用以及新语法的介绍和使用经验 ECMAScript 概念 ECMASctipt 是一种由 Ecma (前身为欧洲计算 ...
Ubuntu的软件安装管理---dpkg与apt-*详解
摘要:软件厂商先在他们的系统上面编译好了我们用户所需要的软件,然后将这个编译好并可执行的软件直接发布给用户安装.不同的 Linux 发行版使用不同的打包系统,一般而言,大多数发行版分别属于两大包管理技 ...
uni-app文章详情-富文本展示优雅展示代码块
在uni-app开发中,开发一个资讯详情页面,详情里包含图片和代码块.这时候用简单的rich-text控件已经不够用了.用官方demo里的html-parser.js也无法很好的展示代码区域.这个时候 ...
LeetCode——560. 和为K的子数组
给定一个整数数组和一个整数 k,你需要找到该数组中和为 k 的连续的子数组的个数. 示例 1 : 输入:nums = [1,1,1], k = 2 输出: 2 , [1,1] 与 [1,1] 为两种不 ...
Java并发编程：CountDownLatch、CyclicBarrier和 Semaphore ， Condition
http://www.importnew.com/21889.html 1)CountDownLatch和CyclicBarrier都能够实现线程之间的等待,只不过它们侧重点不同: CountDown ...
Java中String常用方法总结
package cn.zhang.Array; /** * String类的一些常用方法 * @author 张涛 * */ public class TestString { public stat ...

java正则(贪婪、勉强)

java正则(贪婪、勉强)的更多相关文章

随机推荐

热门专题