C++正则表达式 <regex>
一 简介
概括而言,使用正则表达式处理字符串的流程包括:
- 用正则表达式定义要匹配的字符串的规则,
- 然后对目标字符串进行匹配,
- 最后对匹配到的结果进行操作。
C++ 的 regex 库提供了用于表示正则表达式和匹配结果的基本类型,以及搜寻、匹配、替换等函数。
二 基本类型
2.1 basic_regex
及其实例化类型 regex
、wregex
模板类型 basic_regex
用于表示正则表达式对象,<regex>
库提供了它的两种实例化类型:
typedef basic_regex<char> regex;
typedef basic_regex<wchar_t> wregex;
构造函数一般接受一个字符串作为参数,如
std::regex reg ("[0-9A-Z]+");
构造函数中还有一个默认参数flags,默认值为 std::regex::ECMAScript
,该参数可以用来设置正则表达式所采用的语法,如 std::regex::grep, std::regex::awk
等,也可以设置 case insensitive。flags 的多个值用比特位 OR 操作|
连接,如
std::regex ninth ("\\bd\\w+", ECMAScript | icase );
但是正则语法的flag只能设置一种。
具体的构造函数声明及fags值的定义参考basic_regex::basic_regex - C++ Reference。
2.2 match_results
、sub_match
及其实例化类型
match_results
是一种 container-like 的模板类,用于存放对目标串执行完 regex matching 操作后匹配到的结果,其中的每个元素(即每个匹配结果)是一个 sub_match
的实例化对象。
match_results
的实例类型有下列四种:
typedef match_results<const char*> cmatch;
typedef match_results<const wchar_t*> wcmatch;
typedef match_results<string::const_iterator> smatch;
typedef match_results<wstring::const_iterator> wsmatch;
与 match_results
相似,sub_match
的实例化类型也有四种:
typedef sub_match<const char*> csub_match;
typedef sub_match<const wchar_t*> wcsub_match;
typedef sub_match<string::const_iterator> ssub_match;
typedef sub_match<wstring::const_iterator> wssub_match;
sub_match
对象存储的不是匹配到的字符串本身,而是指向这个串开始(initial)和结束后一个字符(past-the-end)的 bidirectional iterators
,但是它们表现起来类似于一个字符串:
- 成员函数
length
返回字符串长度; compare
用于和一个字符串或另一个sub_match
对象比较,相等则返回0,不等则:若它比参数小(字典序)返回一个负值,否则返回一个正值;str
返回对应的字符串。
根据一次匹配的结果,match_results
可能为空也可能不空,使用 match_results::empty()
来判空,使用 match_results::size()
来获取元素个数。对于一个不空的 match_results
对象,其第一个 sub_match
元素([0]
)对应着整个完整匹配,后续的元素对应着正则表达式中的 sub-match(即用()
括起来的各个分组匹配),未匹配的部分可以通过 prefix
和 suffix
来获取。下面是一个简单的例子,参考自 boost的文档:
#include <regex>
#include <iostream>
#include <string>
int main() {
std::string target = "@abc def--";
std::regex e("(\\w+)\\W+(\\w+)");
std::smatch sm;
std::regex_search(target, sm, e);
std::cout << "sm.prefix: " << sm.prefix() << std::endl;
for (int i = 0; i < sm.size(); ++i) {
std::cout << "sm[" << i << "]: " << sm[i] << std::endl;
}
std::cout << "sm.suffix: " << sm.suffix() << std::endl;
return 0;
}
Output:
======================================
sm.prefix: @
sm[0]: abc def
sm[1]: abc
sm[2]: def
sm.suffix: --
三 正则操作
3.1 regex_match
用于将目标串和正则表达式匹配,返回一个 bool 值,true
为匹配,false
为不匹配。匹配的含义是目标字符串必须完全和正则表达式相匹配,不能有多余的字符,如果需要部分匹配则应使用regex_search
。函数签名有很多,详见cplusplus.com。
构造函数分成两种:
- 一种接受一个
match_results
作为对象,参数顺序为:
- 待匹配的字符串,
-match_results
对象,
- 正则表达式对象; - 另一种没有
match_results
,参数顺序为:
- 待匹配的字符串,
- 正则表达式对象。
此外,构造函数还接受一个可选的flags
参数,用于控制匹配选项,详见上述链接。
3.2 regex_search
只要目标字串中有一个字串(无论该子串在字符串中什么位置)能和正则表达式相匹配就返回true
。函数签名同regex_match
相似。
3.3 regex_replace
该函数有多个重载版本,常用的版本中参数顺序基本上为 s
,rgx
,fmt
,flags
,其中:
s
为要处理的字符串,rgx
为要匹配的正则表达式,fmt
为要替换的字符串,其中可以包含格式化字符,flags
为可选的参数,用于设置一些选项。
参数 fmt
中可以包含下列格式化字符:
characters | replacement |
---|---|
$n | 表示第n组匹配,n大于0 |
$& | 表示整个匹配 |
$` | prefix |
$´ | suffix |
$$ | 表示$ 这个字符本身 |
在替换时,会先将参数 fmt
中的格式化字符替换成相应的内容,然后再将这个字符串替换掉目标字符串中的完整匹配(相当于 $&
或 match_results[0]
)。
C++正则表达式 <regex>的更多相关文章
- JS正则表达式常用总结
正则表达式的创建 JS正则表达式的创建有两种方式: new RegExp() 和 直接字面量. //使用RegExp对象创建 var regObj = new RegExp("(^\\s+) ...
- Python高手之路【五】python基础之正则表达式
下图列出了Python支持的正则表达式元字符和语法: 字符点:匹配任意一个字符 import re st = 'python' result = re.findall('p.t',st) print( ...
- C# 正则表达式大全
文章导读 正则表达式的本质是使用一系列特殊字符模式,来表示某一类字符串.正则表达式无疑是处理文本最有力的工具,而.NET提供的Regex类实现了验证正则表达式的方法.Regex 类表示不可变(只读)的 ...
- C#基础篇 - 正则表达式入门
1.基本概念 正则表达式(Regular Expression)就是用事先定义好的一些特定字符(元字符)或普通字符.及这些字符的组合,组成一个“规则字符串”,这个“规则字符串”用来判断我们给定的字符串 ...
- JavaScript正则表达式,你真的知道?
一.前言 粗浅的编写正则表达式,是造成性能瓶颈的主要原因.如下: var reg1 = /(A+A+)+B/; var reg2 = /AA+B/; 上述两个正则表达式,匹配效果是一样的,但是,效率就 ...
- Python 正则表达式入门(中级篇)
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
- 【JS基础】正则表达式
正则表达式的() [] {}有不同的意思. () 是为了提取匹配的字符串.表达式中有几个()就有几个相应的匹配字符串. (\s*)表示连续空格的字符串. []是定义匹配的字符范围.比如 [a-zA-Z ...
- JavaScript 正则表达式语法
定义 JavaScript定义正则表达式有两种方法. 1.RegExp构造函数 var pattern = new RegExp("[bc]at","i"); ...
- [jquery]jquery正则表达式验证(手机号、身份证号、中文名称)
数字判断方法:isNaN()函数 test()方法 判断字符串中是否匹配到正则表达式内容,返回的是boolean值 ( true / false ) // 验证中文名称 function isChin ...
- JS中给正则表达式加变量
前不久同事询问我js里面怎么给正则中添加变量的问题,遂写篇博客记录下. 一.字面量 其实当我们定义一个字符串,一个数组,一个对象等等的时候,我们习惯用字面量来定义,例如: var s = &quo ...
随机推荐
- Skywalking-Aop Docker单机环境搭建
1.OAP-SERVER和UI环境搭建 本次搭建是基于MySQL进行持久化,因此需要提前准备好一个MySQL容器 (MySQL容器部署略过).如有错误还请指正. 1.1 OAP服务搭建 拉取skywa ...
- NOI 2023 题解
Copper Loser 的题解-- Day1 T1 方格染色 有一个 \(n\times m\) 的网格,有 \(Q\) 次操作,每次形如有三种:将 \((x_i+j,y_i)\)/\((x_i,y ...
- JS leetcode 买卖股票的最佳时机 题解分析,我离职了。
壹 ❀ 引 昨天下班后,还是找经理提出了辞职,没有犹豫的裸辞,今天与人事的对话不小心被后台的同事听到,一下在公司传开了,下午我与同事们多人对线,被他们的消息轰炸....没错,我真的要走了. 因为什么原 ...
- 未配置Datasource时, 启动 SpringBoot 程序报错的问题
SpringBoot will show error if there is no datasource configuration in application.yml/application.pr ...
- iptables的mangle表
mangle表的主要功能是根据规则修改数据包的一些标志位,以便其他规则或程序可以利用这种标志对数据包进行过滤或策略路由. 使用策略路由 对应的场景, 都是有多个网口, 常见的使用步骤 1. 创建路由表 ...
- 【Unity3D】UGUI之Image和RawImage
1 纹理(Texture) Image 控件和 RawImage 控件都是承载渲染图片的控件,都需要指定一个纹理(Texture)图片.在 Assets 窗口选中一张图片,在 Inspector ...
- 7zip 命令行压缩指定后缀名
接到一个需求,就是测试同学在测试软件的指定功能时,可能需要调试版本来查看输出信息,所以我们需要使用一个批处理文件来快速生成一个 debug 压缩包 7zip 给出了很多有用的命令行,我们可以使用它指定 ...
- 【Android 逆向】【攻防世界】boomshakalaka-3
1. apk 安装到手机,是一个cocos2dx 写的打飞机的游戏 题目描述跟得分有关(题目描述: play the game, get the highest score) 2. jadx 打开ap ...
- typing的中的Optional说明
from typing import Optional def show_count(count: int, singular: str, plural: Optional[str] = None) ...
- CUDA、CUDNN 安装
安装 CUDA.CUDNN 1. CUDA CUDA 是 NVIDIA 发明的一种并行计算平台和编程模型.它通过利用图形处理器 (GPU) 的处理能力,可大幅提升计算性能. 官方地址 https:// ...