正则与re模块】的更多相关文章

正则表达式 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个 “规则字符串”,这个 “规则字符串” 用来表达对字符串的一种过滤逻辑. 我们先来看一个正则与 re 模块的例子 判断手机号是否合法 #while 实现 while True: phone_number = input('please input your phone number : ') if len(phone_number) == 11 \ and phone_nu…
正则表达式 动机 文本处理成为计算机常见工作之一 对文本内容搜索,定位,提取是逻辑比较复杂的工作 为了快速方便的解决上述问题,产生了正则表达式技术 定义 文本的高级匹配模式, 提供搜索, 替换, 本质由字符和特殊符号构成的字符串, 这个字符串即为正则表达式 匹配原理 通过普通字符和特殊含义的字符串, 来组成字符串, 用以描述一定的字符串规则, 比如重复, 位置, 来表达一种特定类型的字符串, 进而匹配 正则字符 通用 0 - 9 匹配所有字符 a - z 匹配所有小写字母 A - Z 匹配所有大…
http://www.cnblogs.com/Eva-J/articles/7228075.html  所有常用模块的用法 正则的规则: 在一个字符组里面枚举合法的所有字符,字符组里面的任意一个字符和‘带匹配字符’都相同,都视为可以匹配. #是数字 #11位 #以13|15|17|18|16|14 # num = input('phone_number : ') # if num.isdigit() and len(num) == 11 and num.startswith('13') or \…
一. 简谈正则表达式 元字符 . 除了换行符外任意字符. \w 数字.字母.下划线 \s 空白符 \b 单词的末尾 \d 数字 \n 匹配换行符 \t 匹配制表符 \W 除了数字. 字母 下划线 \D 除了数字 \S 除了空白符 ^  开头 $ 结尾 […] 字符组 [^…] 除了字符组内的元素外 ()匹配括号内的表达式,也表示一个组 量词 限定符 *   {0,n} +  {1,n} ?   {0,1} {p}  p次 {p,}  p次或更多次 {p,q} 从p到q次 贪婪匹配和惰性匹配 *,…
一.正则表达式(精准匹配) 匹配字符串内容的一种规则 二.字符组 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示 常见字符组格式如下:[0123456789],[0-9],[a-z],[A-Z],必须由从小到大,不可逆序. 三.主要元字符 [^s]除了s不能匹配 a|b == [ab] 表示匹配任意字符:[\w\W],[\d\D],[\s\S]  熟记(.,\w , \d ,^ ,$ ,a|b , () ,[...] ,[^...]) \d+\.?\/\d*式子前面必须…
正则 一.认识模块  什么是模块:一个模块就是一个包含了python定义和声明的文件,文件名就是加上.py的后缀,但其实import加载的模块分为四个通用类别 : 1.使用python编写的代码(.py文件) 2.已被编译为共享库二和DLL的C或C++扩展 3.包好一组模块的包 4.使用C编写并连接到python解释器的内置模块  为何要使用莫模块? 如果你想退出python解释器然后重新进入,那么你之前定义的函数或变量都将丢失,因此我们通常将程序写到文件中以便永久保存下来,需要时,就通过pyt…
In [14]: 'hello-wold.tar.gz'.split('.') Out[14]: ['hello-wold', 'tar', 'gz'] In [15]: import re In [16]: re.split('-|\.','hello-wold.tar.gz') Out[16]: ['hello', 'wold', 'tar', 'gz'] In [22]: m = re.search('(to)mo(rr)ow','I will see you tomorrow') In…
正则的概念 findall        match        search  方法 元字符的用法和作用 正则表达式概念 正则表达式是对字符串操作的一种逻辑公式,就是对字符串的一种过滤 可以判断是否匹配给定的格式 可以按指定格式从字符串中提取信息 re模块 findall方法 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 match方法 从字符串的起始位置匹配 匹配成功,返回的是一个匹配对象(这个对象包含了我们匹配的信息),如果不是起始位置匹配成…
一.正则表达式 在线测试工具 http://tool.chinaz.com/regex/ 1.字符组 ​ 在同一个位置可能出现的各种字符组成一个字符组,在正则表达中用[ ]表示 ​ 一个正则就是一条匹配规则,可以规定一次匹配字符的长度,字符组每次匹配一个长度为1的字符,例如:待匹配字符为:2a+ 使用字符组进行匹配时就会进行三次比较 正则 待匹配字段 匹配结果 说明 [0123456789] 5 5 在一个字符组里枚举所有合法的字符,待匹配字符与其中一个相同,即便匹配成功 [0123456789…
1.爬虫的例子 #爬虫的例子(方法一) import re import urllib,request import urlopen def getPage(url): response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret = re.findall( '<div class="item">.*?<div class="pic">…