day 18 - 1 正则与 re 模块】的更多相关文章

正则表达式 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个 “规则字符串”,这个 “规则字符串” 用来表达对字符串的一种过滤逻辑. 我们先来看一个正则与 re 模块的例子 判断手机号是否合法 #while 实现 while True: phone_number = input('please input your phone number : ') if len(phone_number) == 11 \ and phone_nu…
1.爬虫的例子 #爬虫的例子(方法一) import re import urllib,request import urlopen def getPage(url): response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret = re.findall( '<div class="item">.*?<div class="pic">…
http://www.cnblogs.com/Eva-J/articles/7228075.html  所有常用模块的用法 正则的规则: 在一个字符组里面枚举合法的所有字符,字符组里面的任意一个字符和‘带匹配字符’都相同,都视为可以匹配. #是数字 #11位 #以13|15|17|18|16|14 # num = input('phone_number : ') # if num.isdigit() and len(num) == 11 and num.startswith('13') or \…
一.正则表达式(精准匹配) 匹配字符串内容的一种规则 二.字符组 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示 常见字符组格式如下:[0123456789],[0-9],[a-z],[A-Z],必须由从小到大,不可逆序. 三.主要元字符 [^s]除了s不能匹配 a|b == [ab] 表示匹配任意字符:[\w\W],[\d\D],[\s\S]  熟记(.,\w , \d ,^ ,$ ,a|b , () ,[...] ,[^...]) \d+\.?\/\d*式子前面必须…
正则 一.认识模块  什么是模块:一个模块就是一个包含了python定义和声明的文件,文件名就是加上.py的后缀,但其实import加载的模块分为四个通用类别 : 1.使用python编写的代码(.py文件) 2.已被编译为共享库二和DLL的C或C++扩展 3.包好一组模块的包 4.使用C编写并连接到python解释器的内置模块  为何要使用莫模块? 如果你想退出python解释器然后重新进入,那么你之前定义的函数或变量都将丢失,因此我们通常将程序写到文件中以便永久保存下来,需要时,就通过pyt…
正则表达式 动机 文本处理成为计算机常见工作之一 对文本内容搜索,定位,提取是逻辑比较复杂的工作 为了快速方便的解决上述问题,产生了正则表达式技术 定义 文本的高级匹配模式, 提供搜索, 替换, 本质由字符和特殊符号构成的字符串, 这个字符串即为正则表达式 匹配原理 通过普通字符和特殊含义的字符串, 来组成字符串, 用以描述一定的字符串规则, 比如重复, 位置, 来表达一种特定类型的字符串, 进而匹配 正则字符 通用 0 - 9 匹配所有字符 a - z 匹配所有小写字母 A - Z 匹配所有大…
time 模块:与时间相关的功能的模块 在 Python 中,时间分为三种: 1.时间戳:是一个时间的表示,根据不同的语言,可以是整数或浮点数,是从1970年1月1日0时0分0秒到现在经历的秒数 2.UTC时间: 又称为世界协调时间,以英国的格林尼治天文所在地区的时间作为参考的时间,也叫做世界标准时间.中国时间是 UTC+8 东八区 3.localtime:本地时间,又叫时间元组,是一个包含时间内容的普通元组 import time print(time.localtime()) # 运行 ti…
一. 简谈正则表达式 元字符 . 除了换行符外任意字符. \w 数字.字母.下划线 \s 空白符 \b 单词的末尾 \d 数字 \n 匹配换行符 \t 匹配制表符 \W 除了数字. 字母 下划线 \D 除了数字 \S 除了空白符 ^  开头 $ 结尾 […] 字符组 [^…] 除了字符组内的元素外 ()匹配括号内的表达式,也表示一个组 量词 限定符 *   {0,n} +  {1,n} ?   {0,1} {p}  p次 {p,}  p次或更多次 {p,q} 从p到q次 贪婪匹配和惰性匹配 *,…
In [14]: 'hello-wold.tar.gz'.split('.') Out[14]: ['hello-wold', 'tar', 'gz'] In [15]: import re In [16]: re.split('-|\.','hello-wold.tar.gz') Out[16]: ['hello', 'wold', 'tar', 'gz'] In [22]: m = re.search('(to)mo(rr)ow','I will see you tomorrow') In…
正则的概念 findall        match        search  方法 元字符的用法和作用 正则表达式概念 正则表达式是对字符串操作的一种逻辑公式,就是对字符串的一种过滤 可以判断是否匹配给定的格式 可以按指定格式从字符串中提取信息 re模块 findall方法 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 match方法 从字符串的起始位置匹配 匹配成功,返回的是一个匹配对象(这个对象包含了我们匹配的信息),如果不是起始位置匹配成…