day 18 - 2 正则与 re 模块练习】的更多相关文章

正则表达式 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个 “规则字符串”,这个 “规则字符串” 用来表达对字符串的一种过滤逻辑. 我们先来看一个正则与 re 模块的例子 判断手机号是否合法 #while 实现 while True: phone_number = input('please input your phone number : ') if len(phone_number) == 11 \ and phone_nu…
1.爬虫的例子 #爬虫的例子(方法一) import re import urllib,request import urlopen def getPage(url): response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret = re.findall( '<div class="item">.*?<div class="pic">…
http://www.cnblogs.com/Eva-J/articles/7228075.html  所有常用模块的用法 正则的规则: 在一个字符组里面枚举合法的所有字符,字符组里面的任意一个字符和‘带匹配字符’都相同,都视为可以匹配. #是数字 #11位 #以13|15|17|18|16|14 # num = input('phone_number : ') # if num.isdigit() and len(num) == 11 and num.startswith('13') or \…
一.正则表达式(精准匹配) 匹配字符串内容的一种规则 二.字符组 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示 常见字符组格式如下:[0123456789],[0-9],[a-z],[A-Z],必须由从小到大,不可逆序. 三.主要元字符 [^s]除了s不能匹配 a|b == [ab] 表示匹配任意字符:[\w\W],[\d\D],[\s\S]  熟记(.,\w , \d ,^ ,$ ,a|b , () ,[...] ,[^...]) \d+\.?\/\d*式子前面必须…
正则 一.认识模块  什么是模块:一个模块就是一个包含了python定义和声明的文件,文件名就是加上.py的后缀,但其实import加载的模块分为四个通用类别 : 1.使用python编写的代码(.py文件) 2.已被编译为共享库二和DLL的C或C++扩展 3.包好一组模块的包 4.使用C编写并连接到python解释器的内置模块  为何要使用莫模块? 如果你想退出python解释器然后重新进入,那么你之前定义的函数或变量都将丢失,因此我们通常将程序写到文件中以便永久保存下来,需要时,就通过pyt…
正则表达式 动机 文本处理成为计算机常见工作之一 对文本内容搜索,定位,提取是逻辑比较复杂的工作 为了快速方便的解决上述问题,产生了正则表达式技术 定义 文本的高级匹配模式, 提供搜索, 替换, 本质由字符和特殊符号构成的字符串, 这个字符串即为正则表达式 匹配原理 通过普通字符和特殊含义的字符串, 来组成字符串, 用以描述一定的字符串规则, 比如重复, 位置, 来表达一种特定类型的字符串, 进而匹配 正则字符 通用 0 - 9 匹配所有字符 a - z 匹配所有小写字母 A - Z 匹配所有大…
time 模块:与时间相关的功能的模块 在 Python 中,时间分为三种: 1.时间戳:是一个时间的表示,根据不同的语言,可以是整数或浮点数,是从1970年1月1日0时0分0秒到现在经历的秒数 2.UTC时间: 又称为世界协调时间,以英国的格林尼治天文所在地区的时间作为参考的时间,也叫做世界标准时间.中国时间是 UTC+8 东八区 3.localtime:本地时间,又叫时间元组,是一个包含时间内容的普通元组 import time print(time.localtime()) # 运行 ti…
一. 简谈正则表达式 元字符 . 除了换行符外任意字符. \w 数字.字母.下划线 \s 空白符 \b 单词的末尾 \d 数字 \n 匹配换行符 \t 匹配制表符 \W 除了数字. 字母 下划线 \D 除了数字 \S 除了空白符 ^  开头 $ 结尾 […] 字符组 [^…] 除了字符组内的元素外 ()匹配括号内的表达式,也表示一个组 量词 限定符 *   {0,n} +  {1,n} ?   {0,1} {p}  p次 {p,}  p次或更多次 {p,q} 从p到q次 贪婪匹配和惰性匹配 *,…
In [14]: 'hello-wold.tar.gz'.split('.') Out[14]: ['hello-wold', 'tar', 'gz'] In [15]: import re In [16]: re.split('-|\.','hello-wold.tar.gz') Out[16]: ['hello', 'wold', 'tar', 'gz'] In [22]: m = re.search('(to)mo(rr)ow','I will see you tomorrow') In…
正则的概念 findall        match        search  方法 元字符的用法和作用 正则表达式概念 正则表达式是对字符串操作的一种逻辑公式,就是对字符串的一种过滤 可以判断是否匹配给定的格式 可以按指定格式从字符串中提取信息 re模块 findall方法 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 match方法 从字符串的起始位置匹配 匹配成功,返回的是一个匹配对象(这个对象包含了我们匹配的信息),如果不是起始位置匹配成…
正则表达式 一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用.在线测试工具 http://tool.chinaz.com/regex/   http://tool.oschina.net/regex 首先你要知道的是,谈到正则,就只和字符串相关了.在我给你提供的工具中,你输入的每一个字都是一个字符串.其次,如果在一个位置的一个值,不会出现什么变化,那么是不需要规则的. 比如你要用"1"去匹配"1",或者用"2"去匹配"2&q…
一.正则表达式 在线测试工具 http://tool.chinaz.com/regex/ 1.字符组 ​ 在同一个位置可能出现的各种字符组成一个字符组,在正则表达中用[ ]表示 ​ 一个正则就是一条匹配规则,可以规定一次匹配字符的长度,字符组每次匹配一个长度为1的字符,例如:待匹配字符为:2a+ 使用字符组进行匹配时就会进行三次比较 正则 待匹配字段 匹配结果 说明 [0123456789] 5 5 在一个字符组里枚举所有合法的字符,待匹配字符与其中一个相同,即便匹配成功 [0123456789…
匹配对象是Python中re模块正则表达式匹配处理的返回结果,用于存放匹配的情况.老猿认为匹配对象更多的应该是与组匹配模式的功能对应的,只是没有使用组匹配模式的正则表达式整体作为组0. 为了说明下面的属性和方法,以如下命名组匹配模式串和搜索文本作为例子来介绍: >>> pattern='<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<a…
在线测试工具 http://tool.chinaz.com/regex/ 正则表达式本身和python语言没什么联系,只是匹配字符串内容的一种规则:详见:http://www.cnblogs.com/Eva-J/articles/7228075.html#_label10 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑.在线测试工具 http://tool.china…
glob  是python 提供的一个支持正则表达式的查找文件的模块. 实现上采用了os.listdir() 和 fnmatch.fnmatch().  但是没有真的invoking a subshell. glob.glob(pathname) Return a possibly-empty list of path names that match pathname, which must be a string containing a path specification. pathna…
就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行. 字符匹配(普通字符,元字符): 1 普通字符:大多数字符和字母都会和自身匹配              >>> re.findall('alvin','yuanaleSxalexwupeiqi')                      ['alvin'] 2 元字符:. ^…
正则表达式 内容概要 正则表达式前戏 正则表达式之字符组 正则表达式特殊符号 正则表达式量词 正则表达式贪婪与非贪婪匹配 正则表达式取消转义 python内置模块之re模块 内容详情 正则表达式前戏 # 京东注册页面获取手机号 有很多校验规则 必须是11位的纯数字 并且必须是常规的手机号开头(13,15,17,18,19) # 上述的规则能否使用python代码实现 '''python实现手机校验功能''' 1.获取用户的手机号 phone_num = input('请输入您的手机号>>>…
四.正则. re模块: 作用:针对的对象:字符串, 课前引入: 例子一. s='dsdsadsadadsalexdsds's.find('alex') 如何找到字符串内部的alex;?过去学习可使用方法:find.split.replace.但是字符串内置的方法很局限,只能实现完全匹配. 如果要找到:与a**开头的需求呢?就无法实现.要实现模糊匹配就得用到模糊匹配. 例子二.模糊匹配 #在文本里面存着一堆身份证 4504231989347382822 1104231989347382822 11…
python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python-基础学习篇(二)中提到了字符串类型有一些字符串内置的处理方法,但是需要了解一点内置方法是适用于一些简单字符串的处理,复杂的字符串处理方法还是正则表达式的天下.至于为啥要整一些内置方法,我个人认为对于一些简单应用中的字符串处理,无需使用一个整体的系统的正则知识,同时也是python易入门的体现. p…
一.迭代器: 迭代器是访问集合元素的一种方式. 迭代器对象是从集合的第一个元素开始访问,直到所有的元素被访问完结束. 迭代器只能往前不会后退,不过这也没什么,因为人们很少在迭代途中往后退. 另外,迭代器的一大优点是不要求事先准备好整个迭代过程中所有的元素.迭代器仅仅在迭代到某个元素时才计算该元素,而在这之前或之后,元素可以不存在或者被销毁.这个特点使得它特别适合用于遍历一些巨大的或是无限的集合,比如几个G的文件 特点: 访问者不需要关心迭代器内部的结构,仅需通过next()方法不断去取下一个内容…
Time模块 和时间有关系的我们就要用到时间模块.在使用模块之前,应该首先导入这个模块. #常用方法 1.time.sleep(secs) (线程)推迟指定的时间运行.单位为秒. 2.time.time() 获取当前时间戳 表示时间的三种方式 在Python中,通常有这三种方式来表示时间:时间戳.元组(struct_time).格式化的时间字符串: (1)时间戳(timestamp) :通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量.我们运行“type(time…
01-Django基础介绍 02-Web应用程序1 03-Web应用程序2 04-http请求协议1 05-http请求协议2 06-http协议之响应协议 07-wsgire模块1 08-wsgire模块2 09-DIY一个Web框架1 10-DIY一个Web框架2 11-DIY一个Web框架3 12-框架的简单使用 13-扩展框架关于数据库的操作 14-Django简介 15-Django的下载与基本命令 16-Django简单实例 17-静态文件配置1 18-静态文件配置2 19-路由控制…
阅读目录 正则表达式 字符 量词 . ^ $ * + ? { } 字符集[][^] 分组 ()与 或 |[^] 转义符 \ 贪婪匹配 re 总结 正则 re 常用模块 namedtuple deque OrderedDict defaultdict Counter 正则表达式本身也和python没有什么关系,就是匹配字符串内容的一种规则. 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字…
re模块是Python中支持正则表达式处理的模块,老猿学了之后,发现这部分内容太多,要表述清楚需要开单章才能写清楚,但老猿觉得re模块的使用对多数人来说要通过教程学习去熟练掌握很难,需要经常接触练习加上速查手册才能解决问题.而最近老猿对新知识的学习感觉很迫切,好多要学的内容,所以最终决定不在这个模块过多投入,只写几个简单章节来导入,如果大家要学习详细知识,可以在网上找相关的教程. 本章目录: 第11.1节 Python正则表达式概述 第11.2节 Python 正则表达式支持函数概览 第11.3…
目录 一:取消转义 二:python内置模块之re模块 三:常用方法 findall search match 简便 四:常用方法 finditer 匹配文件多情况 五:切割 替换 内置模块 六:分组优先机制 七:有名分组 起别名 八:正则实战案列 九:collections模块 十:队列 双端队列 十一:默认值字典 十二:计数器 统计元素出现的次数 十三:time模块 十四:时间相关符号 十五:时间戳 结构化时间 格式化时间 十六:datetime模块 获取日期 时间相减 十七:UTC时间与我…
Python内置模块(re+collections+time等模块) 1. re模块 import re 在python要想使用正则必须借助于模块 re就是其中之一 1.1 findall功能( re模块就主要掌握findall功能即可,其他看看就行了 ) 1.2 search 功能 """如果没有符合条件的数据 那么search返回None 并且使用group会直接报错""" 1.3 match 功能 同search,不过只在字符串开始处进行匹…
一.模块介绍                                                                                                                                   Python Module(模块),就是一个保存了Python代码的文件.模块能定义函数,类和变量.模块里也能包含可执行的代码. 文件名就是模块名加上后缀.py,在模块内部,模块名存储在全局变量__name__中,是一个str…
一.CSS3概述和CSS3的发展史: 1.css3概述: CSS3是CSS2的升级版本,3只是版本号,它在CSS2.1的基础上增加了很多强大的新功能.    目前主流浏览器chrome.safari.firefox.opera.甚至360都已经支持了CSS3大部分功能了,IE10以后也开始全面支持CSS3了.    2.css的发展史: HTML的诞生 20世纪90年代初     1996年底, CSS第一版诞生   1998年5月 CSS2正式发布           2004年 CSS2.1…
一.模块: 模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才能完成(函数又可以在不同的.py文件中),n个 .py 文件组成的代码集合就称为模块. 如:os 是系统相关的模块:file是文件操作相关的模块 模块分为三种: 自定义模块 内置模块 开源模块 二.导入模块: import module from module.xx.xx import…
前情提要 从大量的文字内容中找到自己想要的东西,正则似乎是最好的方法.也是写爬虫不可缺少的技能.所以,别墨迹了赶紧好好学吧! 教程来自http://www.runoob.com/python3/python3-reg-expressions.html,感谢菜鸟教程. 一. 在Python3中 正则为 re 模块 import re 二.re.match函数 re.match –>从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话match()就返回none,语法: re.match(p…