day17 python re模块简易爬虫

day17 python

一.re模块

1.re模块的基础方法

查找findall()

import re

#re.findall(pattern,string,flags=0)

rst = re.findall('\d', 'bajie123ai456') #找到符合正则的所有结果, 返回列表

print(rst)

>>>['1', '2', '3', '4', '5', '6'

查找search()

import re

#re.search(pattern,string,flags=0)

rst = re.search('\d', 'bajie123ai456') #只匹配从左到右的第一个; 有的话返回一个'正则匹配的对象', 没有匹配到返回 None,

print(rst)

>>><_sre.SRE_Match object; span=(5, 6), match='1'>

if ret: #如果ret是None, 没有group()方法会报错

print(rst.group()) #通过对象的group()方法, 得到匹配的值, match=1

查找match()

import re

#re.match(pattern,string,flags=0)

rst = re.match('\d', '66bajie123ai456') #match()就是search()的pattern的开始加个^ :只从开头匹配一个

print(rst)

print(rst.group())

split()

import re

s = 'bajie66wukong120'

#re.split(pattern,string,maxsplit=0,flags=0)

print(re.split('\d+',s)) #和字符串的split()一样, 但是可以按正则切, 也是返回列表

sub()

import re

#re.sub(pattern,repl,string,count=0,flags=0)

s = 'bajie66wukong120'

rst=re.sub('\d','---',s) #和字符串的replace()一样, 但是可以按正则替换, 返回新的字符串

print(rst)

subn()

import re

#re.subn(pattern,repl,string,count=0,flags=0)

s = 'bajie66wukong120'

rst=re.subn('\d','---',s,1) #和sub()一样, 但是会多返回一个n: 是替换的次数, 返回元组

print(rst)

2.re模块的进阶

compile() 节省你使用正则表达式解决问题的时间

如果一个正则很复杂,用户多,执行多次时,耗时多; 先把正则编译, 在多次使用时可反复调用编译对象

import re

#re.compile(pattern,flags=0)

rst = re.compile('\d') #编译后, 得到一个编译对象; 之后的这个对象有的方法, 和re的一样

print(rst.findall('bajie66wukong120')) #可多次使用编译的成果

print(rst.findall('asdsaf3243242dsfsa'))

print(rst.findall('hku876j'))

finditer() 节省你使用正则表达式解决问题的空间

import re

#re.findall(pattern,string,flags=0)

rst = re.finditer('\d', 'asdf1223lj43l42l34klj2lkj2') #找到所有匹配的结果(findall): 但是返回的不是列表, 返回的是包含有匹配对象的迭代器

print(rst)

for el in rst:

print(el.group())

3.在python中使用正则表达式的特点和问题

在正则中的应用: ()内的组成一个整体

分组在re模块中的使用: "反向引用"

search()中, 正常的分组显示; match()和这个一样, 注意是 ^pattern就行了

import re

s = '<a>bajieaishuishui</a>' #这个是标签语言, a标签, html语言中的, web网页

rst = re.search('<(\w+)>(\w+)</(\w+)>', s) #首先分组不会对正则有影响,

print(rst.group()) #默认0, 是取所有匹配的,

print(rst.group(1)) #分组中的应用是从 1 开始的

print(rst.group(2))

print(rst.group(3))

findall()中的分组优先显示, 和取消分组优先显示

import re

s = '<a>bajieaishuishui</a>'

print(re.findall('>(\w+)<',s)) #['bajieaishuishui'] #findall 的分组时的优先显示特性(是由于没有类似search的group方法, 所以想了一个这样的招)

print(re.findall('\d+(\.\d+)?', '1.234*4.56')) #['.234', '.56'] #由于findall的分组优先特性, 我想要的小数得不到了, 怎么办?

print(re.findall('\d+(?:\.\d+)?', '1.234*4.56')) #['1.234', '4.56'] #在分组的内部前面加上 (?:pattern), ?:和正则无关, 是python和正则之间的恩怨

split()中的分组, 留下刀

import re

s = 'bajie66wukong120'

#re.split(pattern,string,maxsplit=0,flags)

print(re.split('(\d+)',s)) #['bajie', '66', 'wukong', '120', ''] #会把刀留下

分组命名

import re

s = '<a>bajieaishuishui</a>'

rst = re.search('<(?P<hao>\w+)>(?P<shen>\w+)</(?P<qi>\w+)>', s) #怎么命名: 在分组里面的开始位置加上(?P<name>pattern)

print(rst.group('hao')) #如何调用: 把数字换成分组时起的名字group('name'), name 是字符串

print(rst.group('shen'))

分组命名的应用

import re

s = '<a>bajieaishuishui</a>'

rst = re.search('<(?P<hao>\w+)>(?P<shen>\w+)</(?P=hao)>', s) #在正则中前面命名,正则后面直接引用这个名字, 表示的是和前面正则匹配的内容(结果)是一样的

print(rst.group()) #如果匹配到就好, 如果匹配不到, 返回None

#2018-12-09

#2019.11.9

#2017 09 08 #要求年和月之间的符号, 和月和日之间的符号一样时, 可以用到

上面的也可以用\1\2这样的反向引用

import re

s = '<a>bajieaishuishui</a>'

rst = re.search(r'<(\w+)>(\w+)</\1>', s) #r'pattern' : 要用 r''把正则搞起来

print(rst.group())

4.使用正则表达式的技巧

你要匹配的内容太没有特点了, 容易和你不想匹配的内容混在一起

那么你就把你不想匹配的也匹配出来, 然后想办法去搞掉他

import re

rst = re.findall('\d+', '1-2*(60+(-40.35/5)-(-4*3))')

print(rst) #['1', '2', '60', '40', '35', '5', '4', '3'] #取整数, 但不想匹配小数

rst = re.findall('(\d+\.\d+)|(\d+)', '1-2*(60+(-40.35/5)-(-4*3))') #如何精准的取到整数, 过滤掉小数

print(rst) #[('', '1'), ('', '2'), ('', '60'), ('40.35', ''), ('', '5'), ('', '4'), ('', '3')]

rst = re.findall('\d+\.\d+|(\d+)', '1-2*(60+(-40.35/5)-(-4*3))')

print(rst) #['1', '2', '60', '', '5', '4', '3']

5.爬虫的例子

预备知识

如何获取网页url的源代码

import re

from urllib import request

rst = request.urlopen('https://pythonav.com/') #拿到响应的对象

print(rst.read().decode('utf-8')) #对象的 read()方法, 打印出字节码,然后解码成字符串 #这就是这个url在网页上的源代

正则中的 . (点)不匹配\n, python如何让他匹配

import re

s = '''234

'''

print(re.search('23.*56',s, flags=re.S)) #flags=re.S即可解决

简易爬虫

import re

from urllib import request

pattern = '<div class="item">.*?<em.*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>.*?<span class="rating_num".*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)</span>'

comp = re.compile(pattern, flags=re.S)

def get_page_str(url):

rst = request.urlopen(url)

s = rst.read().decode('utf-8')

return s

def handle_page(s):

for i in comp.finditer(s):

yield {

'id': i.group('id'),

'title': i.group('title'),

'rating_num': i.group('rating_num'),

'comment_num': i.group('comment_num')}

def main(num):

url = 'https://movie.douban.com/top250?start=%s&filter=' % num

s = get_page_str(url)

rst = handle_page(s)

with open('move_info.txt', 'a', encoding='utf-8') as f:

for el in rst:

print(el)

data = str(el)

f.write(data+'\n')

for num in range(0,251,25):

main(num)

网页源代码内容(一个电影介绍的源代码实例)

'''

<li>

</a>

</div>

<span class="title">肖申克的救赎</span>

<span class="title"> / The Shawshank Redemption</span>

</a>

</div>

导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...

1994 / 美国 / 犯罪剧情

</p>

</div>

<span class="inq">希望让人自由。</span>

</p>

</div>

</li>

'''

二.练习

1.计算器

计算结果: rst = '1 - 2*((60-30+(-40/5)*(9-2*5/3+7/3*99/4*2998+10*568/14))- (-4*3)/(16-3*2))'

要求:

不能用print(), 不能用eval(), 要自己写算法

用到函数

用到循环

用到re模块

步骤:

先把所有的空格去掉

匹配内层中不再有括号的表达式

先计算*/, 在然后计算+-

将括号中计算的结果, 替换刚刚计算的括号

如何处理符号

循环这个过程

import re

def atom_mul_div(expr):

if '*' in expr:

a, b = expr.split('*')

return str(float(a) * float(b))

elif '/' in expr:

a, b = expr.split('/')

return str(float(a) / float(b))

def atom_add_sub(expr):

lst = re.findall('[+-]?\d+(?:\.\d+)?',expr)

atom_sum = 0

for i in lst:

atom_sum += float(i)

return atom_sum

def atom_format(expr):

expr = expr.replace('++', '+')

expr = expr.replace('--', '+')

expr = expr.replace('+-', '-')

expr = expr.replace('-+', '-')

return expr

def atom_brackets(expr):

while True:

expr_sub = re.search('\d+(\.\d+)?[*/]-?\d+(\.\d+)?', expr)

if expr_sub:

expr_sub = expr_sub.group()

rst = atom_mul_div(expr_sub)

expr = expr.replace(expr_sub,rst)

expr = atom_format(expr)

else:

break

rst = atom_add_sub(expr)

return rst

def main(expr):

expr = expr.replace(' ', '')

while True:

expr_sub = re.search('\([^()]+\)', expr)

if expr_sub:

expr_sub = expr_sub.group()

rst = atom_brackets(expr_sub)

expr = expr.replace(expr_sub, str(rst))

expr = atom_format(expr)

else:

break

return atom_brackets(expr)

s = '1 - 2*((60-30+(-40/5)*(9-2*5/3+7/3*99/4*2998+10*568.8/14))- (-4*3)/(16-3*2))'

print(main(s))

print(eval(s))

day17 python re模块简易爬虫的更多相关文章

python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
洗礼灵魂，修炼python（69）--爬虫篇—番外篇之feedparser模块
feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom .使用它我们可从任何 RSS 或 Atom 订阅源得到标题.链接和文章的 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对 ...
python 常用模块（转载）
转载地址:http://codeweblog.com/python-%e5%b8%b8%e7%94%a8%e6%a8%a1%e5%9d%97/ adodb:我们领导推荐的数据库连接组件bsddb3:B ...
python常用模块（1）：collections模块和re模块（正则表达式详解）
从今天开始我们就要开始学习python的模块,今天先介绍两个常用模块collections和re模块.还有非常重要的正则表达式,今天学习的正则表达式需要记忆的东西非常多,希望大家可以认真记忆.按常理来 ...
洗礼灵魂，修炼python（50）--爬虫篇—基础认识
爬虫 1.什么是爬虫爬虫就是昆虫一类的其中一个爬行物种,擅长爬行. 哈哈,开玩笑,在编程里,爬虫其实全名叫网络爬虫,网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者 ...
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进 ...

随机推荐

P1970花匠
传送首先,这道题据说是一个dp 其次,贪心就能做我们先来看好想好写的贪心按照题目来,所有偶数点要么都是凸的,要么都是凹的,不能有凸有凹.我们把每株花的高度都在平面直角坐标系中点出来,再连线.这样 ...
制作自己的win7系统
每次安装完纯净版的系统,然后是漫长的打补丁,装驱动,装软件.不妨制作一个自己的系统光盘(也就是GHOST系统),再要重装系统时,直接用这个系统光盘,一键安装,方便省时. 制作GHOST系统,就是将本地 ...
20150722---点击按钮使指定的控件可见部分平移（JS）
前段代码: <div id="out" style=" width:400px;overflow:hidden;"> <div id=&quo ...
Oracle-数据表对象
表一般指的是一个关系表,也可以生成对象表以及临时表.齐总,对象表是通过用户定义的数据类型生成的,临时表用于存储专用于某个事务或会话的临时数据字符类型: 定长:char (1-2000字节) 变长:v ...
IsAjaxRequest
具体来说,IsAjaxRequest代码可以分解为以下功能: public static bool IsAjaxRequest(this HttpRequestBase request) { if ( ...
报错：Uncaught SyntaxError: Unexpected token）
用JSON格式传值时,js一直报这个错误:Uncaught SyntaxError: Unexpected token) 错误位置是:result=eval('('+result+')'): 原因: ...
StringBuilder -字符串缓冲区，节约内层空间变长数组
package cn.learn; /* 字符串缓冲区 -缓冲可提高效率 java.lang.StringBuilder 字符串的底层是一个被final修饰的数组,不能改变,是一个常量 private ...
form-control的作用
表单控件加上类form-control后,效果为: 宽度为100% 设置边框为浅灰色控件具有4px的圆角设置阴影效果,元素得到焦点时,阴影和边框效果会发生变化设置placeholder的颜色为# ...
luoguP2123 皇后游戏(贪心)
luoguP2123 皇后游戏(贪心) 题目洛谷题目chuanso 题解有一篇好题解,我就懒得推式子了,毕竟打到电脑上还是很难的牛逼题解传送门 code #include<iostream ...
python学习第十五天集合的创建和基本操作方法
集合是python独有的数据列表,集合可以做数据分析,集合是一个无序的,唯一的的数据类型,可以确定列表的唯一性,说一下集合的创建和基本常见操作方法 1,集合的创建 s={1,2,4} 也可以用set( ...

day17 python re模块 简易爬虫

day17 python re模块 简易爬虫的更多相关文章

随机推荐

热门专题

day17 python re模块简易爬虫

day17 python re模块简易爬虫的更多相关文章