Python爬虫 | re正则表达式解析html页面

正则表达式（Regular Expression）是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"）。
正则表达式通常被用来匹配、检索、替换和分割那些符合某个模式(规则)的文本。

一、常用正则表达式回顾

   单字符：

        . : 除换行以外所有字符

        [] ：[aoe] [a-w] 匹配集合中任意一个字符

        \d ：数字  [0-9]

        \D : 非数字

        \w ：数字、字母、下划线、中文

        \W : 非\w

        \s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

        \S : 非空白

    数量修饰：

        * : 任意多次  >=0

        + : 至少1次   >=1

        ? : 可有可无  0次或者1次

        {m} ：固定m次 hello{3,}

        {m,} ：至少m次

        {m,n} ：m-n次

    边界：

        $ : 以某某结尾

        ^ : 以某某开头

    分组：

        (ab)  

    贪婪模式： .*

    非贪婪（惰性）模式： .*?

    re.I : 忽略大小写

    re.M ：多行匹配

    re.S ：单行匹配

re.sub(正则表达式, 替换内容, 字符串)

回顾练习：

import re

#提取出python

key="javapythonc++php"

re.findall('python',key)[0]            # 都有引号

#提取出hello world

key="<html><h1>hello world<h1></html>"

re.findall('<h1>(.*)<h1>',key)[0]

#提取170

string = '我喜欢身高为170的女孩'

re.findall('\d+',string)

#提取出http://和https://

key='http://www.baidu.com and https://boob.com'

re.findall('https?://',key)

#提取出hello

key='lalala<hTml>hello</HtMl>hahah' #输出<hTml>hello</HtMl>

re.findall('<[Hh][Tt][mM][lL]>(.*)</[Hh][Tt][mM][lL]>',key)

#提取出hit.

key='bobo@hit.edu.com'            #想要匹配到hit.

re.findall('h.*?\.',key)

#匹配sas和saas

key='saas and sas and saaas'

re.findall('sa{1,2}s',key)

#匹配出i开头的行

string = '''fall in love with you

i love you very much

i love she

i love her'''

re.findall('^i.*',string,re.M)

#匹配全部行

string1 = """<div>静夜思

窗前明月光

疑是地上霜

举头望明月

低头思故乡

</div>"""

re.findall('.*',string1,re.S)

注意：re.findall()通常匹配出来的是列表，所以要通过索引的方式将内容提取出来。

二、数据解析-正则表达式

1. 需求：爬取糗事百科中所有糗图照片

import requests

import re

import os

#创建一个文件夹

if not os.path.exists('./qiutuLibs'):        # 注意里面要有引号

    os.mkdir('./qiutuLibs')

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'

}

url = 'https://www.qiushibaike.com/pic/'

page_text = requests.get(url=url,headers=headers).text

#进行数据解析（图片的地址）

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'        #不相关的可以用.*，非贪婪匹配

#re.S单行匹配

src_list = re.findall(ex,page_text,re.S)

print(src_list)

for src in src_list:

src = 'https:'+src                                #发现src属性值不是一个完整的url，缺少了协议头

    #对图片的url单独发起请求，获取图片数据.content返回的是二进制类型的响应数据

    img_data = requests.get(url=src,headers=headers).content

    img_name = src.split('/')[-1]                            # url 最后一个斜杠的就是图片名

    img_path = './qiutuLibs/'+img_name

    with open(img_path,'wb') as fp:

        fp.write(img_data)

        print(img_name,'下载成功！')

2. 糗图分页爬取

import requests

import re

import os

# 创建一个文件夹

if not os.path.exists('./qiutuLibs'):

    os.mkdir('./qiutuLibs')

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'

}

#封装一个通用的url模板

url = 'https://www.qiushibaike.com/pic/page/%d/?s=5185803'

for page in range(1,36):

    new_url = format(url%page)                            #不要忘了format，里面不加引号

    page_text = requests.get(url=new_url, headers=headers).text

    # 进行数据解析（图片的地址）

    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

    src_list = re.findall(ex, page_text, re.S)                        # re.S单行匹配，因为页面源码里面有 \n

    # 发现src属性值不是一个完整的url，缺少了协议头

    for src in src_list:

        src = 'https:' + src

        # 对图片的url单独发起请求，获取图片数据.content返回的是二进制类型的响应数据

        img_data = requests.get(url=src, headers=headers).content

        img_name = src.split('/')[-1]

        img_path = './qiutuLibs/' + img_name

        with open(img_path, 'wb') as fp:

            fp.write(img_data)

            print(img_name, '下载成功！')

观察各个页面之间的关联

输入1，结果自动跳转到首页

注意：url使用format的编写格式

#封装一个通用的url模板

url = 'https://www.qiushibaike.com/pic/page/%d/?s=5185803'

for page in range(1,36):

    new_url = format(url%page)                            #不要忘了format，里面不加引号

3. 爬取糗事百科指定页面的糗图，并将其保存到指定文件夹中

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

import re

import os

if __name__ == "__main__":

     url = 'https://www.qiushibaike.com/pic/%s/'

     headers={

         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

     }

     #指定起始也结束页码

     page_start = int(input('enter start page:'))

     page_end = int(input('enter end page:'))

     #创建文件夹

     if not os.path.exists('images'):

         os.mkdir('images')

     #循环解析且下载指定页码中的图片数据

     for page in range(page_start,page_end+1):

         print('正在下载第%d页图片'%page)

         new_url = format(url % page)

         response = requests.get(url=new_url,headers=headers)

         #解析response中的图片链接

         e = '<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>'

         pa = re.compile(e,re.S)

         image_urls = pa.findall(response.text)

          #循环下载该页码下所有的图片数据

         for image_url in image_urls:

             image_url = 'https:' + image_url

             image_name = image_url.split('/')[-1]

             image_path = 'images/'+image_name



             image_data = requests.get(url=image_url,headers=headers).content

             with open(image_path,'wb') as fp:

                 fp.write(image_data)

Python爬虫 | re正则表达式解析html页面的更多相关文章

玩转python爬虫之正则表达式
玩转python爬虫之正则表达式这篇文章主要介绍了python爬虫的正则表达式,正则表达式在Python爬虫是必不可少的神兵利器,本文整理了Python中的正则表达式的相关内容,感兴趣的小伙伴们可以 ...
【python爬虫和正则表达式】爬取表格中的的二级链接
开始进公司实习的一个任务是整理一个网页页面上二级链接的内容整理到EXCEL中,这项工作把我头都搞大了,整理了好几天,实习生就是端茶送水的.前段时间学了爬虫,于是我想能不能用python写一个爬虫一个个 ...
【Python爬虫】正则表达式与re模块
正则表达式与re模块阅读目录在线正则表达式测试常见匹配模式 re.match re.search re.findall re.compile 实战练习在线正则表达式测试 http://tool ...
python 爬虫之-- 正则表达式
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. 正则表达式非python独有,python 提供了正则表达式的接口,re模块一.正则匹配字符简介模式描述 \d ...
python爬虫使用xpath解析页面和提取数据
XPath解析页面和提取数据一.简介关注公众号"轻松学编程"了解更多. XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.X ...
Python爬虫10-页面解析数据提取思路方法与简单正则应用
GitHub代码练习地址:正则1:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py 正则2:match. ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
python之urllib2简单解析HTML页面之篇一
一.urllib2简单获取html页面 #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib2 response = urllib2.u ...
python爬虫之html解析Beautifulsoup和Xpath
Beautiifulsoup Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.BeautifulSoup 用来解析 HTML 比较简 ...

随机推荐

kibana内存设置
kibana是一个基于NodeJS的单页web应用.而NodeJS则是基于Chrome V8引擎的.V8引擎对于内存的使用是有限制的,默认情况下,64位系统下约为1.4GB,32位系统下约为0.7GB ...
C#泛型集合之——字典
字典基础 1.概述:字典是一组映射,更准确的说应该是一个函数.因为它的键值不能重复,而值可以重复.其逻辑实质也是顺序型的 2.操作: (1)创建: Dictionary<键类型,值类型> ...
使用NODEJS实现JSONP的实例
JSONP与JSON只有一字之差,我们在使用Jquery的Ajax调用的时候也是使用相同的方法来调用,两者的区别几乎只在于使用的dataType这个属性的不同.但是实际上JSON和JSONP是完全不同 ...
prometheus2.0 联邦的配置
参考:https://blog.51cto.com/lee90/2062252 官网对于联邦的介绍:https://prometheus.io/docs/prometheus/latest/feder ...
Java自学-数组排序
Java 数组选择法,冒泡法排序步骤 1 : 选择法排序选择法排序的思路: 把第一位和其他所有的进行比较,只要比第一位小的,就换到第一个位置来比较完后,第一位就是最小的然后再从第二位和剩余的其 ...
Python进阶(四)----生成器、列表推导式、生成器推导式、匿名函数和内置函数
Python进阶(四)----生成器.列表推导式.生成器推导式.匿名函数和内置函数一丶生成器本质: 就是迭代器生成器产生的方式: 1.生成器函数
ORACLE SQL 笔记
根据数据权限查询 SELECT * FROM ( SELECT ROWNUM AS ROWNO, AA.* FROM ( SELECT DISTINCT A.OBJECTID InstanceID , ...
推荐一个去除图片人物背景的工具Removebg
可以在线使用,url:https://www.remove.bg/users/sign_in 用邮箱免注册一个免费账号: 注册的邮箱会收到一封激活账号的邮件: 点击Activate account后激 ...
python测试开发django-43.xadmin添加小组件报错解决
前言 xadmin首页上有个添加小组件按钮,打开的时候会报错“render() got an unexpected keyword argument 'renderer'”环境:python3.6dj ...
Termux和Ubuntu建立ssh连接
1 本机环境 Android:Termux v0.77 作为客户端 Linux:Ubuntu 19.10 作为服务器两者处于同一局域网下 2 ssh安装 2.1 Termux pkg install ...

Python爬虫 | re正则表达式解析html页面

一、常用正则表达式回顾

二、数据解析-正则表达式

Python爬虫 | re正则表达式解析html页面的更多相关文章

随机推荐

热门专题