一.re

　　这个去匹配比较麻烦,以后也比较少用,简单看一个案例就行

'''

    爬取数据流程:

        1.指定url

        2.发起请求

        3.获取页面数据

        4.数据解析

        5.持久化存储

'''

import requests

import re

import os

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

url = 'https://www.qiushibaike.com/pic/'

#获取一整张页面数据源码

page_text = requests.get(url=url,headers=headers).text

#解析数据(将所有的图片链接获取)

'''

<div class="thumb">

<a href="/article/121534421" target="_blank">

<img src="//pic.qiushibaike.com/system/pictures/12153/121534421/medium/R0ZJYJDN8THHM0RS.jpg" alt="image">

</a>

</div>

'''

if not os.path.exists('qiubai'):

    os.mkdir('qiubai')

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

img_url_list = re.findall(ex,page_text,re.S)#re.S单行匹配

for url in img_url_list:

    url = 'https:'+url

    img_data = requests.get(url=url,headers=headers).content

    img_name = url.split('/')[-1]

    img_path = 'qiubai/'+img_name

    with open(img_path,'wb') as fp:

        fp.write(img_data)

        print(img_name+'下载成功!!!')

二.使用re的注意点

1.Windows转义符

2.避免出错

　　在正则表达式中尽量使用原始字符串，在待匹配字符中看到什么就在正则表达式中写什么，不容易出问题

　　原始字符串的查看，可以借助ipython去查看，不要使用print

3.

re.findall('a(.*?)b','str')能返额回括号中的内容，括号前后的内容能起到一个定位的效果
原始字符串，待匹配字符串出现反斜杠的时候，可以使用r来忽略反斜杠带来的转义效果
点号默认匹配不到'\n'
'/s'能匹配空白字符，不仅仅包括空格，还有'/t|\r\n'

爬虫之re块解析的更多相关文章

05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
Python爬虫教程-18-页面解析和数据提取
本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据 Python爬虫教程-18-页面解析和数据提取结构化数据:先有的结构,再谈数据 ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫beautifulsoup4常用的解析方法总结（新手必看）
今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧摘要如何用beau ...

随机推荐

CSS--抽屉（dig.chouti.com）页面
一.设置整体页面宽度一般写个样式命名为.d{}设置整体页面指定宽度和居中,京东命名为.w{},bootstrap里命名为.container{} 1 2 3 4 5 6 7 8 9 10 11 12 ...
markdown的图片外链
markdown的图片用本地的很不方便,今天试用了一下七牛的服务,感觉很好用.推荐一下,免费的服务够用并且比较友好.
SqueezeNet:AlexNet-level Accuracy with 50x fewer parameters and less than 0.5Mb model size
- Fire modules consisting of a 'squeeze' layer with 1*1 filters feeding an 'expand' layer with 1*1 a ...
编写高质量代码改善C#程序的157个建议——建议26：使用匿名类型存储LINQ查询结果
建议26:使用匿名类型存储LINQ查询结果从.NET3.0开始,C#开始支持一个新特性:匿名类型.匿名类型有var.赋值运算符和一个非空初始值(或以new开头的初始化项)组成.匿名类型有如下基本特性 ...
企业管理系统——第三周需求&原型改进_张正浩，黄锐斌
企业管理系统——需求&原型改进,架构设计,测试计划组员:张正浩,黄锐斌一.需求&原型改进 1.给目标用户展现原型,与目标用户进一步沟通理解需求我们的目标用户是公司管理员场景:随 ...
將sql server 2008R2 Max memory 意外設為0
做sql server 內存Max memory 設定時大意,誤把最大值設為0,怎麼著都連不上DataBase,哪真叫個急呀,最後還是看到一條文命令把救回來了,其它很簡單急的時候就是沒想出來． 1.暫 ...
CentOS目录与文件操作
pwd:查看当前目录 touch:创建文件 touch a.c ls:查看当前目录下文件,也可以ls /tmp查看tmp下的文件 rm:删除文件 rm a.c,也可以rm a.c -rf 强制删除 c ...
以太坊系列之十二: solidity变量存储
solidity中变量的存储变量存储主要分为两个区域,一个是storage(对应指定是SLOAD,SSTORE),一个是Memory(MLOAD,MSTORE), 这和普通编程语言的内存模型是不一样 ...
linux 建议锁和强制锁
作为APUE 14.3节的参考 linux是有强制锁的,但是默认不开启.想让linux支持强制性锁,不但在mount的时候需要加上-o mand,而且对要加锁的文件也需要设置相关权限. . ...
WebService 天气预报webservice接口
WebService 天气预报webservice接口地址:http://www.webxml.com.cn/WebServices/WeatherWebService.asmx 常用接口: 1. ...

爬虫之re块解析

一.re

二.使用re的注意点

1.Windows转义符

2.避免出错

3.

爬虫之re块解析的更多相关文章

随机推荐

热门专题