爬虫系列二(数据清洗--->正则表达式)

一正则常识

模式	描述
`\w`	匹配字母数字及下划线
`\W`	匹配非字母数字及下划线
`\s`	匹配任意空白字符，等价于 [\t\n\r\f].
`\S`	匹配任意非空字符
`\d`	匹配任意数字，等价于 [0-9]
`\D`	匹配任意非数字
`\A`	匹配字符串开始
`\Z`	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
`\z`	匹配字符串结束
`\G`	匹配最后匹配完成的位置
`\n`	匹配一个换行符
`\t`	匹配一个制表符
`^`	匹配字符串的开头
`$`	匹配字符串的末尾
`.`	匹配任意字符，除了换行符
`[...]`	用来表示一组字符，单独列出：[amk] 匹配 'a'，'m' 或 'k'
`[^...]`	不在 [] 中的字符：[^abc]匹配除了 a,b,c 之外的字符。
`*`	匹配 0 个或多个的表达式。
`+`	匹配 1 个或多个的表达式。
`?`	匹配 0 个或 1 个由前面的正则表达式定义的片段，非贪婪方式
`{n}`	精确匹配 n 个前面表达式。
`{n, m}`	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
`a \\| b`	匹配 a 或 b
`( )`	匹配括号内的表达式，也表示一个组

二 pythoon正则中的常见方法

函数	描述
`re.match(pattern, string, flags=0)`	尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none
`re.search(pattern, string, flags=0)`	扫描整个字符串并返回第一个成功的匹配
`re.sub(pattern, repl, string, count=0)`	用于替换字符串中的匹配项，repl : 替换的字符串，也可为一个函数
`re.compile(pattern[, flags])`	用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用
`findall(string[, pos[, endpos]])`	在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表
`re.split(pattern, string[, maxsplit=0, flags=0])`	能够匹配的子串将字符串分割后返回列表

三修饰符总结

修饰符	描述
`re.I`	使匹配对大小写不敏感
`re.L`	做本地化识别（locale-aware）匹配
`re.M`	多行匹配，影响 ^ 和 $
`re.S`	使 . 匹配包括换行在内的所有字符
`re.U`	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
`re.X`	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

四爬虫正则解析数据实例(源码)

# re 解析,下载嗅事百科图片

import requests

import re

import os

url='https://www.qiushibaike.com/pic/'

headers={

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.20 Safari/537.36'

}

response=requests.get(url=url,headers=headers)

# print(response.text)

'''
#网页中需要的数据格式为:

<div class="thumb">

<a href="/article/121553539" target="_blank">

<img src="//pic.qiushibaike.com/system/pictures/12155/121553539/medium/8FN1C2RZMV2J1FJY.jpg" alt="抖音上的骗子">

</a>

</div>

'''

#利用re获取图片url

ex='<div class="thumb">.*?<img src="(?P<img>.*?)" alt.*?</div>'

img_url_list=re.findall(ex,response.text,re.S)

#持久化保存图片

if not os.path.exists('qiushibaike'):

    os.makedirs('qiushibaike')

for url in img_url_list:

    url='https:'+url

    img_data=requests.get(url=url).content

    img_name=url.split('/')[-1]

    path='qiushibaike/'+img_name

    with open(path,mode='wb') as f:

        f.write(img_data)

        print(img_name+'下载完成')

爬虫系列二(数据清洗--->正则表达式)的更多相关文章

爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
Python爬虫（二）正则表达式
一.介绍 1.概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来 ...
爬虫系列(十二) selenium的基本使用
一.selenium 简介随着网络技术的发展,目前大部分网站都采用动态加载技术,常见的有 JavaScript 动态渲染和 Ajax 动态加载对于爬取这些网站,一般有两种思路: 分析 Ajax 请 ...
爬虫系列(五) re的基本使用
1.简介究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹 ...
爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...

随机推荐

Recursion之Demo
Model: public class PerSon { [DisplayName("标识id")] public string id { get; set; } [Display ...
将dylib库嵌入macOS应用的方法
写作是一种习惯,稍微松懈,也许失去的就很多.过了一个年,居然很多天都没有更新,幸福的代价吧:) 标题的问题其实以前碰到过,不过当时在iOS,所以随手处理了没有重视. 而这次是在macOS,所使用的库, ...
Lucene 04 - 学习使用Lucene的Field(字段)
目录 1 Field的特性 2 常用的Field类型 3 常用的Field种类使用 3.1 准备环境 3.2 需求分析 3.3 修改代码 3.4 重新建立索引 1 Field的特性 Document( ...
Node.js 中的 stream
什么是 stream Stream 借鉴自 Unix 编程哲学中的 pipe. Unix shell 命令中,管道式的操作 | 将上一个命令的输出作为下一个命令的输入.Node.js stream 中 ...
Vue2.0中的transition组件
组件的过度 Vue1.0中transition做为标签的行内属性被vue支持.但在Vue2.0中.Vue放弃了旧属性的支持并提供了transition组件,transition做为标签被使用. 使用t ...
精读《正则 ES2018》
1. 引言本周精读的文章是 regexp-features-regular-expressions. 这篇文章介绍了 ES2018 正则支持的几个重要特性: Lookbehind assertion ...
[七]JavaIO之 PipedInputStream 和 PipedInputStream
管道简介
内核中 xxx_initcall 的调用过程分析
内核版本:linux-4.19 上一篇文章提到了这段代码: arch_initcall_sync(of_platform_default_populate_init); 它的功能是完成 device_ ...
.Net语言 APP开发平台——Smobiler学习日志：在应用中添加WeiXin组件
最前面的话:Smobiler是一个在VS环境中使用.Net语言来开发APP的开发平台,也许比Xamarin更方便控件说明 WeiXin组件. 效果演示 1. 分享好友 2. 分享朋友圈图1 图2 ...
第23章 Windows身份验证 - Identity Server 4 中文文档(v1.0.0)
在支持的平台上,您可以使用IdentityServer使用Windows身份验证对用户进行身份验证(例如,针对Active Directory).当前使用以下命令托管IdentityServer时,W ...

爬虫系列二(数据清洗--->正则表达式)

爬虫系列二(数据清洗--->正则表达式)的更多相关文章

随机推荐

热门专题