Python3编写网络爬虫03-正则表达式的使用

一、正则表达式（处理字符串强大的工具，有特定的语法结构）
功能：实现字符串的检索，替换，匹配验证
实例：

地址：http://tool.oschina.net/regex/

#测试文本
Hello,my phone number is 010-86432100 and email is pindao@xiaomi.com,and my website is http://xiaomi.com

二、常用匹配方法

1. match() 从字符串起始位置匹配正则表达式，如果匹配，就返回匹配成功结果如果不匹配，就返回None。
参数1 正则表达式参数2 要匹配的字符串

import re

content = 'Hello 123 4567 World_This is a Regex Demo'

print(len(content))

result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)

print(result)

print(result.group())#输出匹配的内容

print(result.span())#输出匹配的范围

1.1 匹配目标从字符串中提取一部分内容可以使用（）

import re

content = 'Hello 123 4567 World_This is a Regex Demo'

result = re.match('^Hello\s(\d+)\s(\d+)\sWorld',content)

print(result)

print(result.group())

print(result.group(1))

print(result.group(2))

print(result.span())

1.2 通用匹配 . 匹配任意字符除换行符 * 匹配前面的字符无限次

改写正则表达式

import re

content = 'Hello 123 4567 World_This is a Regex Demo'

result = re.match('^Hello.*Demo$',content)

print(result)

print(result.group())

1.3 贪婪与非贪婪

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^He.*(\d+).*Demo$',content)

print(result)

print(result.group(1))

贪婪匹配下，.* 会尽可能多的匹配字符

使用.*? 拒绝贪婪模式尽可能少匹配字符

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^He.*?(\d+).*Demo$',content)

print(result)

print(result.group(1))

注意：如果匹配结果在字符串结尾 .*? 就有可能匹配不到任何内容了

import re

content = 'http://www.baidu.com/serch/kERacN'

result1 = re.match('http.*?serch/(.*?)',content)

result2 = re.match('http.*?serch/(.*)',content)

print(result1.group(1))

print(result2.group(1))

1.4 修饰符

import re

content = '''Hello 1234567 World_This

is a Regex Demo'''

result = re.match('^He.*?(\d+).*?Demo$',content)

print(result.group(1))

. 匹配换行符之外的任意字符添加修饰符 re.S （使.匹配包括换行符在内的所有字符）

import re

content = '''Hello 1234567 World_This

is a Regex Demo'''

result = re.match('^He.*?(\d+).*?Demo$',content,re.S)

print(result.group(1))

re.I 使匹配对大小写不敏感
re.L 做本地化识别（locale-aware）匹配
re.M 多行匹配，影响^和$
re.S 使.匹配包括换行符在内的所有字符
re.U 根据Unicode字符集解析字符影响 \w \W \b \B

网页匹配常用 re.S re.L

1.5 转义匹配

.匹配除换行符以外的任意字符如果目标字符串里面包含.

import re

content = '(百度)www.baidu.com'

result = re.match('\(百度\)www\.baidu\.com',content)

print(result)

遇到正则匹配模式的特殊字符在前面加反斜杠转义

2. search() 匹配整个字符串返回第一个成功匹配的结果匹配失败返回None

import re

content = 'Auto Hello 1234567 World_This is a Regex Demo'

result = re.match('He.*?(\d+).*Demo',content)

print(result)#返回None

import re

content = 'Auto Hello 1234567 World_This is a Regex Demo'

result = re.search('He.*?(\d+).*Demo',content)

print(result)

实例：

利用search方法提取 html文档中齐秦往事随风

查看文件 html.txt

import re

html = '''<div id="songs-list">

<h2 class="title">经典老歌</h2>

<p class="introduction">

经典老歌列表

</p>

<ul id="list" class="list-group">

<li data-view="2">一路上有你</li>

<li data-view="7">

<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

</li>

<li data-view="4" class="active">

<a href="/3.mp3" singer="齐秦">往事随风</a>

</li>

<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

<li data-view="5">

<a href="/6.mp3" singer="邓丽君">但愿人长久</a>

</li>

</ul>

</div>'''

result = re.search('li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)

print(result)

print(result.group(1))

print(result.group(2))

3.findall() 搜索整个字符串返回匹配规则的所有内容

实例：

3.1利用 findall方法提取所有a节点的超链接歌手歌名

result = re.findall('li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)

print(result)

3.2遍历依次获取每组内容

for results in result:

print(results)

3.2对应索引依次取出

for results in result:

print(results[0],results[1],results[2])

4.sub() 参数1 规则参数2 规则参数3 字符串

strs = '34iaU8hw9kcj2k3O0jc7oqqw8W'

去掉所有数字

import re

strs = '34iaU8hw9kcj2k3O0jc7oqqw8W'

strs = re.sub('\d+','',strs)

print(strs)

获取html文本所有li节点的歌名

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)

for result in results:

print(result[1])

利用sub方法去掉a节点再用findall方法提取

html = re.sub('<a.*?>|</a>','',html)

# print(html)

results = re.findall('<li.*?>(.*?)</li>',html,re.S)

# print(results)

for result in results:

print(result.strip())#去掉字符串两边的空格或者换行符

5.compile() 将正则字符串编译成正则表达式对象以便复用也可以传入修饰符例如re.S 相当于做了一层封装

示例

import re

str1 = '2016-12-25 12:00'

str2 = '2017-12-17 11:55'

str3 = '2018-12-23 15:00'

pattern = re.compile('\d{2}:\d{2}')

result1 = re.sub(pattern,'',str1)

result2 = re.sub(pattern,'',str2)

result3 = re.sub(pattern,'',str3)

print(result1,result2,result3)

附正则匹配规则

模式

\w        匹配字母、数字、下划线

\W        匹配非字母、数字、下划线

\s    匹配任意空白字符，等价于[\t\n\r\f]

\S    匹配任意非空字符

\d    匹配任意数字，等价于[0-9]

\D    匹配任意非数字的字符

\A    匹配字符串开头

\Z    匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串

\z    匹配字符串结尾，如果存在换行，同时还会匹配换行符

\G    匹配最后匹配完成的位置

\n    匹配一个换行符

\t    匹配一个制表符

^    匹配一行字符串的开头

$    匹配一行字符串的结尾

.    匹配任意字符，除换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符串

[...]    用来表示一组字符,单独列出 例如[amk] 匹配a,m或k

[^...]     不再[]中的字符 例如[^abc] 匹配除了a,b,c之外的字符

*    匹配0个或多个表达式

+    匹配1个或多个表达式

?    匹配0个或1个前面的表达式定义的片段，非贪婪模式

{n}    精确匹配n个前面的表达式

{n,m}    匹配n到m次由前面表达式定义的片段，贪婪模式

a|b    匹配a或b

( )    匹配括号内的表达式，也表示一个组

Python3编写网络爬虫03-正则表达式的使用的更多相关文章

python3编写网络爬虫20-pyspider框架的使用
二.pyspider框架的使用简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址 : https://github.com/binux/pyspider 官方文档 ...
python3编写网络爬虫21-scrapy框架的使用
一.scrapy框架的使用前面我们讲了pyspider 它可以快速的完成爬虫的编写不过pyspider也有一些缺点例如可配置化不高异常处理能力有限对于一些反爬虫程度非常强的网站爬取显得力不从 ...
python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
python3编写网络爬虫19-app爬取
一.app爬取前面都是介绍爬取Web网页的内容,随着移动互联网的发展,越来越多的企业并没有提供Web页面端的服务,而是直接开发了App,更多信息都是通过App展示的 App爬取相比Web端更加容易 ...
Python3编写网络爬虫12-数据存储方式五-非关系型数据库存储
非关系型数据库存储 NoSQL 全称 Not Only SQL 意为非SQL 泛指非关系型数据库.基于键值对不需要经过SQL层解析数据之间没有耦合性性能非常高. 非关系型数据库可细分如下: 键值 ...
Python3编写网络爬虫11-数据存储方式四-关系型数据库存储
关系型数据库存储关系型数据库是基于关系模型的数据库,而关系模型是通过二维表保存的,所以它的存储方式就是行列组成的表.每一列是一个字段,每一行是一条记录.表可以看作某个实体的集合,而实体之间存在联系, ...
Python3编写网络爬虫06-基本解析库Beautiful Soup的使用
二.Beautiful Soup 简介就是python的一个HTML或XML的解析库可以用它来很方便的从网页中提取数据 0.1 提供一些简单的 python式的函数来处理导航,搜索,修改分析树等功 ...
python3编写网络爬虫23-分布式爬虫
一.分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...
python3编写网络爬虫22-爬取知乎用户信息
思路选定起始人选一个关注数或者粉丝数多的大V作为爬虫起始点获取粉丝和关注列表通过知乎接口获得该大V的粉丝列表和关注列表获取列表用户信息获取列表每个用户的详细信息获取每个用户的粉丝和关注 ...
python3编写网络爬虫15-Splash的使用
Splash是一个JavaScript渲染服务是一个带有HTTP API的轻量级浏览器同时对接了python的Twisted 和QT库利用它可以实现对动态渲染页面的抓取功能介绍 1.异步方式处 ...

随机推荐

Linux入门练习2
export命令用来设置环境变量. 使用单引号时,变量不会被扩展,将依照原样显示.示例: 如果变量未定义过,则什么都不打印: 获得变量值长度识别当前所使用得shell: 检查是否为超级用户: UID ...
找xpath好用的工具（Firefox插件）
WebDriver Element Locator 安装打开firefox浏览器,进入网址https://addons.mozilla.org/en-US/firefox/ 在搜索框里输入WebDr ...
使用whiptail写linux字符界面ssh链接工具2.0
先看一下效果选择分组选择服务器开始链接为什么写之前写过一个字符界面的链接工具,但是看起来比较简陋,他是这个样子的: 看起来十分不好看.后来在网上看到shell中有一个whiptail工具可以 ...
Java基础——GUI编程（四）
继前面的,这篇主要记录菜单和文件对话框的两个小练习,来熟悉一下方法的应用,一些简单的逻辑和Swing的相关简介,以及关于GUI基础的记录. 一.创建一个菜单 import java.awt.FlowL ...
Java基本——数据类型
一.创建一个简单的Java应用程序 public class Code { public static void main(String[]args) { System.out.println(&qu ...
【Java并发编程】7、线程池
1. 为什么使用线程池诸如 Web 服务器.数据库服务器.文件服务器或邮件服务器之类的许多服务器应用程序都面向处理来自某些远程来源的大量短小的任务.请求以某种方式到达服务器,这种方式可能是通过网络协 ...
Redis——基础数据结构
Redis提供了5种基础数据结构,分别是String,list,set,hash和zset. 1.String Redis所有的键都是String.Redis的String是动态字符串,内部结构类似J ...
Java - 线程优先级和守护线程
Java多线程系列--“基础篇”10之线程优先级和守护线程概要本章,会对守护线程和线程优先级进行介绍.涉及到的内容包括:1. 线程优先级的介绍2. 线程优先级的示例3. 守护线程的示例转载请注 ...
Mybatis插件开发
前面几篇文章介绍了Mybtis中四个重要的对象,其中提到它们都是在Configuration中被创建的,我们一起看一下创建四大对象的方法,代码如下所示: public ParameterHandler ...
理解Java序列化
前言 Java对象是在JVM中产生的,若要将其进行传输或保存到硬盘,就要将对象转换为可传输的文件流.而目前Java对象的转换方式有: 利用Java的序列化功能序列成字节(字节流),一般是需要加密传输时 ...

Python3编写网络爬虫03-正则表达式的使用

Python3编写网络爬虫03-正则表达式的使用的更多相关文章

随机推荐

热门专题