爬虫——网页解析利器--re & xpath
正则解析模块re
re模块使用流程
方法一
r_list=re.findall('正则表达式',html,re.S)
方法二 创建正则编译对象
pattern = re.compile('正则表达式',re.S)
r_list = pattern.findall(html)
正则表达式元字符:https://www.cnblogs.com/LXP-Never/p/9522475.html
类别 | 元字符 |
匹配字符 | . [...] [^...] \d \D \w \W \s \S |
匹配重复 | * + ? {n} {m,n} |
匹配位置 | ^ $ \A \Z \b \B |
其他 | | () \ |
匹配任意一个字符的正则表达式
import re pattern = re.compile('.',re.S) # 方法一
pattern = re.compile('[\s\S]') # 方法二
贪婪匹配和非贪婪匹配
贪婪匹配(默认)
- 在整个表达式匹配成功的前提下,尽可能多的匹配 * + ?
- 表示方式: .* .+ .?
非贪婪匹配
- 在整个表达式匹配成功的前提下,尽可能少的匹配 * + ?
- 表示方式: .*? .+? .??
正则表达式分组
作用:在完整的模式中定义子模式,将每个圆括号中子模式匹配出来。
import re s = 'A B C D'
p1 = re.compile('\w+\s+\w+')
print(p1.findall(s)) # # ['A B','C D'] p2 = re.compile('(\w+)\s+\w+')
print(p2.findall(s)) # # ['A','C'] p3 = re.compile('(\w+)\s+(\w+)')
print(p3.findall(s)) # # [('A','B'),('C','D')]
import re html = '''<div class="animal">
<p class="name">
<a title="Tiger"></a>
</p>
<p class="content">
Two tigers two tigers run fast
</p>
</div> <div class="animal">
<p class="name">
<a title="Rabbit"></a>
</p> <p class="content">
Small white rabbit white and white
</p>
</div>''' pattern = re.compile(
'<div class="animal">.*?title="(.*?)".*?'
'class="content">(.*?)</p>',
re.S)
r_list = pattern.findall(html)
print(r_list)
分组总结
- 在网页中,想要什么内容,就加 ( )
- 先按整体正则匹配,然后再提取分组()中的内容
- 如果有2个及以上分组(),则结果中以元组形式显示 [(),(),()]
xpath解析
XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档的检索,我们来利用xpath对HTML代码进行检索试试,以下是HTML示例代码。
<ul class="book_list">
<li>
<title class="book_001">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>69.99</price>
</li>
<li>
<title class="book_002">Spider</title>
<author>Forever</author>
<year>2019</year>
<price>49.99</price>
</li>
</ul>
匹配演示
1、查找所有的li节点
//li
2、查找li节点下的title子节点中,class属性值为'book_001'的节点
//li/title[@class="book_001"]
3、查找li节点下所有title节点的,class属性的值
//li//title/@class
只要涉及到条件,加 []
只要获取属性值,加 @
选取节点
// :从所有节点中查找(包括子节点和后代节点)
@ :获取属性值
# 使用场景1(属性值作为条件)
//div[@class="movie"] # 使用场景2(直接获取属性值)
//div/a/@src
匹配多路径(或)
xpath表达式1 | xpath表达式2 | xpath表达式3
contains() :匹配属性值中包含某些字符串节点
# 查找class属性值中包含"book_"的title节点
//title[contains(@class,"book_")] # 匹配ID名含qiushi_tag_字符串的div节点
//div[contains(@id,"qiushi_tag_")]
text() :获取节点的文本内容
# 查找所有书籍的名称
//ul[@class="book_list"]/li/title
# 结果:<element title at xxxx>
//ul[@class="book_list"]/li/title/text()
# 结果:'Harry Potter'
练习猫眼电影xpath信息检索:https://maoyan.com/board/4?offset=1
1、获取猫眼电影中电影信息的 dd 节点
//dl[@class="board-wrapper"]/dd
2、获取电影名称
//dl[@class="board-wrapper"]/dd//p[@class="name"]/a/text()
3、获取电影主演的
//dl[@class="board-wrapper"]/dd//p[@class="star"]/text()
4、获取上映商检的xpath
//dl[@class="board-wrapper"]/dd//p[@class="releasetime"]/text()
xpath解析库lxml
- 导模块 from lxml import etree
- 创建解析对象 parse_html = etree.HTML(html)
- 解析对象调用xpath,只要调用xpath,结果一定为列表 r_list = parse_html.xpath('xpath表达式')
from lxml import etree html = """
<div class="wrapper">
<i class="iconfont icon-back" id="back"></i>
<a href="/" id="channel">新浪社会</a>
<ul id="nav">
<li><a href="http://domestic.firefox.sina.com/" title="国内">国内</a></li>
<li><a href="http://world.firefox.sina.com/" title="国际">国际</a></li>
<li><a href="http://mil.firefox.sina.com/" title="军事">军事</a></li>
<li><a href="http://photo.firefox.sina.com/" title="图片">图片</a></li>
<li><a href="http://society.firefox.sina.com/" title="社会">社会</a></li>
<li><a href="http://ent.firefox.sina.com/" title="娱乐">娱乐</a></li>
<li><a href="http://tech.firefox.sina.com/" title="科技">科技</a></li>
<li><a href="http://sports.firefox.sina.com/" title="体育">体育</a></li>
<li><a href="http://finance.firefox.sina.com/" title="财经">财经</a></li>
<li><a href="http://auto.firefox.sina.com/" title="汽车">汽车</a></li>
</ul>
<i class="iconfont icon-liebiao" id="menu"></i>
</div>""" # 问题1:获取所有 a 节点的文本内容
parse_html = etree.HTML(html)
r_list = parse_html.xpath('//a/text()')
print(r_list)
# ['新浪社会', '国内', '国际',.....] # 问题2:获取所有 a 节点的 href 的属性值
parse_html = etree.HTML(html)
r_list = parse_html.xpath('//a/@href')
print(r_list)
# ['/', 'http://domestic.firefox.sina.com/', 'http://world.firefox.sina.com/'...] # 问题3: 获取所有 a 节点的href的属性值, 但是不包括 /
parse_html = etree.HTML(html)
r_list = parse_html.xpath('//ul[@id="nav"]/li/a/@href')
print(r_list)
# ['http://domestic.firefox.sina.com/', 'http://world.firefox.sina.com/'...] # 问题4: 获取 图片、军事、...,不包括新浪社会
parse_html = etree.HTML(html)
r_list = parse_html.xpath('//ul[@id="nav"]/li/a/text()')
print(r_list)
# ['国内', '国际',.....]
猫眼电影(xpath)
地址: 猫眼电影 - 榜单 - top100榜 https://maoyan.com/board/4
目标: 电影名称、主演、上映时间
步骤:
- 确定是否为静态页面(右键-查看网页源代码,搜索关键字确认)
- 写xpath表达式
- 写程序框架
xpath表达式
1、基准xpath: 匹配所有电影信息的节点对象列表
//dl[@class="board-wrapper"]/dd
2、遍历对象列表,依次获取每个电影信息
for dd in dd_list:
遍历后继续xpath一定要以: . 开头,代表当前节点
电影名称 :
dd.xpath('./a/@title')[0].strip()
电影主演 :
dd.xpath('.//p[@class="star"]/text()')[0].strip()
上映时间 :
dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()
完整代码:
import requests
from lxml import etree
import time
import random class MaoyanSpider(object):
def __init__(self):
self.page = 1 # 用于记录页数
self.url = 'https://maoyan.com/board/4?offset={}'
self.ua_list = [
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.\
163 Safari/535.1',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; \
.NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)'] # 获取页面
def get_page(self, url):
# 每次使用随机的user-agent
try:
# 每次使用随机的user-agent
headers = {'User-Agent': random.choice(self.ua_list)}
res = requests.get(url, headers=headers, timeout=5)
res.encoding = 'utf-8'
html = res.text
self.parse_page(html)
except Exception as e:
print('Error')
self.get_page(url) # 解析页面
def parse_page(self, html):
parse_html = etree.HTML(html) # 创建解析对象
# 基准xpath节点对象列表
dd_list = parse_html.xpath('//dl[@class="board-wrapper"]/dd')
item = {}
# 依次遍历每个节点对象,提取数据
if dd_list:
for dd in dd_list:
# ['喜剧之王'] 因为返回的是列表,所以取第0个值,得到的是字符串
name_list = dd.xpath('.//p/a/@title') # 电影名称
item['name'] = [name_list[0].strip() if name_list else None][0]
star_list = dd.xpath('.//p[@class="star"]/text()') # 电影主演
item['star'] = [star_list[0].strip() if star_list else None][0]
time_list = dd.xpath('.//p[@class="releasetime"]/text()') # 上映时间
item['time'] = [time_list[0].strip() if time_list else None] print(item)
else:
print('No Data') # 主函数
def main(self):
for offset in range(0, 31, 10):
url = self.url.format(str(offset))
self.get_page(url)
print('第%d页完成' % self.page)
time.sleep(random.randint(1, 3))
self.page += 1 if __name__ == '__main__':
start = time.time()
spider = MaoyanSpider()
spider.main()
end = time.time()
print('执行时间: %.2f' % (end - start))
链家二手房案例(xpath)
确定是否为静态
打开二手房页面 -> 查看网页源码 -> 搜索关键字,能够搜索到就说明,是静态页面。
xpath表达式
1、基准xpath表达式(匹配每个房源信息节点列表)
//ul[@class="sellListContent"]/li[@class="clear LOGCLICKDATA"] | //ul[@class="sellListContent"]/li[@class="clear LOGVIEWDATA LOGCLICKDATA"]
2、依次遍历后每个房源信息xpath表达式
- 名称: .//a[@data-el="region"]/text()
- 户型+面积+方位+是否精装:info_list = './/div[@class="houseInfo"]/text()' [0].strip().split('|')
- 户型: info_list[1]
- 面积: info_list[2]
- 方位: info_list[3]
- 精装: info_list[4]
- 楼层: './/div[@class="positionInfo"]/text()'
- 区域: './/div[@class="positionInfo"]/a/text()'
- 总价: './/div[@class="totalPrice"]/span/text()'
- 单价: './/div[@class="unitPrice"]/span/text()'
代码实现
import requests
from lxml import etree
import time
import random class LianjiaSpider(object):
def __init__(self):
self.url = 'https://bj.lianjia.com/ershoufang/pg{}/'
self.blog = 1
self.ua_list = [
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET \
CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)', ] def get_html(self, url):
headers = {'User-Agent': random.choice(self.ua_list)}
# 尝试3次,否则换下一页地址
if self.blog <= 3:
try:
# 设定超时时间,超时后抛出异常,被except捕捉,继续执行此函数再次请求
res = requests.get(url=url, headers=headers, timeout=5)
res.encoding = 'utf-8'
html = res.text
self.parse_page(html) # 直接调用解析函数
except Exception as e:
print('再次尝试')
self.blog += 1
self.get_html(url) def parse_page(self, html):
parse_html = etree.HTML(html)
# li_list: [<element li at xxx>,<element li at xxx>]
li_list = parse_html.xpath('//ul[@class="sellListContent"]/li[@class="clear LOGVIEWDATA LOGCLICKDATA"]')
item = {}
for li in li_list:
name_list = li.xpath('.//a[@data-el="region"]/text()') # 名称
item['name'] = [name_list[0].strip() if name_list else None][0]
info_list = li.xpath('.//div[@class="houseInfo"]/text()') # 户型+面积+方位+是否精装
if info_list:
info_list = info_list[0].strip().split('|')
if len(info_list) == 5:
item['model'] = info_list[1].strip()
item['area'] = info_list[2].strip()
item['direction'] = info_list[3].strip()
item['perfect'] = info_list[4].strip()
else:
item['model'] = item['area'] = item['direction'] = item['perfect'] = None
else:
item['model'] = item['area'] = item['direction'] = item['perfect'] = None floor_list = li.xpath('.//div[@class="positionInfo"]/text()') # 楼层
item['floor'] = [floor_list[0].strip().split()[0] if floor_list else None][0]
address_list = li.xpath('.//div[@class="positionInfo"]/a/text()') # 地区
item['address'] = [address_list[0].strip() if address_list else None][0]
total_list = li.xpath('.//div[@class="totalPrice"]/span/text()') # 总价
item['total_price'] = [total_list[0].strip() if total_list else None][0]
unit_list = li.xpath('.//div[@class="unitPrice"]/span/text()') # 单价
item['unit_price'] = [unit_list[0].strip() if unit_list else None][0] print(item) def main(self):
for pg in range(1, 11):
url = self.url.format(pg)
self.get_html(url)
time.sleep(random.randint(1, 3))
# 对self.blog进行一下初始化
self.blog = 1 if __name__ == '__main__':
start = time.time()
spider = LianjiaSpider()
spider.main()
end = time.time()
print('执行时间:%.2f' % (end - start))
Chrome浏览器安装插件
安装方法
- 把下载的相关插件(对应操作系统浏览器)后缀改为 .zip
- 打开Chrome浏览器 -> 右上角设置 -> 更多工具 -> 扩展程序 -> 点开开发者模式
- 把相关插件 拖拽 到浏览器中,释放鼠标即可安装
- 重启浏览器
需要安装插件
- Xpath Helper: 轻松获取HTML元素的xPath路径;打开/关闭: Ctrl+Shift+x
- Proxy SwitchyOmega: Chrome浏览器中的代理管理扩展程序
- JsonView: 格式化输出json格式数据
爬虫——网页解析利器--re & xpath的更多相关文章
- 【XPath Helper:chrome爬虫网页解析工具 Chrome插件】XPath Helper:chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插件网
[XPath Helper:chrome爬虫网页解析工具 Chrome插件]XPath Helper:chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插 ...
- python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块 一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...
- python爬虫网页解析之parsel模块
08.06自我总结 python爬虫网页解析之parsel模块 一.parsel模块安装 官网链接https://pypi.org/project/parsel/1.0.2/ pip install ...
- 史林枫:开源HtmlAgilityPack公共小类库封装 - 网页采集(爬虫)辅助解析利器【附源码+可视化工具推荐】
做开发的,可能都做过信息采集相关的程序,史林枫也经常做一些数据采集或某些网站的业务办理自动化操作软件. 获取目标网页的信息很简单,使用网络编程,利用HttpWebResponse.HttpWebReq ...
- 02 爬虫数据解析之re,xpath,beautifulsoup
一.正则匹配 简单用法演示: 字符: print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符, ...
- python爬虫三大解析库之XPath解析库通俗易懂详讲
目录 使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...
- 网页解析 -- bs4 和 xpath 的简单使用
bs4 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便 中文文档:https://beautifulsoup.read ...
- 网页解析:Xpath 与 BeautifulSoup
1. Xpath 1.1 Xpath 简介 1.2 Xpath 使用案例 2. BeautifulSoup 2.1 BeautifulSoup 简介 2.2 BeautifulSoup 使用案例 1) ...
- 关于爬虫中常见的两个网页解析工具的分析 —— lxml / xpath 与 bs4 / BeautifulSoup
http://www.cnblogs.com/binye-typing/p/6656595.html 读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可 ...
随机推荐
- Java oop 多态
1.多态指对象的多种形态:引用多态与方法多态 注意: A:继承是多态的实现基础 B:方法重写也是多态的体现 2.引用多态 A:父类的引用可以指向本类的对象:父类 对象名 = new 父类( ...
- Integrating Thymeleaf with Spring
这个是基于注解的配置方式,基于配置文件的http://www.cnblogs.com/honger/p/6875148.html 一.整体结构图 二.web.xml文件,这里使用了注解的方式 < ...
- Java 获取操作系统相关的内容
package com.hikvision.discsetup.util; import java.lang.reflect.Field; import java.net.InetAddress; i ...
- Spring文档学习
Spring文档学习 参考Spring Framework Documentation学习 1. IoC 容器 1.1 容器实例化 <beans> <import resource= ...
- 数据结构之队列java版
//java由于泛型的擦除,用起来十分不方便 abstract class BaseQueue<T>{ abstract boolean enQueue(T x); abstract T ...
- java并发编程(七)----(JUC)ReadWriteLock
前面我们已经分析过JUC包里面的Lock锁,ReentrantLock锁和semaphore信号量机制.Lock锁实现了比synchronized更灵活的锁机制,Reentrantlock是Lock的 ...
- 【C++】string::substr函数
形式:s.substr(p, n) 返回一个string,包含字符串s中从p开始的n个字符的拷贝(p的默认值是0,n的默认值是s.size() - p,即不加参数会默认拷贝整个s) int main( ...
- 微信小程序如何动态增删class类名达到切换tabel栏的效果
微信小程序和vue还是有点差别的,要想实现通过动态切换class来达到切换css的效果,请看代码: //wxml页面: <view class="tab"> <v ...
- 一段代码分清global和nonlocal
废话不多说,直接代码啊~~~ a=999 b=99999 def test1(): a=888 b=88888 print('a={}'.format(a)) print('b={}'.format( ...
- API开发之接口安全(三)----sign有效时间
之前生成的sign和校验sign我们已经完全掌握了.但是仅仅凭借这样的sign是无法满足我们的需求的,如果一个黑客通过抓包抓到你的数据 他可以去修改你的header为这样的 body为那样的 也是可以 ...