python爬虫数据解析之xpath

xpath是一门在xml文档中查找信息的语言。xpath可以用来在xml文档中对元素和属性进行遍历。

在xpath中，有7中类型的节点，元素，属性，文本，命名空间，处理指令，注释及根节点。

节点

首先看下面例子:

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>

  <title lang="en">Harry Potter</title>

  <author>J K. Rowling</author>

  <year>2005</year>

  <price>29.99</price>

</book>

</bookstore>

上面的节点例子：

<bookstore> （文档节点）

<author>J K. Rowling</author> （元素节点）

lang="en" （属性节点）

父：在上面的例子里，book是title，author，year，price的父。

子：反过来，title，author，year，price是book的子。

同胞：title，author，year，price是同胞。

先辈：title的先辈是book，bookstore。

后代：bookstore的后代是book，tite，author，year，price。

再看一个例子：

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>

  <title lang="eng">Harry Potter</title>

  <price>29.99</price>

</book>

<book>

  <title lang="eng">Learning XML</title>

  <price>39.95</price>

</book>

</bookstore

如何选取节点呢?

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

对应上面的例子，得到结果：

谓语：谓语用来查找某个特定节点或者包含某个指定值的节点。

比如：

选取未知节点：

比如：

选取若干路径：通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

常用xpath属性：

    # 找到class属性为song的div标签

    //div[@class="song"]

层级定位:

    # 找到class属性为tang的div直系字标签ul下的第二个字标签li下的直系字标签a

    //div[@class='tang']/ul/li[2]/a

逻辑运算:

    找到class属性为空且href属性为tang的a标签

    //a[@class='' and @href='tang']

模糊定位

    # 查找class属性值里包含'ng'字符串的div标签

    //div[contains(@class, 'ng')]

    # 配配class属性以ta为开头的div标签

    //div[start_with(@class, 'ta')]

获取文本

    //div[@class="song"]/p[1]/text()

获取属性

    # 获取class属性为tang的div下的第二个li下面a标签的href属性

    //div[@class="tang"]//li[2]/a/@href

在python中应用

将html文档或者xml文档转换成一个etree对象，然后调用对象中的方法查找指定节点。

1 本地文件：

　　tree = etree.parse(文档)

　　tree.xpath(xpath表达式)

2 网络数据:

　　tree = etree.HTML(网页字符串)

　　tree.xpath(xpath表达式)

例子1：随机爬取糗事百科糗图首页的一张图片

import requests

from lxml import etree

import random

def main():

    # 网页url

    url = 'https://www.qiushibaike.com/pic/'

    ua_headers = {"User-Agent": 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}

    # 网页代码

    response = requests.get(url=url, headers=ua_headers).text

    # 转换为etree对象

    tree = etree.HTML(response)

    # 匹配到所有class属性为thumb的div标签下的img标签的src属性值,返回一个列表

    img_lst = tree.xpath('//div[@class="thumb"]//img/@src')

    # 随机挑选一个图片并且下载下来

    res = requests.get(url='https:'+random.choice(img_lst), headers=ua_headers).content

    # 将图片保存到本地

    with open('image.jpg', 'wb') as f:

        f.write(res)

if __name__ == '__main__':

    main()

例子2：爬取煎蛋网首页的图片

import requests

from lxml import etree

def main():

    url = 'http://jandan.net/ooxx'

    headers = {

        "User-Agent": "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) "

                      "Version/5.1 Safari/534.50"}

    response = requests.get(url=url, headers=headers).text

    tree = etree.HTML(response)

    img_lst = tree.xpath('//div[@class="text"]//img/@src')

    for one_image in img_lst:

        res = requests.get(url='http:'+one_image, headers=headers).content

        with open('image/' + one_image.split('/')[-1] + '.gif', 'wb') as f:

            f.write(res)

if __name__ == '__main__':

    main()

python爬虫数据解析之xpath的更多相关文章

python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
python 爬虫数据存入csv格式方法
python 爬虫数据存入csv格式方法命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...

随机推荐

任务调度--使用java.util.Timer实现
任务调度是指基于给定时间点,给定时间间隔或者给定执行次数自动执行任务. 举个例子,比如说我们希望一个系统每周日晚上9点都将数据库文件备份一次,这时我们就可以使用任务调度来实现.为了更加的方便,我们需要 ...
分布式定时任务框架——python定时任务框架APScheduler扩展
http://bbs.7boo.org/forum.php?mod=viewthread&tid=14546 如果将定时任务部署在一台服务器上,那么这个定时任务就是整个系统的单点,这台服务器出 ...
Java之增强的for 循环
3. 增强for循环 1) 作用: 对存储对象的容器进行迭代 2) jdk5以前怎么迭代 3) 增强for循环迭代数组 String [] arr = {"a", "b ...
CentOS 6.2+Nginx+Nagios,手机短信和qq邮箱提醒
http://chenhao6.blog.51cto.com/6228054/1323192 标签:软件包配置文件 nagios 服务端监控原创作品,允许转载,转载时请务必以超链接形式标明文章 ...
传统业务上云：跨AZ容灾架构解析
本文由网易云发布. 数字化转型浪潮之下,采用云计算服务提升业务敏捷性.降低运维成本,成为了传统企业的优选方案.网易云资深解决方案架构师张亮通过某物流企业客户的实际案例,分享了传统业务系统在云上的架 ...
python 文件的写删改
# coding=utf-8 # !/usr/bin/python # -*- coding: UTF-8 -*- import io import os def file_chance(): #修改 ...
【读书笔记】《Maven实战》第6章仓库
6.1什么是Maven仓库? Maven仓库:存储所有Maven项目共享的构件的统一位置. Maven仓库的作用:Maven项目仅需声明依赖坐标,即可在需要的时候自动根据坐标找到仓库中的构件. 6.2 ...
DB2DB 一年多以来的重大更新
由于工作的原因,所以和 DB2DB 有较多的接触.但由于之前的版本一直能满足工作上的需要,所以直到最近才更新为最新版本,而总结了新版本的更新历史后,发现 DB2DB 一年多以来包括了以下重大的更新: ...
iview 菜单数据的转换，动态加载
<template> <div class="changePassword"> <i-Menu ref="leftMenu" :t ...
java的8种基础类型
一.基础类型 Java 是一种强类型语言 . 这就意味着必须为每一个变量声明一种类型 : 在 Java 中,一共有 8种基本类型 ( primitive type ) , 其中有 4 种整型 . 2 ...

python爬虫数据解析之xpath

python爬虫数据解析之xpath的更多相关文章

随机推荐

热门专题