前言

之前分享过一个python爬虫beautifulsoup框架可以解析html页面，最近看到lxml框架的语法更简洁，学过xpath定位的，可以立马上手。

使用环境：

python 3.6

lxml 4.2.4

lxml安装

使用pip安装lxml库

$ pip install lxml

pip show lxml查看版本号

$ pip show lxml

html解析

这里用到etree.HTML方法把html的文本内容解析成html对象

要打印html内容，可以用etree.tostring方法，encoding="utf-8"参数可以正常输出html里面的中文内容。pretty_print=True是以标准格式输出

# coding:utf-8

from lxml import etree

htmldemo = '''

<meta charset="UTF-8"> <!-- for HTML5 -->

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<html><head><title>yoyo ketang</title></head>

<body>

<b><!--Hey, this in comment!--></b>

<p class="title"><b>yoyoketang</b></p>

<p class="yoyo">这里是我的微信公众号：yoyoketang

<a href="http://www.cnblogs.com/yoyoketang/tag/fiddler/" class="sister" id="link1">fiddler教程</a>,

<a href="http://www.cnblogs.com/yoyoketang/tag/python/" class="sister" id="link2">python笔记</a>,

<a href="http://www.cnblogs.com/yoyoketang/tag/selenium/" class="sister" id="link3">selenium文档</a>;

快来关注吧！</p>

<p class="story">...</p>

'''

# etree.HTML解析html内容

demo = etree.HTML(htmldemo)

# 打印解析内容str

t = etree.tostring(demo, encoding="utf-8", pretty_print=True)

print(t.decode("utf-8"))

运行结果

<html>

  <head><meta charset="UTF-8"/> <!-- for HTML5 -->

<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>

<title>yoyo ketang</title>

</head>

  <body>

<b><!--Hey, this in comment!--></b>

<p class="title"><b>yoyoketang</b></p>

<p class="yoyo">这里是我的微信公众号：yoyoketang

<a href="http://www.cnblogs.com/yoyoketang/tag/fiddler/" class="sister" id="link1">fiddler教程</a>,

<a href="http://www.cnblogs.com/yoyoketang/tag/python/" class="sister" id="link2">python笔记</a>,

<a href="http://www.cnblogs.com/yoyoketang/tag/selenium/" class="sister" id="link3">selenium文档</a>;

快来关注吧！</p>

<p class="story">...</p>

</body>

</html>

soupparser解析器

soupparser解析器比上面的etree.HTML容错性要好一点，因为其处理不规范的html的能力比etree强太多。

import lxml.html.soupparser as soupparser

demo = soupparser.fromstring(htmldemo)

t = etree.tostring(demo, encoding="utf-8", pretty_print=True)

print(t.decode("utf-8"))

xpath使用案例

使用htnl解析器，最终是想获取html上的某些元素属性和text文本内容，接下来看下，用最少的代码，简单高效的找出想要的内容。

比如要获取“这里是我的微信公众号：yoyoketang”

# coding:utf-8

from lxml import etree

htmldemo = '''

复制上面的html内容

'''

# etree.HTML解析html内容

demo = etree.HTML(htmldemo)

nodes = demo.xpath('//p[@class="yoyo"]')

# 获取文本

t = nodes[0].text

print(t)

运行结果：

这里是我的微信公众号：yoyoketang

从代码量上看，简单的三行代码就能找到想要的内容了，比之前的beautifulsoup框架要简单高效的多

nodes是xpath定位获取到的一个list对象，会找出所有符合条件的元素对象。可以用for 循环查看详情

# coding:utf-8

from lxml import etree

htmldemo = '''

复制上面的html内容

'''

# etree.HTML解析html内容

demo = etree.HTML(htmldemo)

nodes = demo.xpath('//p[@class="yoyo"]')

print(nodes)  # list对象

for i in nodes:

    # 打印定位到的内容

    print(etree.tostring(i, encoding="utf-8", pretty_print=True).decode("utf-8"))

    # 元素属性，字典格式

    print(i.attrib)

运行结果

[<Element p at 0x2bcd388>]

<p class="yoyo">这里是我的微信公众号：yoyoketang

<a href="http://www.cnblogs.com/yoyoketang/tag/fiddler/" class="sister" id="link1">fiddler教程</a>,

<a href="http://www.cnblogs.com/yoyoketang/tag/python/" class="sister" id="link2">python笔记</a>,

<a href="http://www.cnblogs.com/yoyoketang/tag/selenium/" class="sister" id="link3">selenium文档</a>;

快来关注吧！</p>

{'class': 'yoyo'}

二次查找

通过xpath定位语法//p[@class="yoyo"]定位到的是class="yoyo"这个元素以及它的所有子节点，如果想定位其中一个子节点，可以二次定位，继续xpath查找，如获取：python笔记

nodes = demo.xpath('//p[@class="yoyo"]')

t1 = nodes[0].xpath('//a[@id="link2"]')

print(t1[0].text)

运行结果

python笔记

作者：上海-悠悠 python自动化交流 QQ群：779429633

python笔记27-lxml.etree解析html的更多相关文章

IOS学习笔记27—使用GDataXML解析XML文档
http://blog.csdn.net/ryantang03/article/details/7868246
使用由 Python 编写的 lxml 实现高性能 XML 解析
lxml 简介 Python 从来不出现 XML 库短缺的情况.从 2.0 版本开始,它就附带了 xml.dom.minidom 和相关的 pulldom 以及 Simple API for XML ...
python笔记28-lxml.etree爬取html内容
前言本篇继续lxml.etree学习,在线访问接口,通过接口返回的html,解析出想要的text文本内容环境准备: python 3.6 lxml requets 定位目标爬取我的博客首页htt ...
Python导入 from lxml import etree 导入不了
问题在学爬虫,Python 版本是2.7,安装的lxml包是4.3的,在 from lxml import etree 时发现一直报错,网上查询,原来是Python版本和lxml包版本不一致导致的. ...
python笔记：windows 下安装 python lxml
原文:http://blog.csdn.net/zhaokuo719/article/details/8209496 windows 环境下安装 lxml python 1.首先保证你的python ...
吴裕雄--天生自然python学习笔记：Python3 XML 解析
什么是 XML? XML 指可扩展标记语言(eXtensible Markup Language),标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言. XML 被设计用来传输和存 ...
requests的content与text导致lxml的解析问题
title: requests的content与text导致lxml的解析问题 date: 2015-04-29 22:49:31 categories: 经验 tags: [Python,lxml, ...
爬虫笔记(四)------关于BeautifulSoup4解析器与编码
前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述如同前几章笔记,当我们输入: soup=BeautifulSoup(response. ...
python标准库xml.etree.ElementTree的bug
使用python生成或者解析xml的方法用的最多的可能就数python标准库xml.etree.ElementTree和lxml了,在某些环境下使用xml.etree.ElementTree更方便一些 ...

随机推荐

（一）Dubbo简介
Dubbo是阿里巴巴公司开源的一个高性能优秀的服务框架,使得应用可通过高性能的 RPC 实现服务的输出和输入功能,可以和Spring框架无缝集成.具体可以看百度百科 https://baike.ba ...
visual studio code插件精选
HTML Snippets 超级实用且初级的 H5代码片段以及提示 HTML CSS Support 让 html 标签上写class 智能提示当前项目所支持的样式 JavaScript Atom G ...
JAVAssist字节码操作
Java动态性的两种常见实现方式字节码操作反射运行时操作字节码可以让我们实现如下功能: 动态生成新的类动态改变某个类的结构(添加/删除/修改新的属性/方法) 优势: 比反射开销小,性能高 ...
chrome如何在选项卡打开网页
1.鼠标中间点击,会打开新选项卡 2.按住ctrl,然后鼠标点击,也是可以的 3.
linux密码暴力破解机
linux 密码保存在 /etc/shadow shadow 文件的保存格式 python:$$mWSyC6Pv$hpMreQT77R9ML/Xx1QnRAow1tUTDjIowaTssV7bZw9S ...
图片视频访问servlet(支持苹果视频断点续传)
package com.sm.common.servlet; import java.io.File; import java.io.FileInputStream; import java.io.F ...
关于set
set 这是一个十分神奇的东西他的基本原理是平衡树而且这个set的运用其实方便了一些在计算时间上的优化(STL大法好) 其实是因为我不会写平衡树这个set的基本用法如下: iterator 指针 ...
【BZOJ 3620】 3620: 似乎在梦中见过的样子（KMP）
3620: 似乎在梦中见过的样子 Time Limit: 15 Sec Memory Limit: 128 MBSubmit: 755 Solved: 445 Description “Madok ...
codevs 5929 亲戚
5929 亲戚时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description 若某个家族人员过于庞大,要判断两个是否是亲戚,确实还很不 ...
C++中如何访问全局变量和全局函数
全局变量和全局函数是相对局部变量和局部函数而言的,不在{}或者for, if 等范围内的都是全局变量或者全局函数,最简单的是在同一个文件中去声明. 例如在mian.cpp中 #include < ...

python笔记27-lxml.etree解析html

前言

lxml安装

html解析

soupparser解析器

xpath使用案例

二次查找

python笔记27-lxml.etree解析html的更多相关文章

随机推荐

热门专题