16.Python使用lxml爬虫

1.lxml是解析库，使用时需要导入该包，直接在命令行输入：pip3 install lxml，基本上会报错。正确应该去对应的网址：https://pypi.org/project/lxml/#files，直接下载对应的lxml

（根据python版本自己去选择，笔者是python3.6，故下载：lxml-4.2.4-cp36-cp36m-win32.whl，切换到下载的whl目录，在该目录下执行：

pip3 install lxml-4.2.4-cp36-cp36m-win32.whl）

2.代码如下所示：

import requests

from lxml import etree

url = 'https://www.mafengwo.cn/gonglve/ziyouxing/2033.html'

response = requests.get(url)   #返回一个response对象

page = response.text

html = etree.HTML(page)      #返回一个Element对象，将字符串解析为HTML文档

content = html.xpath('//h2')

for i in content:

    print(i.text)

3.代码解释：

A：定义好url的路径，使用url获取到response对象如：url = ''

B：需要将reponse对象转化为字符串格式，page = response.text

C：使用解析库将字符串转为为HTML文档，根据自己想要获取的内容去定义xpath路径

16.Python使用lxml爬虫的更多相关文章

python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
【网络爬虫】【python】网络爬虫（四）：scrapy爬虫框架（架构、win/linux安装、文件结构）
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...
初探爬虫 ——《python 3 网络爬虫开发实践》读书笔记
零.背景之前在 node.js 下写过一些爬虫,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下. 本文内容主要侧重介绍爬虫的概念.玩法.策略.不同工具的列举和 ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
c#代码天气接口一分钟搞懂你的博客为什么没人看看完python这段爬虫代码，java流泪了c#沉默了图片二进制转换与存入数据库相关 C#7.0--引用返回值和引用局部变量 JS直接调用C#后台方法（ajax调用） Linq To Json SqlServer 递归查询
天气预报的程序.程序并不难. 看到这个需求第一个想法就是只要找到合适天气预报接口一切都是小意思,说干就干,立马跟学生沟通价格. 不过谈报价的过程中,差点没让我一口老血喷键盘上,话说我们程序猿的人 ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
python应用之爬虫实战1 爬虫基本原理
知识内容: 1.爬虫是什么 2.爬虫的基本流程 3.request和response 4.python爬虫工具参考:http://www.cnblogs.com/linhaifeng/article ...
python 3.x 爬虫基础---Requersts,BeautifulSoup4（bs4）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...
Python学习网络爬虫--转
原文地址:https://github.com/lining0806/PythonSpiderNotes Python学习网络爬虫主要分3个大的版块:抓取,分析,存储另外,比较常用的爬虫框架Scra ...

随机推荐

使用XMLHttpRequest对象完成原生的AJAX请求
1.大家眼中的Ajax 说到Ajax,只要有过前端开发经验的童鞋一定都不陌生,大都知道它就是一种与后端之间的通信技术,通过这个神奇的家伙,我们不用像传统表单那样填完信息一点提交就呼啦呼啦跳转了.Aja ...
Spring源码解析-IOC容器的实现
1.IOC容器是什么? IOC(Inversion of Control)控制反转:本来是由应用程序管理的对象之间的依赖关系,现在交给了容器管理,这就叫控制反转,即交给了IOC容器,Spring的IO ...
lvs fullnat部署手册（一）fullnat内核编译篇
标签:kernel rpm lvs fullnat 原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://shanks.blog.51c ...
内存保护机制及绕过方法——通过伪造SEHOP链绕过SEHOP保护机制
1.1 SEHOP保护机制 1.1.1 SEHOP工作原理: SEHOP保护机制的核心就是检查SEH链的完整性,其验证代码如下: BOOL RtlIsValidHandler(handle ...
Marketing™Series用户手册(Marketing™Series Manual)
起源(Origin) 每日构建(Daily Build) 软件不支持的功能(Functions which are not supported.) 软件支持的功能(Functions which ar ...
ant+jmeter+jenkins+git持续集成以及邮件报告展示
前序准备工作: ant--下载地址:http://ant.apache.org/bindownload.cgi jmeter--下载地址:http://jmeter.apache.org/downlo ...
c# 获取随机数字/字符/时间
using System; using System.Text; namespace HuaTong.General.Utility { /// <summary> /// 随机字符/数字 ...
jsp中把js变量赋给java变量，或者将java变量赋给js变量怎么做？
在jsp中经常会遇到把js变量赋给java变量,或者将java变量赋给js变量的情况,在此将通用的处理方法小结如下: java变量传给js好办,var a=”<%=javaParam%>“ ...
ffmpeg jpeg图片播放失败之问题排查
播放jpeg时,avformat_find_stream_info出现以下问题,排查: [jpeg_pipe @ 0x146a80] Could not find codec parameters f ...
Inception 初探
1,安装下载组件 wget clone https:/github.com/mysql-inception/inception.git rz ll unzip inception-master.zi ...

16.Python使用lxml爬虫

16.Python使用lxml爬虫的更多相关文章

随机推荐

热门专题