爬虫-数据解析-xpath

xpath 解析

模块安装 :
pip install lxml
xpath的解析原理
- 实例化一个etree类型的对象,且将页面源码数据加载到该对象中
- 需要调用该对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取
etree对象的实例化
- etree.parse(fileNane) 加载本地
- etree.HTML(page_text) 加载网络请求的响应
xpath方法返回的永远是一个列表

标签定位

在xpath表达式中最最侧的 / 表示的含义是说,当前定位的标签必须从根节点开始进行定位
xpath表达式中最左侧的 // 表示可以从任意位置进行标签定位
xpath表达式中非最左侧的 // 表示的是多个层级的意思
xpath表达式中非最左侧的 / 表示的是一个层级的意思
属性定位://tagName[@arrtName='value']
索引定位://tagName/li[3]

定位条件可以多个,使用| 分开

from lxml import etree

tree = etree.parse('./test.html')

tree.xpath('/html/head/meta')[0] #绝对路径

tree.xpath('//meta')[0] #相对路径,将整个页面源码中所有的meta进行定位

#属性定位

tree.xpath('//div[@class="song"]')

#索引定位

tree.xpath('//div[@class="tang"]/ul/li[3]') #该索引是从1开始

#取文本

tree.xpath('//p[1]/text()')

#取属性

tree.xpath('//a[@id="feng"]/@href')

tree = etree.parse('./test.html')

tree.xpath('/html/head/meta')[0] #绝对路径

tree.xpath('//meta')[0] #相对路径,将整个页面源码中所有的meta进行定位

#属性定位

tree.xpath('//div[@class="song"]')

#索引定位

tree.xpath('//div[@class="tang"]/ul/li[3]') #该索引是从1开始

#取文本

tree.xpath('//p[1]/text()')

tree.xpath('//div[@class="song"]//text()')

#取属性

tree.xpath('//a[@id="feng"]/@href')

# 多个条件

div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()')[0]

提取数据

取文本:
- /text():取直系的文本内容
- //text():取所有的文本内容
取属性直:
- tag/@attrName

# 需求:爬取boss的招聘信息

from lxml import etree

headers = {  # 反扒策略

    'User-Agent':',

    'cookie':''

}

url = 'https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB&city=101010100&industry=&position='

page_text = requests.get(url,headers=headers).text

#数据解析

tree = etree.HTML(page_text)

li_list = tree.xpath('//div[@class="job-list"]/ul/li')

for li in li_list:

#     需要将li表示的局部页面源码数据中的相关数据进行提取

#     如果xpath表达式被作用在了循环中,表达式要以./或者.//开头

    detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="info-primary"]/h3/a/@href')[0]

    job_title = li.xpath('.//div[@class="info-primary"]/h3/a/div/tex	t()')[0]

    salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()')[0]

    company = li.xpath('.//div[@class="info-company"]/div/h3/a/text()')[0]

    #对详情页的url发请求解析出岗位职责

    detail_page_text = requests.get(detail_url,headers=headers).text

    tree = etree.HTML(detail_page_text)

    job_desc = tree.xpath('//div[@class="text"]//text()')

    job_desc = ''.join(job_desc)

    print(job_title,salary,company,job_desc)

乱码处理

对获取到的内容先编码再转码:

img_name = img_name.encode('iso-8859-1').decode('gbk')

爬虫-数据解析-xpath的更多相关文章

python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
爬虫-数据解析-bs4
1.数据解析解析: 根据指定的规则对数据进行提取作用: 实现聚焦爬虫数据解析方式: - 正则表达式 - bs4 - xpath 数据解析的通用原理: 数据解析需要作用在页面源码中(一组html标 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
03 数据解析-Xpath
Xpath解析 XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
Python网络爬虫数据解析的三种方式
request实现数据爬取的流程: 指定url 基于request发起请求获取响应的数据数据解析持久化存储 1.正则解析: 常用的正则回顾:https://www.cnblogs.com/wqz ...
02 爬虫数据解析之re,xpath,beautifulsoup
一.正则匹配简单用法演示: 字符: print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符, ...
python爬虫数据解析之xpath
xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点首先 ...

随机推荐

linux下通过脚本方式对中间件weblogic进行补丁升级
转至:http://bbs.learnfuture.com/topic/48 linux下通过脚本方式对中间件weblogic进行补丁升级刘五奎 [摘要] 在运维行业,系统或软件漏洞每每牵动着每一个 ...
centos7 下配置snort2.9 以及使用
先安装依赖文件 yum -y install epel-release //需要epel源 yum -y install gcc flex bison zlib zlib-devel libpcap ...
Pandas：各种错误
1.输出为CSV文件时,Permission denied 原因可能是: (1).构建DataFrame时没有写index参数 (2).用Dict构建最开始的数据时,value没有写成List的形式, ...
glibc2.29以上 IO_FILE 及 house of pig
摆烂很长时间之后,终于下定决心来看点新的东西.正好 winmt 师傅前不久把他 pig 修好的附件发给我了,我就借此来学习一下新版本的 IO_FILE 及 house of pig. 新版本的 IO_ ...
Vue-表单验证-全选-反选-删除-批量删除
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
安装MYSQL8.0提示api-ms-win-crt-runtime-l1-1-0.dll 丢失
Windows Server 2012 api-ms-win-crt-runtime-l1-1-0.dll 丢失 2017-11-06 11:11:37 Martin_Yelvin 阅读数 17015 ...
Netty学习(四)FastThreadLocal
FastThreadLocal 前面介绍过 JDK 的 ThreadLocal , 使用不当的话容易造成内存泄漏最终导致OOM, 并且也有一些地方设计的不够好(相对于接下来要介绍的 FastThrea ...
LGP3349口胡
建议改为:如何使用FWT直接把反演题草过去需要清楚 FWT 的本质是什么. 首先我们有一个明显的 DP: 设 \(dp[u][x][S]\) 代表 \(u\) 在图中为 \(x\),子树包含集合 \ ...
打靶笔记-04-vulnhub-Jangow
打靶笔记-04-vulnhub-Jangow 前面两篇名称写成了vulhub,已经更改为vulnhub;vulhub的之后再找个时间集中打一遍. 一.靶机信息 Name: Jangow: 1.0.1 ...
移动端ios网页版收起键盘导致页面空白解决办法
失焦的时候把窗口滚动位置设置到(0,0)就行了 <input type="text" onblur="window.scrollTo(0, 0);"> ...

爬虫-数据解析-xpath

xpath 解析

标签定位

提取数据

爬虫-数据解析-xpath的更多相关文章

随机推荐

热门专题