Python——爬虫——数据提取

一、XML数据提取

　　（1）定义：XML指可扩展标记语言、标记语言，标签需要我们自行定义

　　（2）设计宗旨：是传输数据，而非显示数据，具有自我描述性

　　（3）节点关系：　父：每个元素及属性都有一个父、

　　　　　　　　　　　子：每个元素可能有0个或者多个子

　　　　　　　　　　同胞：拥有相同的父的节点

　　　　　　　　　　先辈：父的父

　　　　　　　　　　　后代：子的子

　　（4）XPath：是在XML中查找信息的语言，可以对XML文档元素和属性进行遍历

　　（5）XMLQuire是开源的XPath表达式编辑工具，Chrome插件是XPath Helper，Firefox插件Xpath Checker

　　（6）lxml的主要功能是如何解析和提取HTML/XMl数据，安装：pip install lxml，官方文档：lxml.de/index.html，lxm可以自动修正html代码

　　（7）文件读取

from lxml import etree

#读取外部文件

html = etree.parse('/hello.html')

result = etree.tostring(html,pretty_print=True)

　　（8）获取相应的标签　

from lxml import etree

#读取外部文件

html = etree.parse('/hello.html')

result = etree.tostring(html,pretty_print=True)

#获取<li>标签

result = html.xpath('//li')

#获取<li>标签的所有class属性

result = html.xpath('//li/@class')

#获取li标签下hre为link1.html的a标签

result = html.xpath('//li/a[@href="link1.html"]')

#获取li标签下的span标签

result = html.xpath('//li/span')

#获取最后一个li的a的href

result = html.xpath('//li[last()]/a/@href')

#获取倒数第二个元素内容

result = html.xpath('//li[last()-1]/a')

#获取class值为bold的标签名

result = html.xpath('//*[class="blod"]')

二、CSS选择器（BeautifulSoup）

　　（1）BeautifulSoup用来解析HTML比较签单，目前使用的BeautifulSoup4，安装为：pip install BeautifulSoup4

　　（2）引用　　

from bs4 import BeautifulSoup

　　（3）四大对象种类

　　　　1.Tag：HTMl中的一个个标签

from bs4 import BeautifulSoup

soup = BeautifulSoup(html)

result = soup.title

result = soup.head

result = soup.a

result = soup.p

#它的两个重要属性 name he attrs

soup.name

#[document]

soup.head.name

#对于其他内部标签，输出的值便为标签本身的名称

soup.p.attrs

#把p标签的所有属性打印出来，得到一个字典

soup.p['class']

#传入属性的名称，等同于 soup.p.get('class')

soup.p['class'] = "newclass"

#修改值

del soup.p['class']

#删除值

　　　　2.NavigableString，获取标签的内容

soup.p.string

　　　　3.BeautifulSoup：特殊的Tag对象

　　　　4.Comment：特殊的NavigableString对象

#将tag的子节点以列表的方式输出

soup.head.contents

#输出的方式为列表，可以用列表的索引获取他的某一个元素

soup.head.contents[0]

#.children，返回的不是list，可以用遍历获取所有的子节点

soup.head.children

for child in soup.body.children:

    print(child)

#.descendants对所有子孙节点进行递归循环

for child in soup.body.descendants:

    print(child)

　　（5）搜索文档树

　　　　1.find_all*（name,attrs,recursive,text,**kwargs）

　　（6）CSS选择器　soup.select()

#通过标签查找

soup.select（'tilte’）

#通过类名查找

soup.select('.sister')

#通过ID名查找

soup.select('#link1')

#组合查找

soup.select('p #link1')

#直接子标签查找

soup.select("head > title")

#属性查找

soup.select('a[class="sister"]')

#获取内容

for title in soup.select('title')

    print(title.get_text())

三、JSON数据提取

Python——爬虫——数据提取的更多相关文章

Python 爬虫数据提取
一下子运行七八十个 select 将会是什么样的体验呢? 业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据, 并且也提供了一个excel表格,如下图: 这个时候我们可以通过拍卖行,拍卖时 ...
python爬虫数据提取之bs4的使用方法
Beautiful Soup的使用 1.下载 pip install bs4 pip install lxml # 解析器官方推荐 2.引用方法 from bs4 import BeautifulS ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
python 爬虫数据存入csv格式方法
python 爬虫数据存入csv格式方法命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
【学习】Python进行数据提取的方法总结【转载】
链接:http://www.jb51.net/article/90946.htm 数据提取是分析师日常工作中经常遇到的需求.如某个用户的贷款金额,某个月或季度的利息总收入,某个特定时间段的贷款金额和笔 ...
爬虫数据提取之JSON与JsonPATH
数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适 ...

随机推荐

win10安装ubuntu16.04双系统
前话:因为感兴趣吧也是专业需要,所以自学了U盘重装系统以及在win10的情况下安装Ubuntu16.04双系统.借此博客,记录下我安装Ubuntu的过程,方便日后回忆. 正因如此,本篇博客会写的十分简 ...
java应用程序的运行机制
计算机高级语言类型主要有编译型和解释型两种,java是两种类型的结合. 机制:利用编译器(javac)将源文件(后缀名.java)编译成字节码文件(后缀名.class),最后利用虚拟机(jvm ...
HTML中特殊符号
Spring boot入门（一）：快速搭建Spring boot项目
(一)Spring boot介绍本部分摘自:https://www.zhihu.com/question/64671972/answer/223383505 Spring Boot是由Pivotal ...
Vue一个案例引发的递归组件的使用
今天我们继续使用 Vue 的撸我们的实战项目,只有在实战中我们才会领悟更多,光纸上谈兵然并卵,继上篇我们的<Vue一个案例引发的动态组件与全局事件绑定总结> 之后,今天来聊一聊我们如何在项 ...
git清空版本记录
在网上找的,记录下来自己使用 1.新增分支 git checkout --orphan latest_branch 2. 添加问题 git add -A 3. 提交 git commit -am &q ...
shell脚本批量ssh登陆主机并执行命令
shell脚本批量ssh登陆主机并执行命令今天在客户现场遇到了这个问题,客户没有管理工具,无法批量登陆主机下发命令,几个个C段啊,让我一个一个登陆,.................. 所以写了个s ...
C#如何生成JSON字符串提交给接口（服务器）
C#如何生成JSON字符串提交给接口(服务器) 第一章:C#如何拿到从http上返回JSON数据? 第二章:C#如何解析JSON数据?(反序列化对象) 第三章:C#如何生成JSON字符串?(序列化 ...
高德地图 Service 创建服务 USERKEY_PLAT_NOMATCH
在使用高的地图创建服务的时候 { "errmsg": "USERKEY_PLAT_NOMATCH", "errcode": 10009, ...
ZYNQ EMIO使用及可重用封装
为了快速实现算法板级验证,PC端需要通过JTAG或以太网与FPGA形成通路.最简单便捷的方案是利用协议栈芯片,用户可以无视底层,利用简单的SPI协议读写寄存器实现复杂的TCP UDP等网络协议.当然带 ...

Python——爬虫——数据提取

Python——爬虫——数据提取的更多相关文章

随机推荐

热门专题