强大的BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库·它能够通过你喜欢的转换器实现惯用的文档导航

安装BeautifulSoup

推荐使用Beautiful Soup 4，已经移植到BS4中，Beautiful Soup 3已经停止开发了，下面是安装步骤：
- 如果使用新版的Debain或Ubuntu，可以通过系统软件包管理来安装：apt-get install Python-bs4
- Beautiful Soup 4通过Pipy发布，可以通过pip安装：pip install beautiful
- 下载源码安装：https://pypi.org/project/beautifulsoup4/，进入文件夹，运行 python setup.py install

BeautifulSoup 的使用

1 快速开始

导入bs4库：from bs4 import BeautifulSoup 的使用
创建BeautifulSoup对象，创建BeautifulSoup对象有种方式，
- 通过字符串创建：

    soup = BeautifulSoup(html_str,'lxml',from_encoding='utf-8')

- 通过文件来创建：

    soup = BeautifulSoup(open('index.html'))

文档被转化成Unicode，并且HTML的实例都被转化成Unicode编码。打印soup对象内容，格式化输出

print soup.prettify()

Beautiful Soup 会选择合适的解析器来解析这段文档，如果手动解析就要指定解析器解析。
BeautifulSoup支持Python标准库的HTML解析器，还支持一些第三方的解析器：lxml、html5lib
- lxml（需要安装c语言库，分为lxml HTML解析器和lxml XML 解析器）解析速度要比标准库中的HTML解析速度快，安装：pip install lxml或者apt install Python-lxml
- 纯python实现的html5lib（速度慢），安装：pip install html5lib或者apt install Python-html5lib

推荐使用lxml作为解释器

2 对象种类

BeautifulSoup将复杂HTML文档转换换成一个复杂的树形结构，每个节点都是Python对象，对象可以分为4种：
- Tag
- NavigablString
- BeautifulSoup
- Comment
Tag对象就相当于HTML原生文档中的Tag，通俗就是标记。下面就是怎么在HTML抽取Tag：
- 抽取title：print soup.title
- 抽取a：print soup.a
- 抽取p：print soup.p

soup对象本身比较特殊，他的name为[document],对于其他内部标记，输出的值变为标机本身的名称。Tag不仅可以可以获取name，还可以修改name，改变之后将影响所有通过当前BeautifulSoup对象生成HTML文档。

soup.title.name = 'mytitle'
print soup.title
print soup.mytitle
运行结果：
None
<mytitle>.......</mytitle>

3 NavigableString

我们已经得到标记的内容，想要获取标记文字怎么办，需要用到.string

print soup.p.string
print type(soup.p.string)

BeautifulSoup 用NavigableString类包装Tag中的字符串，一个NavigableString字符串与python中Unicode字符串相同，通过Unicode()方法可以直接将NavigableString对象转换成Unicode字符串

unicode_string = unicode(soup.p.string)

BeautifulSoup对象表示一个文档的全部内容。大部分可以把他当做Tag对象，是一个T特殊的Tag，因为BeautifulSoup对象并不是真正的HTML或者XML的标记。所以它没有name和attribute属性：

print type(soup.name)
print soup.name
print soup.attrs
运行结果：
<type 'unicode'>
[document]
{}

Coment一些特殊对象。比如是文档注释部分：

print soup.a.string

print type(soup.a.string)

a标记里的内容实际是注释，如果用.string输出内容的话，会发现已经把注释符号去掉了。如果我们不清楚这个标记.string的情况下，可能造成数据混乱。因此提取字符串时：

if type(soup.a.string)==bs4.element.Comment:
    print soup.a.string

4 遍历文档树

BeautifulSoup会将HTML转化为文档进行搜索，树形结构，
- 子节点
- 父节点
- 兄弟节点
- 前后节点

详细：[https://wizardforcel.gitbooks.io/bs4-doc/content/6.html]https://wizardforcel.gitbooks.io/bs4-doc/content/6.html

5 搜索文档树

BeautifulSoup定义了很多搜索方法，着重介绍find_all（）方法
find_all( name , attrs , recursive , string , **kwargs )
find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
name 参数：
- 可以查找所有名字为name的标记，字符串会自动忽略。name参数取值可以字符串、正则表达式、列表、True和方法
- 比如查找文档中文档所的标记，返回值为列表：'print soup.find_all('b')'

kwargs 参数在python中表示为keyword参数，如果指定一个名字参数不是搜索内置的参数名，搜索时把该参数当做指定名字Tag的属性来搜索。搜索指定名字的属性可以使用的参数值包括字符串、正则表达式、列表、True。

比如包含id参数，要搜索每个tag的“id”属性：print soup.fina_all(id='link2')

可以指定多个名字的参数也可以同时过滤tag多个属性：

print soup.find_all(href=re.compile("elsie"),id="link1")

attrs ，如果搜索包含特殊属性的tag，用到attrs：

data_soup = BeautifulSoup('<div data-foo="value">fool</div>')
data_soup.find_all(attrs={"data-foo":"value"})

text 参数：通过text参数搜索文档中的字符串内容，与name参数可选值一样，text参数接收字符串、正则表达式、列表、True：

print soup.find_all(text="Elsie")
print soup.find_all(text={"Tillie","Elsie","Lacie"})
print soup.find_all(text=re.compile("Dormouse"))

limit参数

find_all返回全部的搜索结果，如果文档很大，搜索很慢，我们不需要那么多，就可以用他限制返回数量。当搜索结果达到limit值，就停止搜索：

print soup.find_all("a",limit=2)

recursive参数

调用tag的find_all()方法时，Beautiful soup会检索当前tag所有子孙节点，如果只想搜索tag的直接子节点，可以使用参数recursive=False

print soup.find_all("title")
print soup.find_all("title",recursive=False)

CSS选择器

web前端通过类名前加.，id名前加#，就可以定位元素的位置。同样，可以用类似的方法筛选元素，用到的方法是soup.select()，返回的类型是list

1通过标记名称可以直接查找，逐层查找，也可以找到某个标记下的直接子标记和兄弟节点标记：

#直接查找title标签
print soup.select("title")
#逐层查找title标签
print soup.select("html head title")
#查找直接子节点
#查找head下的title标签
print soup.select("head > title")
#查找p下的id="link1"的标签
print soup.select("p > #link1")
#查找兄弟节点
#查找id="link1"之后class=sisiter的所有兄弟标签
print soup.select("#link1 ~ .sister")
#查找紧跟着id="link1"之后class=sisiter的子标签
print soup.select("#link1 + .sister")

2 通过css的类名查找

print soup.select(".sister")
print soup.select("[class~=sister]")

3 通过tag的id查找

print soup.select("#link1")
print soup.select("a#link2")

4 通过是否存在某个属性来查找

print soup.select('a[href]')

5 通过属性值来查找

print soup.select('a[href="http://example.com/elsie"]')
print soup.select('a[href^="http://example.com/"]')
print soup.select('a[href$="tillie"]')
print soup.select('a[href*=".com/el"]')

强大的BeautifulSoup的更多相关文章

Python中第三方的用于解析HTML的库：BeautifulSoup
背景在Python去写爬虫,网页解析等过程中,比如: 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站常常需要涉及到HTML等网页的解析. 当然,对于简单的HTML中内 ...

八个commit让你学会爬取京东商品信息
我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...

爬虫学习笔记2requests库和beautifulsoup4库学习笔记
目录 1.requests库 1.1 安装 2.beautifulsoup4 2.1 常用方法 2.2 bs4 中四大对象种类 2.3 遍历文档树 2.4 搜索文档树查询id=head的Tag 查询 ...

selenium+BeautifulSoup实现强大的爬虫功能
sublime下运行 1 下载并安装必要的插件 BeautifulSoup selenium phantomjs 采用方式可以下载后安装,本文采用pip pip install BeautifulSo ...

BeautifulSoup 的用法
转自:http://cuiqingcai.com/1319.html Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python ...

利用BeautifulSoup抓取新浪网页新闻的内容
第一次写的小爬虫,python确实功能很强大,二十来行的代码抓取内容并存储为一个txt文本直接上代码 #coding = 'utf-8' import requests from bs4 impor ...

python 之readability与BeautifulSoup
以前要采集某个网页,一般做法是写程序源代码爬出来,然后用正则去匹配出来,这种针对指定的网页去爬效果还可以,但是如果是批量的网页这种实现就会变得不现实,在这时候就有readability出手的意义了,r ...

【爬虫】python之BeautifulSoup用法
1.爬虫网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份.通过分析和过滤HTML 代码,实现对图片.文字等资源的获取. 2.pytho ...

BeautifulSoup简述
网页解析器从网页中提取有价值数据的工具网页解析器种类正则表达式 (模糊匹配) html.parser (结构化解析) BeautifulSoup第三方插件 (结构化解析,相对比较强大) lxml ...

随机推荐

Resource ResourceLoader
DefaultResourceLoader -- > ResourceLoader 方法 ResourceLoader getResource(String location); Class ...

Java方法调用机制
最近在编程时,修改方法传入对象的对象引用,并没有将修改反映到调用方法中.奇怪为什么结果没有变化,原因是遗忘了Java对象引用和内存分配机制.本文介绍3个点: ① 该问题举例说明 ② 简要阐述Java内 ...

H5 设计尺寸
750*1218 微信下兼容 7plus 内容高度居中 1000px 内 750*1448 微信下兼容 iphoneX 微信导航栏高度 64px 64px = 导航栏44+状态栏20 但是现在 ...

交换机配置——VTP管理交换机的VLAN配置
一.实验目的:将S1配置成VTP-Server,S2配置成VTP-Transparent,S3配置成VTP-Client,S4配置成VTP-Client 二.拓扑图如下三.具体步骤: (1)S1交换 ...

TensorFlow使用记录 (八）：梯度修剪和 Max-Norm Regularization
梯度修剪梯度修剪主要避免训练梯度爆炸的问题,一般来说使用了 Batch Normalization 就不必要使用梯度修剪了,但还是有必要理解下实现的 In TensorFlow, the optim ...

Killer Problem （UVA 11898 ）
Problem You are given an array of N integers and Q queries. Each query is a closed interval [l, r]. ...

CSRF实战靶场 --致谢大哥
0X01无防护GET类型CSRF(伪造添加成员请求) 环境靶机管理登陆 192.168.1.132 本机 192.168.1.5 首先我们登陆 test账号然后点击添加用户构造出我们的url ...

flask读书记录
1. 在flask中,如果我们在视图函数中使用data = request.get_json()方法获取数据,那么在客户端发送POST请求时,就需要设置设置正确的Content-Type首部.在aja ...

线程系列4--Java线程范围内的共享数据（一）
这张图片是我看传智播客的视频时的截屏,这个图片很直观的展示了线程范围内的数据共享.当同一个线程在执行三个不同业务模块时,这三个业务模块访问的数据是共享的.更直白的说,当一个执行线索在穿个每个业务模块时 ...

Java 全栈知识体系 - 个人博客
摘自:https://www.pdai.tech/ 著作权归https://www.pdai.tech所有. 链接:https://www.pdai.tech/ Java 全栈知识体系包含: Jav ...

强大的BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库·它能够通过你喜欢的转换器实现惯用的文档导航

安装BeautifulSoup

BeautifulSoup 的使用

1 快速开始

2 对象种类

3 NavigableString

4 遍历文档树

5 搜索文档树

CSS选择器

强大的BeautifulSoup的更多相关文章

随机推荐

热门专题