#目录
----
    1. 开发前准备
    2. 不同解析器对比
    3. BeautifulSoup4 初始化和节点对象的认识
    4. BS4 案例操作：初始化对象文档
    5. 节点查询：子节点
    6. 节点查询：父节点
    7. 节点查询：兄弟节点
    8. 节点查询：解析顺序
    9. 高级查询： find/find_all 检索
    10. 高级查询： CSS 选择器
----

#1.开发前准备
- 官方文档： https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html
官方文档中文版： https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
- 命令安装方式
pip install beautifulsoup4
easy_install beautifulsoup4
下载源码包(tar.gz)安装
python setup.py install
- 安装解析器： BeautifulSoup4 本身只包含解析器接口规则，支持 python 内置的 HTML 解析器，同时支持第三方的一些解析器[如 lxml]
- 如果使用过程中没有指定使用解析器， BeautifulSoup4 会自动从当前的 python 环境中检索最优的解析器加载使用
pip install lxml
or
pip install html5lib

#2.不同解析器对比

解析器	使用	优缺点
标准库	BeautifulSoup(html, ‘html.parser’)	优点：内置标准库、执行速度适中、容错能力强. 缺点：对中文解析的容错能力有限
lxml	BeautifulSoup(html, ‘lxml’)	优点：速度快，容错能力强缺点：需要安装 c 语言库
lxml	BeautifulSoup(html, [‘lxml’, ‘xml’])	唯一支持 XML 的解析器
html5lib	BeautifulSoup(html, ‘html5lib’)	优点：容错能力最好, 浏览器方式解析文档, 生成 H5 格式的文档缺点：速度慢,不依赖外部扩展

综上所述，优先推荐使用 lxml 解析器

#3.BeautifulSoup4 初始化和节点对象的认识
- BeautifulSoup4(BS4)可以将一个 html 文档数据流或者 html 文档对象或者 html 字符串，直接加载到 BS4 对象中，得到一个 BS4 的文档对象
--- from bs4 import BeautifulSoup
--- soup = BeautifulSoup(open(‘index.html’))
--- soup = BeautifulSoup(‘……’)
- BeautifulSoup4 将 HTML 结构化文档，解析为树形结构化数据，树形文档对象中主要包含四种对象
--- tag: 标签节点对象节点
--- name: 标签名称对象节点
--- attributes: 标签属性对象节点， like dict，如果是多值属性，属性对应的值就是一个 list 数据
--- NavigateString: 标签中文本对象节点，可以直接通过 unicode()函数将文本转换成 unicode 字符串

#4.BS4 案例操作：初始化对象文档
```# 目标数据
html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...

"""
from bs4 import BeautifulSoup
# 构建 bs4 文档对象
soup = BeautifulSoup(html_doc, 'lxml')
print(type(soup)) #
```

#5.节点查询：子节点
```
# 节点名称查询
print(soup.title) # The Dormouse's story
print(soup.p) #

The Dormouse's story

print(soup.a) # Elsie
# 子节点查询
chs = soup.contents
print(type(chs), len(chs)) # 2
chs2 = soup.children
print(type(chs2), len(list(chs2))) # 2
# 包含节点查询
chs3 = soup.descendants
print(type(chs3), len(list(chs3))) # 28
# 子节点内容获取
# 获取节点内部文本数据
print(soup.title.string) # The Dormouse's story
# 获取文本节点的文本数据
print(soup.title.contents[0].string) # The Dormouse's story
# 如果包含子节点并且不是文本节点，返回 None
print(soup.body.string) # None
# 获取包含的所有文本数据，包括空白字符
print(soup.body.strings) #
# 获取包含的所有文本数据，剔除空白字符
print(soup.body.stripped_strings) #
```

#6.节点查询：父节点
```
# ##########################父节点查询

print(soup.a) # Elsie

查询直接父节点

print(soup.a.parent.name) # p

遍历查询所有父节点

print([tag.name for tag in soup.a.parents]) # ['p', 'body', 'html', '[document]']



<br>

#7.节点查询： 兄弟节点

##########################兄弟节点

获取当前节点

print(soup.a) # Elsie

获取前一个兄弟节点：得到文本节点

print(soup.a.previous_sibling) # Once upon a time there were three little sisters; and their

names were

获取后一个兄弟节点：得到文本节点

print(soup.a.next_sibling) #,

获取所有的前面的兄弟节点：得到所有紧跟当前节点前面的兄弟节点的生成器对象

print(soup.a.previous_siblings) # <generator object PageElement.previous_siblings at

0x000001EF06B57750>

获取所有的后面的兄弟节点：得到所有紧跟当前节点后面的兄弟节点的生成器对象

print(soup.a.next_siblings) # <generator object PageElement.next_siblings at 0x0000018A1B41F6D8>



<br>

#8.节点查询：解析顺序

BeautifulSoup4 提供了一种比较特殊的操作：按照文档的解析顺序进行节点的查询，解析顺序和浏览器解释 HTML 文档的顺序是一致的

#########################解析顺序节点

获取当前节点

print(soup.a) # Elsie

获取前一个兄弟节点：得到文本节点

print(soup.a.previous_element) # Once upon a time there were three little sisters; and their

names were

获取后一个兄弟节点：得到文本节点

print(soup.a.next_element) #Elsie

获取所有的前面的兄弟节点：得到所有紧跟当前节点前面的兄弟节点的生成器对象

print(soup.a.previous_elements) # <generator object PageElement.previous_elements at

0x0000013EC8C9F6D8>

获取所有的后面的兄弟节点：得到所有紧跟当前节点后面的兄弟节点的生成器对象

print(soup.a.next_elements) # <generator object PageElement.next_elements at 0x0000013EC8C9F6D8>

获取解析过程节点顺序

print([tag.name if tag.name else tag for tag in soup.html.next_elements])



➔ 解析结果：

['head', 'title', "The Dormouse's story", '\n', 'body', '\n', 'p', 'b', "The Dormouse's story", '\n',

'p', 'Once upon a time there were three little sisters; and their names were\n', 'a', 'Elsie', ',\n', 'a',

'Lacie', ' and\n', 'a', 'Tillie', ';\nand they lived at the bottom of a well.', '\n', 'p', '...', '\n', '\n',

'\n']



<br>

#9.高级查询： find/find_all 检索

-  find(name, attrs, recursive, text, **kwargs)

◼ 查询得到一个节点对象数据，如果结果不存在返回 None

◼ param name: 要查询的标签的名称

◼ param attrs: 要查询的属性字典，如{‘class’: ‘title’}

◼ param recursive: 是否查询所有包含的节点，默认 True

◼ param text: 查询的节点中包含的指定的内容

◼ param kwargs: 如果查询的属性不是内置的指定的属性，可以通过 kwargs 添加自定义属性

-  find_all(name, attrs, recursive, text, limit, **kwargs)

◼ 查询得到一组节点对象数据，如果结果不存在返回[]

◼ param limit:查询的结果数量限制

◼ 其他参数参考 find(..)

-  查询过滤操作

◼ 条件查询： find_all(‘p’, {‘class’: ‘title’})

◼ 并且查询： find_all([‘p’, ‘a’])

◼ 属性查询： find_all(id=’link2’)

◼ 正则查询： find_all(text=re.compile(‘sisters’))

◼ 指定属性查询： find_all(class_=’sister’)

-  其他查询

◼ find_parent()/find_parents()

◼ find_previous_sibling()/find_previous_siblings()/find_next_sibling()/find_next_siblings()

◼ find_next()/find_all_next()/find_previous()/find_all_previous()

<br>

#10. 高级查询： CSS 选择器

-  beautifulsoup.select(css syntax)

##########################css 查询

print(soup.select("title")) # 标签选择器

print(soup.select("#link1")) # id 选择器

print(soup.select(".sister")) # class 选择器

print(soup.select("p > a")) # 子类选择器

print(soup.select("p a")) # 包含选择器

print(soup.select("p, a, b")) # 群组选择器

print(soup.select("#link1 ~ .sister")) # 兄弟选择器

print(soup.select("#link1 + .sister")) # 兄弟选择器

print(soup.select("p[class='title']")) # 属性选择器

print(soup.select("a:nth-of-type(2)")) # 伪类选择器

【3】数据筛选3 - BeautifulSoup4的更多相关文章

ASP.NET MVC5+EF6+EasyUI 后台管理系统（81）-数据筛选（万能查询）
系列目录前言听标题的名字似乎是一个非常牛X复杂的功能,但是实际上它确实是非常复杂的,我们本节将演示如何实现对数据,进行组合查询(数据筛选) 我们都知道Excel中是如何筛选数据的.就像下面一样他 ...
DataGridView如何实现列标头带数据筛选功能，就象Excel高级筛选功能一样
'近日有本论坛网友问:DataGridView如何实现列标头带数据筛选功能,就象Excel高级筛选功能一样 '今晚正好闲着没事,加之以前也没用到过这个需求,所以就写了个模拟功能,供各位坛友酌情参考. ...
layui table 根据条件改变更换表格颜色高亮显示数据筛选
请问想让当layui表格的某个字段符合某个条件的时候,让该行变颜色.这样可以实现么. layui数据表格怎么更换表格颜色 layui表格通过判断某一行中的某一列的值进行设置这一行的颜色 LayUI之 ...
C#进行数据筛选（二）
这里介绍LINQ+Lambda表达式进行数据筛选的方式这里是第一种方式,还是使用了if条件语句去判断,根据选择的条件去筛选出我所需要的数据 public GxAnaly SelectDay(stri ...
C#进行数据筛选（一）
这里介绍数据筛选的第一种方式,不用过滤器,给新手看得 public DataTable SourceList(string Wmain, string OrderNo, string Process) ...
python之pandas数据筛选和csv操作
本博主要总结DaraFrame数据筛选方法(loc,iloc,ix,at,iat),并以操作csv文件为例进行说明 1. 数据筛选 a b c (1)单条件筛选 df[df[] # 如果想筛选a列的取 ...
Pandas 数据筛选,去重结合group by
Pandas 数据筛选,去重结合group by 需求今小伙伴有一个Excel表, 是部门里的小伙9月份打卡记录, 关键字段如下: 姓名, 工号, 日期, 打卡方式, 时间, 详细位置, IP地址. ...
【杂记】mysql 左右连接查询中的NULL的数据筛选问题，查询NULL设置默认值，DATE_FORMAT函数
MySQL左右连接查询中的NULL的数据筛选问题 xpression 为 Null,则 IsNull 将返回 True:否则 IsNull 将返回 False. 如果 expression 由多个变量 ...
4-Pandas之数据类型与数据筛选
一.数据类型 1.Pandas的数据类型主要结合了pandas和numpy两个模块中的数据类型,包括以下几种: float int bool datetime64[ns]------>日期类型 ...

随机推荐

bzoj 1715: [Usaco2006 Dec]Wormholes 虫洞【spfa判负环】
tag是假的,用了及其诡异的方法判负环正权无向边和负权有向边的图 #include<iostream> #include<cstdio> #include<cstrin ...
bzoj 1627: [Usaco2007 Dec]穿越泥地【bfs】
在洛谷上被卡了一个点开了O2才过= = bfs即可,为方便存储,把所有坐标+500 #include<iostream> #include<cstdio> #include&l ...
P3043 [USACO12JAN]牛联盟Bovine Alliance(并查集)
P3043 [USACO12JAN]牛联盟Bovine Alliance 题目描述 Bessie and her bovine pals from nearby farms have finally ...
EditText(8)EditText中drawableRight图片的点击事件
参考: http://stackoverflow.com/questions/3554377/handling-click-events-on-a-drawable-within-an-edittex ...
epoll IO多路复用（异步阻塞AIO）
epoll的异步阻塞(AIO): 用户线程创建epoll后,其实是内核线程负责扫描 fd 列表(在网络服务器上可以是socket,socket在创建后返回的也是文件描述符),并填充事件链表.但是,并不 ...
关于.Net中Process的使用方法和各种用途汇总（一）：Process用法简介
简介: .Net中Process类功能十分强大.它可以接受程序路径启动程序,接受文件路径使用默认程序打开文件,接受超链接自动使用默认浏览器打开链接,或者打开指定文件夹等等功能. 想要使用Process ...
致创业者：APP已死服务永生
前几日,有位创业者和我讲他在带领团队做一个将爱踢球的人集中在一起的App,我告诉他你的创业方向错了.原因在于你的目的是要为爱踢球的人提供服务,而你现在却在竭尽全力的做App,你应该做的是设计你为爱踢球 ...
Java 8 (9) Optional取代null
NullPointerException,大家应该都见过.这是Tony Hoare在设计ALGOL W语言时提出的null引用的想法,他的设计初衷是想通过编译器的自动检测机制,确保所有使用引用的地方都 ...
Android Studio Activity Intent 闪退崩溃 Toolbar
今天写登录注册页面,点击登录页面的“注册”按钮后软件突然崩溃,直接闪退,因为是新手,只能去网上搜.虽然网上解决方法众多,但也没找到可行的.想起来可以看Logcat,马上重新运行应用,查看崩溃时的日志, ...
Thread stack overrun
ERROR 1436 (HY000): Thread stack overrun: 6448 bytes used of a 131072 byte stac k, and 128000 bytes ...

【3】数据筛选3 - BeautifulSoup4

查询直接父节点

遍历查询所有父节点

##########################兄弟节点

获取当前节点

获取前一个兄弟节点：得到文本节点

获取后一个兄弟节点：得到文本节点

获取所有的前面的兄弟节点：得到所有紧跟当前节点前面的兄弟节点的生成器对象

获取所有的后面的兄弟节点：得到所有紧跟当前节点后面的兄弟节点的生成器对象

#########################解析顺序节点

获取当前节点

获取前一个兄弟节点：得到文本节点

获取后一个兄弟节点：得到文本节点

获取所有的前面的兄弟节点：得到所有紧跟当前节点前面的兄弟节点的生成器对象

获取所有的后面的兄弟节点：得到所有紧跟当前节点后面的兄弟节点的生成器对象

获取解析过程节点顺序

##########################css 查询

【3】数据筛选3 - BeautifulSoup4的更多相关文章

随机推荐

热门专题