bs4解析库

beautifulsoup4

bs4解析库是灵活又方便的网页解析库，处理高效，支持多种解析器。利用它不用编写正则表达式即可方便地实现网页的提取

要解析的html标签

from bs4 import BeautifulSoup

# 要解析的html标签

html_str = """

<li data_group="server" class="content">

    <a href="/commands.html" class="index" name="a1">第一个a标签

    <a href="/commands.html" class="index2" name="a2">第二个a标签

    <a href="/commands/flushdb.html">

        <span class="first">

            这是第一个span标签

            <span class="second">

            这是第二个span标签,第一个下的子span标签

            </span>

        </span>

        <span class="third">这是第三个span标签</span>

        <h3>这是一个h3</h3>

    </a>

</li>

"""

1. 找标签:

# 1. find_all 找到所有的li标签 结果为一个结果集

li_find_all = BeautifulSoup(html_str, "lxml").find_all("li")

print(type(li_find_all))  # <class 'bs4.element.ResultSet'>

# 2. find  找到第一个li标签 结果为一个标签对象

li_find = BeautifulSoup(html_str, "lxml").find("li")

print(type(li_find))    # <class 'bs4.element.Tag'>

# 添加限制条件 class id

li = BeautifulSoup(html_str, "lxml").find_all("li", class_="content", data_group="server")

li1 = BeautifulSoup(html_str, "lxml").find_all("li", attrs={"class":"content", "data_group":"server"})

2. 找标签属性和name:

# 找到a标签的属性和name

a = BeautifulSoup(html_str, "lxml").find("a")

print(a.get("href"), a.name, type(a.get("href")))    # /commands.html  a <class 'str'>

print(a.attrs, type(a.attrs), a.text, a.string,a.get_text(), type(a.string))

# {'href': '/commands.html', 'class': ['index'], 'name': 'a1'} <class 'dict'> 第一个a标签  <class 'bs4.element.NavigableString'>

3. 处理子标签和后代标签:

# 找到li下的后代标签

li_find = BeautifulSoup(html_str, "lxml").find("li")

print(li_find.children)    # <list_iterator object at 0x00000132C0915320>

"""

for i in li_find.children:

    print(type(i),i)

"""

# 找到li下的子标签 返回第一个找到的标签

print(li_find.a, type(li_find.a))

# <a class="index" href="/commands.html" name="a1">第一个a标签</a> <class 'bs4.element.Tag'>

4. 处理兄弟标签:

# 处理a标签的兄弟

a = BeautifulSoup(html_str, "lxml").find("a", class_="index2")

print(a.next_siblings, type(a.next_siblings))  # <generator object next_siblings at 0x000001B14AA712B0> <class 'generator'>

"""

for i in a.next_siblings:

    print(i, type(i), "\n")

1. <a class="index" href="/commands.html" name="a1">第一个a标签

    </a> <class 'bs4.element.Tag'>

2. <a href="/commands/flushdb.html">

<span class="first">

            这是第一个span标签

            <span class="second">

            这是第二个span标签,第一个下的子span标签

            </span>

</span>

<span class="third">这是第三个span标签</span>

<h3>这是一个h3</h3>

</a> <class 'bs4.element.Tag'>

"""

# print("next--", a.last ,type(a.next))

# 一组兄弟标签中的下一个标签next_sibling()  下的所有标签next_siblings()

# 一组兄弟标签中的上一个标签previous_sibling() 上的所有标签previous_siblings()

# 找到一组兄弟标签下的最后一个标签:

a = [x for x in a.next_siblings][-1]

print("aaaaaa", a, type(a))

5. 处理父标签:

# 1.parent # 返回的父标签及其子标签

span = BeautifulSoup(html_str, "lxml").find("span", class_="second")

print(span.parent, type(span.parent))

# 2. parents 一层一层返回

"""

span = BeautifulSoup(html_str, "lxml").find("span", class_="second")

for i in span.parents:

    print(i)

"""

6. 标签的其它一些处理方法

# 1. prettify方法

# 这个方法就是在每个标签后加入一个\n 打印出来是十分规范的h5代码 一目了然

# 也可以对某个标签做格式化处理

a = BeautifulSoup(html_str, "lxml").find("a")

print(a.prettify())

# 2.contents方法

li = BeautifulSoup(html_str, "lxml")

print(li.contents, type(li.contents))

print(li.childrent, type(li.children))

"""

li_find.contents 返回的是一个列表 查找的标签下的子标签 包括'\n'

li_find.children 返回的是一个迭代器, 迭代器的内容与li_find.contents一样

"""

bs4解析库的更多相关文章

爬虫解析库re,Beautifulsoup,
re模块点我回顾 Beautifulsoup模块 #安装 Beautiful Soup pip install beautifulsoup4 #安装解析器 Beautiful Soup支持Pytho ...
Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
解析库之re，Beautifulsoup
本篇导航: 介绍基本使用遍历文档树搜索文档树总结 re模块在之前的python进阶中有讲过不再做过多的阐述,本篇为BeautifulSoup库的分析 20.collections模块和 ...
爬虫模块介绍--Beautifulsoup （解析库模块，正则）
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Python3编写网络爬虫06-基本解析库Beautiful Soup的使用
二.Beautiful Soup 简介就是python的一个HTML或XML的解析库可以用它来很方便的从网页中提取数据 0.1 提供一些简单的 python式的函数来处理导航,搜索,修改分析树等功 ...
python3解析库BeautifulSoup4
Beautiful Soup是python的一个HTML或XML的解析库,我们可以用它来方便的从网页中提取数据,它拥有强大的API和多样的解析方式. Beautiful Soup的三个特点: Beau ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
爬虫----爬虫解析库Beautifulsoup模块
一:介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...

随机推荐

MapReduce-TextInputFormat 切片机制
MapReduce 默认使用 TextInputFormat 进行切片,其机制如下 (1)简单地按照文件的内容长度进行切片 (2)切片大小,默认等于Block大小,可单独设置 (3)切片时不考虑数据集 ...
The 2018 ACM-ICPC Asia Qingdao Regional Contest, Online J - Press the Button（思维）
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=4056 题意有一个按钮.一个灯.一个计时器和一个计数器,每按一次按钮,计时 ...
python2和python3的区别
python2和python3的区别参考链接:http://www.runoob.com/python/python-2x-3x.html 1.源码上的区别 python2 python3 源码不规 ...
【转】Steam 开发者收入计算
全部说的话有点复杂,捡要点说说: 假设收入100美刀. 假设美区收入50刀,非美区(在美国以外的地区,俄罗斯,中国等等其他国家)收入50刀. 1.分给steam 30% 剩下70刀. 开发者所得美区收 ...
jar包中File 文件找不到的异常分析与解决
源链接: http://hxraid.iteye.com/blog/483115#comments 我们常常在代码中读取一些资源文件(比如图片,音乐,文本等等).在单独运行的时候这些简单的处理当然不会 ...
Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)
Week 1 Machine Learning with Big Data KNime - GUI based Spark MLlib - inside Spark CRISP-DM Week 2, ...
mysql：The user specified as a definer ('xxx'@'%') does not exist 解决方法
发生这种问题.大概率是用户不存在或者是权限不够用户不存在.用可视化工具新建一个. 权限不够 ,运行下面命令: 如:我的错误: The user specified as a definer ('mo ...
「IOI2018」狼人
快咕一个月了咕咕咕咕咕咕咕 LOJ #2865 Luogu P4899(离线) UOJ #407(强制在线) 题意给定一棵树和若干组询问$(S,E,L,R)$ 表示你初始在$S$,想到达$E$, ...
ubuntu 装机必备
在github上下载高博的slambook(https://github.com/gaoxiang12/slambook)在3rdparty文件夹中有安装包. 1. 安装Eigen库 sudo apt ...
python3字符串
Python3 字符串 Python字符串运算符 + 字符串连接 a + b 输出结果: HelloPython * 重复输出字符串 a*2 输出结果:HelloHello [] 通过索引获取字符串中 ...

bs4解析库

beautifulsoup4

要解析的html标签

bs4解析库的更多相关文章

随机推荐

热门专题