第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问

一、引言

在《第14.8节 Python中使用BeautifulSoup加载HTML报文》中介绍使用BeautifulSoup的安装、导入和创建对象的过程，本节介绍导入后利用BeautifulSoup对象访问相关标签数据。

本节案例中介绍处理的c:\temp\s1.html文件内容如下：

<!DOCTYPE html>

<html lang="zh-CN">

<head>

<style type="text/css">	.textline{color:blue;}</style>

<link href="https://blog.csdn.net/LaoYuanPython/article/details/95360624" rel="canonical"/>

<title>BeautifulSoups使用方法 - 老猿Python - CSDN博客 </title></head>

<body>

  <h1>老猿Python</h1>

	<div><p class="textline" name="line1"> 老猿Python首行</p></div>

	<div>

	<h2>老猿Python第二行<a href="https://blog.csdn.net/LaoYuanPython" /> </h2>

	<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython" /> </h3>

  </div>

</body></html>

创建soup对象的代码如下：

>>> from bs4 import BeautifulSoup

>>> def getsoup():

    fp = open(r'c:\temp\s1.html',encoding='utf-8')

    soup = BeautifulSoup(fp, 'lxml')

    fp.close()

    print(soup)

    return soup

>>> soup=getsoup()

二、访问标签及其属性数据

通过BeautifulSoup对象可以访问标签对应的html元素、并进一步访问标签的名字、属性、html元素标签对中的内容。

通过Tag标签获取HTML元素内容

Tag就是 HTML 中的一个个标签，用 BeautifulSoup 可以很方便地获取 T标签，通过标签名可以获取HTML报文中对应标签的第一个记录。注意标签识别时对大小写敏感（标签应该都是小写）。

如上面读取文件解析报文构建soap对象后，访问相关的标签的结果：

>>> soup.title

<title>BeautifulSoups使用方法 - 老猿Python - CSDN博客 </title>

>>> soup.p

<p class="textline" name="line1"> 老猿Python首行</p>

>>> soup.link

<link href="https://blog.csdn.net/LaoYuanPython/article/details/95360624" rel="canonical"/>

通过标签获取标签属性

通过BeautifulSoup对象的标签名的attrs属性可以访问标签的所有属性，返回的属性为一个字典，如果通过标签名加属性名的方法可以访问属性的值。如：

>>> soup.link.attrs

{'href': 'https://blog.csdn.net/LaoYuanPython/article/details/95360624', 'rel': ['canonical']}

>>> soup.link['rel']

['canonical']

>>> soup.link.name

'link'

>>>

除了读取相关数据外，还可以通过赋值进行内存数据的修改，如：

>>> soup.title = '老猿Python'

注意：

 上述通过“BeautifulSoup对象.标签”去访问的数据都是html报文中第一个匹配的标签的内容；

 可以通过“BeautifulSoup对象.标签.attrs”访问标签的所有属性数据，如soup.link.attrs，通过“soup.标签[“属性名”]”访问具体属性的值，如soup.link[‘rel’]。

无嵌套情况下通过标签获取标签内的文字内容

当通过标签获取到标签内容后，可以通过标签内容的string属性获取标签内的文字。由于string属性返回内容的类型为bs4.element.NavigableString，所以称获取的文本为NavigableString，如：

>>> soup.title.string

'BeautifulSoups使用方法 - 老猿Python - CSDN博客 '

>>> soup.link

<link href="https://blog.csdn.net/LaoYuanPython/article/details/95360624" rel="canonical"/>

>>> soup.link.string

>>> soup.h1.string

'老猿Python'

>>>

上面soup.link.string没有数据，是因为link只有标签数据而标签外无内容。我们来看看数据类型：

>>> type( soup.title.string)

<class 'bs4.element.NavigableString'>

>>> soup.title.string[0:10]

'BeautifulS'

>>>

标签嵌套情况下通过父标签获取标签内的文字内容，这又分为三种情况：

1)如果标签里面只有唯一的一个标签无其他内容，那么string会返回最里面嵌套标签对应的内容。如：

>>> soup.div

<div><p class="textline" name="line1"> 老猿Python首行</p></div>

>>> soup.div.string

' 老猿Python首行'

>>> soup.div.p.string

' 老猿Python首行'

>>>

2)如果tag包含了1个子节点且本身标签内还有文本内容,无法确认该返回哪个文本内容，因此模块给string 的值为 None。如：

>>> soup.h2

<h2>老猿Python第二行<a href="https://blog.csdn.net/LaoYuanPython"></a> </h2>

>>> soup.h2.string

>>> soup.h2.a

<a href="https://blog.csdn.net/LaoYuanPython"></a>

>>>

3)如果tag包含了多个子节点,string 的输出结果也是 None。

>>> soup.h3

<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>

>>> soup.h3.string

>>> soup.h3.b

<b>老猿Python第三行</b>

>>> soup.h3.b.string

'老猿Python第三行'

>>>

三、嵌套标签节点访问

通过标签的contents属性，可以访问其下嵌套的所有下级HTML元素，这些该标签下的子标签对应的HTML元素放到一个content 指向的列表中。如：

>>> print(soup.body.contents)

['\n', <h1>老猿Python</h1>, '\n', <div><p class="textline" name="line1"> 老猿Python首行</p></div>, '\n', <div>

<h2>老猿Python第二行<a href="https://blog.csdn.net/LaoYuanPython"></a> </h2>

<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>

</div>, '\n']

>>>

注意换行符和空行都会作为一个列表元素返回。

2. 通过标签的children属性也可以访问标签下嵌套的所有HTML元素，只是其类型不是列表，而是一个迭代器。如：

>>> for i in soup.body.children:print(i,end=', ')

, <h1>老猿Python</h1>,

, <div><p class="textline" name="line1"> 老猿Python首行</p></div>,

, <div>

<h2>老猿Python第二行<a href="https://blog.csdn.net/LaoYuanPython"></a> </h2>

<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>

</div>,

,

>>>

>>> type(soup.body.children)

<class 'list_iterator'>

>>>

从上述输出可以看到children与contents还是有换行符和空行。

访问嵌套标签的所有子孙节点

escendants 属性可以对标签其下所有层次的节点进行访问，而 children只能访问直接子节点，注意descendants返回的是一个生成器。

>>> type(soup.body.descendants)

<class 'generator'>

>>> for i in soup.body.descendants:print(i,end=', ')

, <h1>老猿Python</h1>, 老猿Python,

, <div><p class="textline" name="line1"> 老猿Python首行</p></div>, <p class="textline" name="line1"> 老猿Python首行</p>,  老猿Python首行,

, <div>

<h2>老猿Python第二行<a href="https://blog.csdn.net/LaoYuanPython"></a> </h2>

<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>

</div>,

, <h2>老猿Python第二行<a href="https://blog.csdn.net/LaoYuanPython"></a> </h2>, 老猿Python第二行, <a href="https://blog.csdn.net/LaoYuanPython"></a>,  ,

, <h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>, <b>老猿Python第三行</b>, 老猿Python第三行, <a href="https://blog.csdn.net/LaoYuanPython"></a>,  ,

,

,

>>>

访问标签的父节点

可以通过标签的parent属性访问其直接父节点，如：

>>> soup.b.parent

<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>

>>>

访问标签的所有祖先节点

通过标签的parents属性可以访问其所有父节点及祖先节点，该值为一个生成器，如：

>>> type(soup.b.parents)

<class 'generator'>

>>> for i in soup.b.parents:print(i.name,i.string)

h3 None

div None

body None

html None

[document] None

>>>

访问标签的同父节点下的同级兄弟节点

next_sibling 属性为节点的下一个兄弟节点，previous_sibling 属性为节点的上一个兄弟节点，如果节点不存在，则返回 None，由于空白或者换行也可以被视作一个节点，所以得到的结果可能是空白或者换行。

>>> soup.b.next_sibling

<a href="https://blog.csdn.net/LaoYuanPython"></a>

>>> soup.b.pre_sibling

>>>

访问标签的同父节点下的所有同级兄弟节点

通过next_siblings 和 previous_siblings 属性可以对当前节点的所有兄弟节点迭代访问，如：

>>> for i in soup.h2.next_siblings:print(i)

<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>

>>> for i in soup.h3.previous_siblings:print(i)

<h2>老猿Python第二行<a href="https://blog.csdn.net/LaoYuanPython"></a> </h2>

>>>

访问标签的前后节点

通过next_element和previous_element可以访问标签的前后元素，这里的前后是指html文档中当前标签的前一个元素和后一个元素，不论标签层级，只是字符串的位置前后。并且不一定是标签，只要是独立含义的部分。如：

>>> soup.b.next_element

'老猿Python第三行'

>>> soup.b.previous_element

<h3><b>老猿Python第三行</b><a href="https://blog.csdn.net/LaoYuanPython"></a> </h3>

>>>

访问标签的所有前后节点

通过 next_elements 和 previous_elements 的生成器就可以访问当前标签所有前面和后面的html文档解析元素。如：

>>> for n in soup.a.next_elements:

	if n!=None and n.name!=None:print(n.name)

h3

b

a

>>>  for n in soup.head.previous_elements:print(n.name)

None

html

None

>>>

注意部分元素可能是空行或换行符。

访问标签的所有内容

使用标签的contents属性可以访问该标签下的所有元素，如：

>>> soup.div.contents

['\n', <h1 class="t1" id="l1" name="line1">老猿Python第1行</h1>, '\n', <h2 class="t2" id="l2" name="line2">老猿Python第2行</h2>, '\n', <h3 class="t3" id="l3" name="line3">老猿Python第3行</h3>, '\n', <div>

<h1 class="t1" id="l4" name="line4">LaoYuanPython第1行</h1>

<h2 class="t2" id="l5" name="line5">LaoYuanPython第2行</h2>

<h3 class="t3" id="l6" name="line6">LaoYuanPython第3行</h3>

</div>, '\n']

>>> soup.h1.contents

['老猿Python第1行']

>>>

四、访问对象的所有内容

通过对象的strings属性迭代访问除标签外的所有内容，包括空行、空白行，如：

>>> for i in soup.head.strings:print(i)

	.textline{color:blue;}

BeautifulSoups使用方法 - 老猿Python - CSDN博客

>>>

通过对象的stripped_strings属性迭代访问所有内容，去除空行、空白行，如：

>>> for i in soup.head.stripped_strings:print(i)

.textline{color:blue;}

BeautifulSoups使用方法 - 老猿Python - CSDN博客

>>>

本节介绍了BeautifulSoup对象的主要属性，通过这些属性可以访问特定标签和内容。

老猿Python，跟老猿学Python!

博客地址：https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录：https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持，点赞、评论和加关注！谢谢！

第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问的更多相关文章

第14.12节 Python中使用BeautifulSoup解析http报文：使用select方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>和<第14.11节 Python中使用BeautifulSo ...
第14.11节 Python中使用BeautifulSoup解析http报文：使用查找方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>介绍了BeautifulSoup对象的主要属性,通过这些属性可以访 ...
第14.8节 Python中使用BeautifulSoup加载HTML报文
一. 引言 BeautifulSoup是一个三方模块bs4中提供的进行HTML解析的类,可以认为是一个HTML解析工具箱,对HTML报文中的标签具有比较好的容错识别功能.阅读本节需要了解html相关的 ...
第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节使用 ...
第9.10节 Python中IO模块其他文件操作属性和方法简介
本文中所有案例中的fp都是使用open函数打开文件返回的一个文件对象,为了节省篇幅,大部分没有提供文件打开的代码. 一. 文件是否关闭的属性属性名:closed 功用:判断文件是否关闭示例: &g ...
第7.22节 Python中使用super调用父类的方法
第7.22节 Python中使用super调用父类的方法前面章节很多地方都引入了super方法,这个方法就是访问超类这个类对象的.由于super方法的特殊性,本节单独谈一谈super方法. 一.su ...
第8.20节 Python中限制动态定义实例属性的白名单：__slots__
一. 引言按照<第7.10节 Python类中的实例变量定义与使用>.<第7.14节Python类中的实例方法解析>中的介绍,当定义了一个类,并且创建了该类的实例后,可以给该 ...
第8.23节 Python中使用sort/sorted排序与“富比较”方法的关系分析
一. 引言 <第8.21节 Python中__lt__.gt__等 "富比较"("rich comparison")方法用途探究>和<第8.2 ...
第8.27节 Python中__getattribute__与property的fget、@property装饰器getter关系深入解析
一. 引言在<第7.23节 Python使用property函数定义属性简化属性访问的代码实现>和<第7.26节 Python中的@property装饰器定义属性访问方法gette ...

随机推荐

对Spark硬件配置的建议
对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出以下建议: 存储系统在大数据领域,有一句" ...
springMVC请求调用过程
在传统的MVC模式中,Tomcat通过读取web.XML配置文件来获取servlet和访问路径的映射关系,这样在访问tomcat就能将请求转发给对应的servlet进行处理. 自定义的servlet是 ...
Vue3教程：用 Vue3 开发小程序，这里有一份实际的代码案例！
前言寻寻觅觅冷冷清清,凄凄惨惨戚戚. Vue 3 发布以后,最近也在学习和写一些 Vue3 的 demo 和项目,我也一直想着什么时候能在小程序里使用新特性? 于是我翻遍了市面上的小程序框架,如 u ...
经典分治问题，平面N个点求最近点对
大家好,我们今天来看一道非常非常经典的算法题--最近点对问题. 这个问题经常在各种面试当中出现,难度不低,很少有人能答上来.说实话,我也被问过,因为毫无准备,所以也没有答上来.是的,这道题有点神奇,没 ...
调试没有core文件的coredump
对coredump的分析中,是依赖于core文件的,而core文件中也几乎包含了程序当前的所有状态(堆栈.内存.寄存器等).然而在实际的线上环境中,由于core文件太大.保存core文件耗时太久,出于 ...
python + appium 执行报错整理
1.driver.find_element_by_id("com.taobao.taobao:id/searchEdit").send_keys("adidas" ...
shell简介及变量的定义查看撤销
1.shell分类及相关软件图形界面Shell(Graphical User Interface shell 即 GUI shell),如:GNOME.KDE 命令行式Shell(Command ...
JVM初识
先来看一张图首先jvm是什么? jvm是java运行环境的一部分,是一种以软件模式虚拟出来的一个计算机系统. 如上图所示,JVM 主要分为三个子系统:类加载器.运行时数据区和执行引擎. 类加载器子系 ...
[LeetCode题解]109. 有序链表转换二叉搜索树 | 快慢指针 + 递归
题目描述给定一个单链表,其中的元素按升序排序,将其转换为高度平衡的二叉搜索树. 本题中,一个高度平衡二叉树是指一个二叉树每个节点的左右两个子树的高度差的绝对值不超过 1. 示例: 给定的有序链表: ...
[LeetCode题解]142. 环形链表 II | 快慢指针
解题思路本题是在141. 环形链表基础上的拓展,如果存在环,要找出环的入口. 如何判断是否存在环,我们知道通过快慢指针,如果相遇就表示有环.那么如何找到入口呢? 如下图所示的链表: 当 fast 与 ...

第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问

第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问的更多相关文章

随机推荐

热门专题