Beautiful Soup 4.2.0 doc_tag、Name、Attributes、多值属性

找到了bs4的中文文档，对昨天爬虫程序里所涉及的bs4库进行学习。这篇代码涉及到tag、Name、Attributes以及多值属性。

 '''

 对象的种类

 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象。

 所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。

 '''

 from bs4 import BeautifulSoup

 soup = BeautifulSoup('<b class="boldest">Extremely bold</b>','lxml')

 tag = soup.b

 type(tag)

 #<class 'bs4.element.Tag'>

 #TAG.NAME

 tag

 #<b class="boldest">Extremely bold</b>

 tag.name

 #'b'

 tag.name = 'blockquote'

 tag

 #<blockquote class="boldest">Extremely bold</blockquote>

 '''

     即tag首的'<'后和tag尾'</>'内，就是这个tag的名称.

     如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档

 '''

 tag.name = 'b'

 #Attributes

 '''一个tag可以有多个属性。如tag <b class="boldest">，他有一个"class"属性，值为"boldest"。'''

 #tag属性的操作方法与字典相同。

 tag['class']

 # u'boldest'

 tag.attrs     #“点”取属性

 # {u'class':u'boldest'}

 '''

 tag的属性可以被添加、删除或修改。tag的属性操作方法与字典一样。

 '''

 tag['class'] = 'verybold'    #属性查看

 tag['id'] = 1                #属性查看

 tag

 # <blockquote class="verybold" id="1">Extremely bold</blockquote>

 del tag['class']             #属性删除

 del tag['id']                #属性删除

 tag

 # <blockquote>Extremely bold</blockquote>

 tag['class']                 #删除属性后查看，报错

 # KeyError: 'class'

 print(tag.get('class'))

 # None

 #多值属性

 '''

 最常见的多值属性是class，还有一些多值属性如 rel, rev, accept-charset, headers,accesskey等。

 多值属性在 BeautifulSoup 中的返回类型是list：

 '''

 css_soup = BeautifulSoup('<p class="body strikeout"></p>')  #这里虽然body和strikeout只用了一个空格隔开，但其仍然会被隔开返回。（大概因为在HTML的语法里这就代表了两个属性）

 css_soup.p['class']

 # ["body", "skrikeout"]

 css_soup = BeautifulSoup('<p class="body"></p>')

 css_soup.p['class']

 # ["body"]             #这里虽然class的属性只有一个值，但是因为class本身是一个多值属性，故返回了list

 '''

 （接上一行注释）而如果某个属性看上去有多个值，但在任何版本的HTML定义中都没有被定义为多值属性，

 那么BeautifulSoup会将这个属性作为字符串返回。如下↓

 '''

 id_soup = Beautiful('<p id="my id"></p>')

 id_soup.p['id']

 # 'my id'

 '''

 将tag转换为字符串时，多值属性会合并为一个值

 '''

 rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>')

 rel_soup.a['rel']

 # ['index']

 rel_soup.a['rel'] = ['index','contents']#给a标签的rel属性添加值，转化在html里就是空格连接

 print(rel_soup.p)

 # <p>Back to the <a rel="index contents">homepage</a></p>

 '''

 如果转换的文档是XML格式，那么tag中不包含多值属性

 '''

 xml_soup = BrautifulSoup('<p class="body strikeout"></p>','xml')#lxml有多值属性，xml没有

 xml_soup.p['class']             #xml里的class属性值输出出来仍然是（如非多值属性的）字符串形式，而非列表

 # u'body strikeout'

 #可以遍历的字符串

 '''

 字符串常被包含在tag内，BeautifulSoup用 NavigableString 类来包装tag中的字符串：

 '''

 tag.string

 # u'Extremely bold'

 type(tag.string)

 # <class 'bs4.element.NavigableString'>

 '''

 一个 NavigableString 字符串与Python中的Unicode字符串相同，

 并且还支持包含在遍历文档树和搜索文档树中的一些特性，

 通过unicode()方法可以直接将 NavigableString 对象转换成 Unicode 字符串：

 '''

 unicode_string = unicode(tag.string)

 unicode_string

 # u'Extremely bold'

 type(unicode_string)

 # <type 'unicode'>

 '''

 tag中包含的字符串不能编辑，但是可以被替换成其它的字符串，用replace_with()方法：

 '''

Beautiful Soup 4.2.0 doc_tag、Name、Attributes、多值属性的更多相关文章

Beautiful Soup 4.2.0 文档
Beautiful Soup 4.2.0 文档 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方 ...
吴裕雄--天生自然python学习笔记：Beautiful Soup 4.2.0模块
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup 4.4.0 基本使用方法
Beautiful Soup 4.4.0 基本使用方法Beautiful Soup 安装 pip install beautifulsoup4 标准库有html.parser解析器但速度不是很快一般 ...
Beautiful Soup 4.2.0
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式快速开始 pip install beaut ...
Beautiful Soup 4.2.0 文档（一）
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
转：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup 学习手册
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式快速开始下面的一段HTML代码将作为例 ...
(17)python Beautiful Soup 4.6
一.安装 1.登陆官网:https://www.crummy.com/software/BeautifulSoup/ 2.下载 3.解压 4.安装 cmd找到文件路径,运行 setup.py buil ...
Beautiful Soup 中文文档
Beautiful Soup 3.0 中文文档说明: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html Be ...

随机推荐

go系列（2）- go框架beego以及命令bee的使用
上篇写了go的安装和GOPATH的配置,linux下go的安装 ,现在就看看如何用框架. 1.进入GOPATH的目录 cd /data/work/go 2.下载beego,通过go get go ge ...
[題解]luogu_P1333瑞瑞的木棍（并查集/圖論）
是一道歐拉路的題竟然沒看出來...... 把每種顏色看成一個點,每根木棍看成一個邊,即相同顏色在圖中接好合併成了一個點, 問題轉化為了求是否存在歐拉路如果用map會超時,所以可以用字典樹實現離散化/ ...
119 Pascal's Triangle II 帕斯卡三角形 II Pascal's Triangle II
给定一个索引 k,返回帕斯卡三角形(杨辉三角)的第 k 行.例如,给定 k = 3,则返回 [1, 3, 3, 1].注:你可以优化你的算法到 O(k) 的空间复杂度吗?详见:https://leet ...
096 Unique Binary Search Trees 不同的二叉查找树
给出 n,问由 1...n 为节点组成的不同的二叉查找树有多少种?例如,给出 n = 3,则有 5 种不同形态的二叉查找树: 1 3 3 2 1 ...
python学习之邮件
分类smtp邮件 html邮件,带附件的邮件. 一 STTP邮件:设置SMTP代理机构,发送人的邮箱和密码,收件人的邮箱地址(email模块):接收端,发送(smtplib模块).SMTP(smtp_ ...
[译]Understanding ECMAScript 6 内容目录
说明浏览器与Node.js兼容这本书是写给谁的概述帮助与支持基本知识更好的Unicode支持其他字符串变化其他正则表达式变化 Object.is() 块绑定解构赋值数字总结函数 ...
Spark无法创建新线程
Spark提交程序报错,无法创建新的线程原因是因为这台公用机器上跑的进程太多了,需要修改Linux参数,允许用户最大进程数查看允许用户最大进程数配置 ulimit -a 修改允许用户最大进程数配置 ...
我的NopCommerce之旅(3): 系统代码结构分析
一.概述基于MVC 二.详细描述 \Libraries\Nop.Core 核心类,包括缓存.事件.帮助类.业务对象(订单.客户实体) \Libraries\Nop.Data 数据访问层,采用Enti ...
将Form以强类型Model提交，后台获取不到的问题
F.TextBoxFor(m => m.Name) 不能自定ID属性
CF1110C Meaningless Operations
思路: 令x为满足2x <= a的最大的x.如果a的二进制表示中包含0,则将b构造为(2x+1 - 1) ^ a即可:否则gcd(a ^ b, a & b) = gcd(2x+1 - 1 ...

Beautiful Soup 4.2.0 doc_tag、Name、Attributes、多值属性

Beautiful Soup 4.2.0 doc_tag、Name、Attributes、多值属性的更多相关文章

随机推荐

热门专题