孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3

（完整学习过程屏幕记录视频地址在文末）

今天继续学习beautifulsoup对象的属性与方法等内容。

一、今天进一步了解到的BeautifulSoup模块中的一些用法小结：

前天的学习中掌握了在查找html文档树中的指定标识的html标签的同时还可以指定此标签对象的一些特有的属性来缩小查找范围的方法如下：

BeautifulSoup对象.find_all('标签tag',attrs={‘属性名’:'属性值'})

今天学习到还可以使用BeautifulSoup对象的select方法，直接指定属性来进行查找

BeautifulSoup对象.select("标签tag[属性名='属性值']")

#但这种方法返回的的是列表(list))，而不是ResultSet集合对象

BeautifulSoup对象. find_all(re.compile('正则表达式'))

#此处加入了正则表达式进行模糊查找

BeautifulSoup对象. find_all (Html标签对象的属性key="Html标签对象的属性值VALUE")

#直接指明符合条件的Html标签对象的属性，再去查找，此时传入Html代码中书写属性的方式的一个属性而不是字典

#【注意】Html标签对象的属性key不能在此处使用class这个属性key！有专门的针对class属性的方法，因为 class也是Python的保留关键字。

BeautifulSoup对象. select("css样式名")

#这是专门查询符合class样式的筛选条件，【css样式名】的写法上与css样式表中的写法完全相同

如：

.title

div.title

p.tile

#此外注意：select方法与find_all方法不同，select方法返回的是一个列表对象

BeautifulSoup对象. select("#Html标签对象的ID")

与css样式表中的写法类似，用#表示是Html标签对象的唯一属性id，但此查询返回的是一个列表

此查询方式还可以加上 html标签对象所处于 html文档树中的层级路径，如下代码：

a=bs.select('div p a#link1')

#这表示：div标签下的，p标签下的，a标签，并且id='link1'

BeautifulSoup对象.find_all(text='html标签对象的内含文本innertext')

#使用text这个模拟的属性来代指Html标签对象的内含文本（innertext)

然后与第3点就完全一致了。

【注意】这个查询结果，只是返回要查询的内含文本（innertext）这个对象本身，而不是它所在的html标签对象，因此要得到它所在的html标签对象，则需要在得到的查询结果的每一个子对象中使用.parent属性。

二、我的测试代码：

```

import requests

from bs4 import BeautifulSoup

import re

import _mty

strHtml='''

<html><head><title>孤荷凌寒的测试网页qq：578652607</title>

<style>

p.title{

font-size:20px;

}

div.title{

font-size:20px;

}

.story{

font-size:12px;

}

#divfirst{

font-size:30px;

}

</style>

</head>

<body>

现在网页的BODY部分开始：

现在第一个p标签马上开始：

<p id="firstptag" class="title"><b>这是在第一个P标签中的TEXT</b></p>

<p class="story">现在分享一些网站链接：

</br>

<a href="http://www.baidu.com/" class="sister"

id="link1">1.百度链接</a>,

<a href="http://www.taobao.com/" class="sister"

id="link2">2.淘宝链接</a> and

<a href="3.http://www.jianshu.com/" class="sister"

id="link3">3。简书链接</a>;

</br>

所有链接分享完了</p>

现在第一个P标签已结束。

</div>

接下来第二个DIV开始

<a href="http://www.lhghroom.cn/" id="a_ghlh"><span id="spanone">4.孤荷凌寒的小站</span></a>

</p>

</div>

现在body部分结束了

</body>

</html>

'''

def msgbox(info,titletext='孤荷凌寒的DB模块对话框QQ578652607',style=0,isShowErrMsg=False):

return _mty.msgboxGhlh(info,titletext,style,isShowErrMsg)

def myfirst(s,h):

#r=requests.get(s,headers=h)

#print(r.text) #r.text得到的是页面源html代码

bs=BeautifulSoup(strHtml,features="lxml") #第二个参数指明了解析器,得到的是一个beautifulsoup对象

#-----测试用法

#strnew=bs.prettify() #对html源代码进行了美化。

#print(strnew)

#-------访问html文档中第一个指定tag标识的html标签元素的方法-----------

#print(bs.p) #这种方法将返回html文档中的第一个p标签本身这个对象，不是文本，但Print之后会显示为如：【<p class="title" id="firstptag"><b>这是在第一个P标签中的TEXT</b></p>】

#print(bs.p) #重复执行，也只是返回html文档中的第一个P标签

#msgbox(str(bs.a)) #bs.a 返回的是一个对象，而不是文本字符串

a=bs.a #得到了Html文档中的第一个a标签本身这个对象

#-----获取Html标签元素对象的属性，及相关对象--------------

#---以字典的方式存放着Html标签元素对象的属性----

#msgbox(a['href']) #a的Html标签元素对象的链接地址这个属性

#msgbox(a.get('href'))

#----标签的内嵌内容（innertext)存放在Html标签元素对象的string属性中

#msgbox(a.string)

#---获取一个Html标签元素对象下的所有子对象集-------------------------------------------

#elements=bs.body.contents #返回的是列表，列表中的元素，包括了此Html标签元素对象下的直属一级子对象。

#print(elements)

#elements=bs.div.children #返回的是一个迭代器对象,其中的内容与上一个属性获取的一致

#print(list(elements))

#----获取父对象--------------

#print(a.parent) #返回直接上一级父级对象整体

#g=a.parents #parents返回从a对象的直接父级对象开始的各个逐个上升的父级直到<html></html>级为止的宗谱链，是一个生成器

#for i in g:

# msgbox(str(i))

#-----获取平级兄弟对象-----------------

#m=a.next_sibling #获取当前Html标签对象的下一个平级兄弟对象本身

#m=m.previous_sibling #获取当前Html标签对象的上一个平级兄弟对象本身

#msgbox(str(m))

#------

#g=a.next_siblings #next_siblings返回和当前Html标签对象平级的在此之后的所有Html标签对象的一个生成器

#msgbox(str(type(g)))

#for i in g:

# msgbox(str(i))

#m=a.next_sibling.next.next_sibling.next_sibling.next_sibling

#g=m.previous_siblings #previous_siblings返回和当前Html标签对象平级的在此之前的所有Html标签对象的一个生成器

#for i in g:

# msgbox(str(i))

#---搜索Html文档树中的符合指定特征的Html标签对象---------------

#===============================================

#------搜索tag标签------------------

#alla=bs.find_all('a') #返回的是一个bs4.element.ResultSet集合对象，此对象可以理解为LIST,但集合中的每一个子元素对象，都可以再次执行.find_all方法，就类似于是BeautifulSoup对象的片断对象一般。

#print(type(alla))

#msgbox(str(type(alla)))

#for i in alla:

# msgbox(str(i))

#--------搜索tag标签时，还可以指定第二个参数，指明此Html标签对象的一些属性值的特征----

#alla=bs.find_all('a',attrs={'id':'a_ghlh'}) #第二个参数传入一个字典，即要筛选的Html标签对象的属性条件，因为bs对象将任何一个Html标签对象的属性都存储在内置的一个字典对象中

#for i in alla:

# msgbox(str(i))

#--------或者使用select方法，直接指定属性g---------------------------

alla=bs.select("a[id='a_ghlh']") #这种方法返回的的是列表(list))，而不是ResultSet集合对象

for i in alla:

msgbox(str(i))

#--------加入正则表达式进行模糊查找------------------

#alla=bs.find_all(re.compile('p+')) #此处所有包含有p这个字母的html标签tag都会被找出来

#--------同时查找多个tag标签标识--------------

#alla=bs.find_all(['p','span'])

#for i in alla:

# msgbox(str(i))

#---------直接指明符合条件的Html标签对象的属性，再去查找，此时传入Html代码中书写属性的方式的一个属性而不是字典

#alla=bs.find_all(title="我是DIV") #此处只有Html标签对象的class这个属性不能使用到这里！有专门的针对class属性的方法，因为 class也是Python的保留关键字。

#for i in alla:

# msgbox(str(i))

#---------指明Html标签对象的style样式特征来进行查找对象-------------------

#alla=bs.select("div.title") #这是专门查询符合class样式的筛选条件，写法上与css样式表中的写法完全相同

#select方法与find_all方法不同，select方法返回的是一个列表对象

#msgbox(str(type(alla)))

#for i in alla:

# msgbox(str(i))

#---------根据Html标签对象的唯一ID属性来查询-----------------------

#a=bs.select('#link1') #与css样式表中的写法类似，用#表示是Html标签对象的唯一属性id，但此查询返回的是一个列表

#msgbox(str(a))

#----------------在上一个写法的基础上，加上正则表达式-----------

#----------------证实目前没有找到办法-----

#---------根据Html标签对象的唯一ID属性来查询而且指明标签层级路径----

#a=bs.select('div p a#link1') #这表示：div标签下的，p标签下的，a标签，并且id='link1'

#msgbox(str(a))

#---------根据Html标签对象的内含文本（innertext)的值来查询------------

#alla=bs.find_all(text='4.孤荷凌寒的小站') #使用text这个模拟的属性来代指Html标签对象的内含文本（innertext)

#【注意】这个查询结果，只是返回要查询的文本（在此例中就是：'4.孤荷凌寒的小站'，这个对象本身，而不是它所在的html标签对象，因此要得到它所在的html标签对象，则需要在得到的查询结果的每一个子对象中使用.parent属性。

#for i in alla:

# msgbox(str(i.parent))

#----------------在一个测试的基础上，加上正则表达式-------------

#alla=bs.find_all(text=re.compile('链接+'))

#for i in alla:

# msgbox(str(i.parent))

strurl='http://www.dianping.com/'

header={

'Host':'www.dianping.com',

'User-Agent':'Mozilla/5.0
(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/68.0.3440.106 Safari/537.36'

}

myfirst(strurl,header)

```

——————————

今天整理的学习笔记完成，最后例行说明下我的自学思路：

根据过去多年我自学各种编程语言的经历，认为只有真正体验式，解决实际问题式的学习才会有真正的效果，即让学习实际发生。在2004年的时候我开始在一个乡村小学自学电脑并学习vb6编程语言，没有学习同伴，也没有高师在上，甚至电脑都是孤岛（乡村那时还没有网络），有的只是一本旧书，在痛苦的自学摸索中，我找到适应自己零基础的学习方法：首先是每读书的一小节就作相应的手写笔记，第二步就是上机测试每一个笔记内容是否实现，其中会发现书中讲的其实有出入或错误，第三步就是在上机测试之后，将笔记改为电子版，形成最终的修订好的正确无误的学习笔记
。

通过反复尝试错误，在那个没有分享与交流的黑暗时期我摸黑学会了VB6，尔后接触了其它语言，也曾听过付费视频课程，结果发现也许自己学历果然太低，就算是零基础的入门课程，其实也难以跟上进度，讲师的教学多数出现对初学者的实际情况并不了解的情况，况且学习者的个体也存在差异呢？当然更可怕的是收费课程的价格往往是自己难以承受的。

于是我的所有编程学习都改为了自学，继续自己的三步学习笔记法的学习之路。

当然自学的最大问题是会走那么多的弯路，没有导师直接输入式的教学来得直接，好在网络给我们带来无限搜索的机会，大家在网络上的学习日志带给我们共享交流的机会，而QQ群等交流平台、网络社区的成立，我们可以一起自学，互相批评交流，也可以获得更有效，更自主的自学成果。

于是我以人生已过半的年龄，决定继续我的编程自学之路，开始学习python，只希望与大家共同交流，一个人的独行是可怕的，只有一群人的共同前进才是有希望的。

诚挚期待您的交流分享批评指点！欢迎联系我加入从零开始的自学联盟。

这个时代互联网成为了一种基础设施的存在，于是本来在孤独学习之路上的我们变得不再孤独，因为网络就是一个新的客厅，我们时刻都可以进行沙龙活动。

非常乐意能与大家一起交流自己自学心得和发现，更希望大家能够对我学习过程中的错误给予指点——是的，这样我就能有许多免费的高师了——这也是分享时代，社区时代带来的好福利，我相信大家会的，是吧！

根据完全共享的精神，开源互助的理念，我的个人自学录制过程是全部按4K高清视频录制的,从手写笔记到验证手写笔记的上机操作过程全程录制，但因为4K高清文件太大均超过5G以上，所以无法上传至网络，如有需要可联系我QQ578652607对传，乐意分享。上传分享到百度网盘的只是压缩后的720P的视频。

我的学习过程录像百度盘地址分享如下：（清晰度：1280x720）

链接：https://pan.baidu.com/s/1DzxwpUurxV1xEvujXQELRQ

提取码：9z7b

Bilibili:

https://www.bilibili.com/video/av40434923/

喜马拉雅语音笔记：

https://www.ximalaya.com/keji/19103006/153087833

孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3的更多相关文章

孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2
孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步 ...
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对 ...
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模 ...
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
孤荷凌寒自学python第六十六天学习mongoDB的基本操作并进行简单封装5
孤荷凌寒自学python第六十六天学习mongoDB的基本操作并进行简单封装5并学习权限设置 (完整学习过程屏幕记录视频地址在文末) 今天是学习mongoDB数据库的第十二天. 今天继续学习mongo ...
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针 ...
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 今天的学习仍然是在纯粹对docx模 ...
孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3
孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...

随机推荐

【luogu P3373 线段树2】模板
题目链接:https://www.luogu.org/problemnew/show/P3373 lazy标记两个,先乘后加 #include <iostream> #include &l ...
sql server 语句获取表的描述，主键等等
sql语句添加表,字段的描述 --添加表的描述 --格式如右:execute sp_addextendedproperty 'MS_Description','字段备注信息','user','dbo' ...
Unity让带有Rigidbody组件的游戏对象停止运动
Rigidbody rigidbody = transform.GetComponent<Rigidbody>(); rigidbody.velocity = Vector3.zero; ...
html单选框（性别选择）
在写单选框时,如何实现只能同时只能选择一个radio. 将name设置为一样的数值:代码如下: <input class="myforms-3-2" type="r ...
如何在match中使用正则表达式
这是在实现搜索功能的时候遇到的一个问题,在搜索的场景中,会根据搜索框中输入的内容,匹配出包含搜索内容的部分.简单模拟还原使用场景: 首先定义一个遍历 value 用来接收输入的内容 var value ...
Qt数据库编程1
Qt中数据编程主要分为以下两点:1.利用qt提供类访问数据库或者成为简单的数据库编程2.数据库编程中引入model/view编程模型 qt中数据库编程的步骤: 1.加载数据库驱动 QSqlDatab ...
使用 form 和 iframe 实现图片上传回显
主要利用 form 的 target 属性,在提交表单之后 response 返回到 iframe 中 form 的 action 可以自己写,也可以直接利用富文本编辑器的接口实现上传 <fo ...
Linux入门-第四周
1.查找/var目录下不属于root.lp.gdm的所有文件 find命令:实时查找工具,通过指定路径完成文件查找,其特点查找速度略慢,可以精确查找,实时查找,可以只搜索用户具备读取和执行权限的目录 ...
python核心编程2 第十一章练习
11-2 函数.结合你对练习5-2的解,以便你创建一个带一对相同数字并同时返回它们之和以及产物的结合函数. multiply = lambda x, y: x * y if __name__ == ' ...
centos下安装docker以及docker-composer
背景 docker已经出来了很久,而我一直想混迹到docker大军中进行冲锋陷阵,恰逢公司项目的需要,因此今天玩了一把docker的安装.使用Docker 一键部署 LNMP+Redis 环境事先准 ...

孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3

孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3的更多相关文章

随机推荐

热门专题