上篇博客说了正则表达式，但是正则学起来比较费劲，写的时候也不好写，这次说下Beautiful Soup怎么用，这个模块是用来解析html的，它操作很简单，用起来比较方便，比正则学习起来简单多了。

这是第三方模块需要安装

pip install beautifulsoup4

pip install lxml

Beautiful Soup对象

Beautiful将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种：

Tag

标签，通过html的标签取到内容，比如说a标签，如果有多个的话，取的是第一个。

html = """

<html><head><title>BestTest</title></head>

<body>

<div>

<p class="content">最专业的软件测试培训

<a href="http://www.besttest.cn" class="link" id="link1"></a>,

<a href="http://www.besttest.cn/page/3.html" class="link" id="link2">BestTest性能测试</a> and

<a href="http://www.besttest.cn/page/47.html" class="link" id="link3">BestTest自动化测试</a>;

课程详情请点击上面的链接.</p>

<p class="content">.这是广告植入.</p>

<p class="title">BestTest is best</p>

</div>

</body>

</html>

"""

obj = BeautifulSoup(html,'lxml')#后面是指定使用lxml解析，lxml解析速度比较快，容错高。

print(obj.prettify()) #格式化输出html

print(obj.title) #取title这个标签里面的内容

print(obj.p)

#tag有两个属性，一个是name，一个是attr

# name ，name这个属性就是标签的名字，比如说a标签就是打印的name就是a

# attrs，attrs这个是这个tag的属性，比如说上面a标签的属性有 class、href、id ，他是一个字典

#既然attrs是一个字典，那就能通过key来取值

print(obj.a.name) #a标签的name，也就是a

print(obj.a.attrs) #a标签的属性，也就是class href id这些，以及对应的值是什么

print(obj.a.attrs['href']) #取到a标签的href熟悉，也就是，http://www.besttest.cn

print(obj.a.attrs.get('href')) #因为attrs是一个字典，所以也可以用.get方法取值和上面的中括号取值一样

NavigableString

也就是内容，获取到一个标签里面的内容，文字，比如说上面title标签里面内容获取到，也就是besttest直接用tag.string即可。

print(obj.title.string) #BestTest

print(obj.a.string) #首页

print(type(obj.title.string)) # <class 'bs4.element.NavigableString'> NavigableString的类型

Beautifulobj

Beautifulobj对象就是代表整个html，比如说上面的obj就是Beautifulobj对象，通过它来操作各个标签

1	print(type(obj)) #Beautifulobj对象

Comment

Comment 对象是一个特殊类型的 NavigableString对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。例如上面的一个a标签里面，首页是被注释了的。

print(obj.a.string) #首页，不包括 注释的

print(type(obj.a.string)) # <class 'bs4.element.Comment'> Comment类型

#这其实是注释的内容，咱们用string取出来的时候是不带注释符号的所以这里要注意一下

重点操作

上面的都是通过某个标签获取到的，如果想直接获取到某些标签，获取包含某些属性的就要用其他的方法了。

搜索标签

# find_all方法 find_all( name , attrs , recursive , text , **kwargs )

#find_all方法用来搜索当前所有的tag，判断是否符合过滤条件，如果符合的话，返回符合条件的列表

print(obj.find_all('p'))#找到所有p标签

print(obj.find_all(['a','p']))#找到所有a和p标签

#指定属性

print(obj.find_all(id='link1')) #找到id为link1的

print(obj.find_all(id=['link1','link2'])) #找到id为link1和link2的

#因为class在python里面是关键字，如果要找class属性的，不能直接写class，要写class_

print(obj.find_all(class_='link')) #class为link的，

print(obj.find_all(class_=['link','content']))#class为link和conent的

print(obj.find_all(attrs={'class':'link','id':'link1'})) #多个属性也可以直接写成一个字典，把属性名写成key，值写成value

print(obj.find_all('p',class_='content')) #从p标签里面找到class为conent的

print(type(obj.find(class_='link')))#find方法和findall方法的区别是，findall会返回所有的标签，放到一个list里面

#find方法返回的是一个标签，找到多个的话，取第一个。其他用法都是一样的

css选择器

css选择器就是通过css获取元素的方式来获取html的标签，如果对css比较熟悉的人用起来就很方便了，在css选择器中 "." 代表选择的class，"#"代表选择的id。

print('p',obj.select('p')) #通过标签选择

print(obj.select('a')) #通过标签选择

print(obj.select('.content'))#通过类名选择

print(obj.select('#link1'))#通过id选择

print(obj.select('p .link'))#组合查找，找p标签下面class为title的

print(obj.select('p #link1'))#组合查找，找p标签下面id为link1的

print(obj.select('a#link1'))#组合查找，找a标签里面id为link1的，和不加空格的区别是，在同级别找的

print(obj.select('p > a'))#标签组合查找，找到p标签下面的a标签

print(obj.select('a[class=link]'))#属性查找，找到a标签下面class为link的

print(obj.select('p a[href=http://www.besttest.cn/page/47.html]'))#组合使用，从p标签下面的a标签找到href为http://www.besttest.cn/page/47.html的

节点内容

节点就是怎么获取html的各个节点，比如说和div同级的其他div，div下面的子标签等等。

# contents tag 的 .contents 属性可以将tag的子节点以列表的方式输出

#children children和contents一样，也是获取子节点，只不过children不是列表，而是一个生成器

print(obj.div.contents) #获取到div下面的所有tag

print(obj.div.children) #这个是一个生成器，打印出来是一个生成器对象，想获取的话，就要循环了

for chil in obj.div.children:

print(chil)

# 通过contents以及children都是获取子节点，如果想要获取子孙节点可以通过descendants

# print(obj.descendants)同时这种获取的结果也是一个迭代器

# 父节点和祖先节点

# 通过obj.a.parent就可以获取父节点的信息

# 通过obj.a.parents可以获取祖先节点，这个方法返回的结果是一个列表，会分别将a标签的父节点的信息存放到列表中，以及父节点的父节点也放到列表中，并且最后还会讲整个文档放到列表中，所有列表的最后一个元素以及倒数第二个元素都是存的整个文档的信息

# 兄弟节点

# obj.a.next_siblings 获取后面的兄弟节点

# obj.a.previous_siblings 获取前面的兄弟节点

# obj.a.next_sibling 获取下一个兄弟标签

# obj.a.previous_sinbling 获取上一个兄弟标签

总结

主要说了怎么获取到html里面的各种标签、元素，修改和删除没有写，因为爬虫一般用不到修改，获取数据就够了。find_all()和css选择器都很常用，如果对css比较熟悉的话，建议使用css选择器。标签搜索和css选择器这里非常的常用。

爬虫学习笔记（五） Beautiful Soup使用的更多相关文章

吴裕雄--天生自然python学习笔记：Beautiful Soup 4.2.0模块
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Python学习笔记之Beautiful Soup
如何在Python3.x中使用Beautiful Soup 1.BeautifulSoup中文文档:http://www.crummy.com/software/BeautifulSoup/bs3/d ...
C#可扩展编程之MEF学习笔记(五)：MEF高级进阶
好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...
（转）Qt Model/View 学习笔记 (五)——View 类
Qt Model/View 学习笔记 (五) View 类概念在model/view架构中,view从model中获得数据项然后显示给用户.数据显示的方式不必与model提供的表示方式相同,可以与 ...
java之jvm学习笔记五(实践写自己的类装载器)
java之jvm学习笔记五(实践写自己的类装载器) 课程源码:http://download.csdn.net/detail/yfqnihao/4866501 前面第三和第四节我们一直在强调一句话,类 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Learning ROS for Robotics Programming Second Edition学习笔记(五) indigo computer vision
中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...
scrapy爬虫学习系列五：图片的抓取和下载
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
Typescript 学习笔记五：类
中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...

随机推荐

windows7下将Cygwin加入右键菜单，并从当前目录打开
第一步:修改windows注册表 1·开始->运行(或者win键+R),输入REGEDIT,回车,打开注册表编辑器: 2·找到HKEY_CLASSES_ROOT\Directory\Backgr ...
eclipse中设置JVM内存
一. 修改jdk 使用内存: 找到eclispe 中window->preferences->Java->Installed JRE ,点击右侧的Edit 按钮,在编辑界面中的 ...
在 Amazon AWS 搭建及部署网站：（二）安装、配置软件，启动网站
现在,我们已经有了一台EC2主机,具备了基本的硬件环境.下面,开始软件环境的配置. 第一步:连接服务器后面所有的一切,都需要在SSH终端窗口操作.首先,我们需要一个SSH客户端.PuTTY是很常用的 ...
IOS笔记050-事件处理
IOS事件处理 1.触摸事件 2.加速器事件:重力感应,旋转等事件 3.远程遥控事件:蓝牙线控,耳机线控等触摸事件响应者对象只有继承了UIResponder得对象才能接收并处理事件常见类有:U ...
13 Java内存模型
数据竞争 int a=0, b=0; public void method1() { int r2 = a; b = 1; } public void method2() { int r1 = b; ...
文件处理之复杂，在于内置方法-----python
抛砖引玉: 文件是我们储存信息的地方,我们经常要对文件进行读.写.删除等的操作,在Python中,我们可用Python提供的函数和方法方便地操作文件. ************************ ...
观数据世界，览类型风骚---Python
一.变量的简介变量只不过是保留的内存位置用来存储数据.这意味着,当创建一个变量,那么它在内存中保留一些空间. 根据一个变量的数据类型,解释器分配内存,并决定如何可以被存储在所保留的内存中.因此,通过 ...
WebGIS的开发方式
(转)摘抄自<基于WebGIS的校友资源管理系统的设计与实现>_陈刚
ZOJ 3940 Modulo Query（YY+二分）
Modulo Query Time Limit: 2 Seconds Memory Limit: 65536 KB One day, Peter came across a function ...
[BZOJ1066][luogu_P2472][SCOI2007]蜥蜴
[BZOJ1066][luogu_P2472][SCOI2007]蜥蜴试题描述在一个 \(r\) 行 \(c\) 列的网格地图中有一些高度不同的石柱,一些石柱上站着一些蜥蜴,你的任务是让尽量多的蜥 ...

爬虫学习笔记（五） Beautiful Soup使用