python中的BeautifulSoup使用小结

1.安装

pip install beautifulsoup4

2.代码文件中导入

from bs4 import BeautifulSoup

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

r = requests.get('http://www.baidu.com/')

soup = BeautifulSoup(r.text, 'html.parser')

soup = BeautifulSoup(open('index.html'))

print soup.prettify()  #美化HTML代码显示

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象:

soup.head

soup.a

#显示第一个同名标签

soup.head.name #显示标签名称，这里输出‘head’

soup.head.attrs  #显示标签的属性，以字典形式返回所有属性

soup.head['class'] #显示head标签的class属性值

soup.head['class'] = 'newclass' #修改head标签class属性值为‘newclass’

del soup.head['class'] #删除head标签的class属性

soup.head.string  #获取标签内的正文内容，返回值类型为NavigableString

6.遍历

soup.body.contents[0]  #获取body标签的第一个子结点，contents是一个列表

for child in soup.body.children:

    print(child.string)     #children与contents一样，都获取全部直接子结点，只不过children是一个生成器，需遍历取出

for child in soup.body.descendants:

    print(child.string)    #递归遍历获取自身下面所有层级的所有节点，从最高一层列出然后下一层，直到最底层。

for string in soup.body.children.strings:

    print(repr(string))    #strings获取多个正文内容，需遍历取出，stripped_strings去掉每个字符串前后空格及空行，多余的空格或空行全部去掉，使用方法与strings一致

soup.body.parent #获取父节点

for parent in soup.head.title.string.parents:

    print(parent.name)    #遍历上级节点路径，返回结果为title,head,html

.next_sibling   #下一兄弟节点

.previous_sibling  #上一兄弟节点

.next_siblings  #往下遍历所有兄弟节点

.previous_siblings  #往上遍历所有兄弟节点

.next_element    #下一节点，不分层级

.previous_element    #上一节点，不分层级

.next_elements     #往下顺序遍历所有节点，不分层级

.previous_elements   #往上遍历所有节点，不分层级

7.搜索查找标签

find_all( name , attrs , recursive , text , **kwargs )

#例：

#（1）name参数

soup.find_all('a')  #查找所有a标签

soup.body.div.find_all('a')  #查找body下面第一个div中的所有a标签

for tag in soup.find_all(re.compile('^b'))；

    print(tag.name)      #正则表达式查找所有以b开头的标签

soup.find_all(['a','b'])  #列表查找，返回所有a标签和b标签

soup.find_all(True)    #为True时，所有标签都满足搜索条件，返回所有标签

#以下为自定义过滤条件，筛选满足自定义条件的标签

def has_class_but_no_id(tag):

    return tag.has_attr('class') and not tag.has_attr('id')

soup.find_all(has_class_but_no_id)  #返回所有具有class属性但无id属性的标签

#（2）attrs参数，以标签属性搜索

soup.find_all(id='nd2') #返回所有标签中属性id等于nd2的标签

soup.find_all(href=re.compile("elsie"), id='link1')  #多个条件同时筛选，可用正则表达式

soup.find_all("a", class_="sister") #属性中如果有python关键字，比如class属性，不可以直接class='sister',应加个下划线与python关键字区分class_='sister'

soup.find_all(attrs={"data-foo": "value"})

#类似于html5中的data-foo属性不可直接写为soup.find_all(data-foo='value')，因为python命名规则中不允许有中划线（即横杠），应以字典形式传入attrs参数中，所有的属性搜索都可以使用这种方法

#（3）text参数

soup.find_all(text="Tillie") #搜索文档中的字符串内容为tillie，与name参数一样，可用列表、正则表达式等

#（4）limit参数

soup.find_all('a', limit=2) #返回搜索文档中前两个a标签，文档较大时可节约资源

#（5）recursive参数

soup.head.find_all("title", recursive=False)

#在head的直接子节点中搜索，默认为recursive=True，表示在所有子孙节点中搜索

find( name , attrs , recursive , text , **kwargs )

#与find_all用法完全一致，区别在于find只返回第一个满足条件的结果，而find_all返回的是一个列表，需遍历操作

#以下方法参数用法与 find_all() 完全相同，下面只列出区别

find_parents()  find_parent()

#find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

find_next_siblings()  find_next_sibling()

#这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点

find_previous_siblings()  find_previous_sibling()

#这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点

find_all_next()  find_next()

#这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点

find_all_previous() 和 find_previous()

#这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点

python中的BeautifulSoup使用小结的更多相关文章

第14.12节 Python中使用BeautifulSoup解析http报文：使用select方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>和<第14.11节 Python中使用BeautifulSo ...
第14.11节 Python中使用BeautifulSoup解析http报文：使用查找方法快速定位内容
一. 引言在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>介绍了BeautifulSoup对象的主要属性,通过这些属性可以访 ...
第14.10节 Python中使用BeautifulSoup解析http报文：html标签相关属性的访问
一. 引言在<第14.8节 Python中使用BeautifulSoup加载HTML报文>中介绍使用BeautifulSoup的安装.导入和创建对象的过程,本节介绍导入后利用Beauti ...
第14.8节 Python中使用BeautifulSoup加载HTML报文
一. 引言 BeautifulSoup是一个三方模块bs4中提供的进行HTML解析的类,可以认为是一个HTML解析工具箱,对HTML报文中的标签具有比较好的容错识别功能.阅读本节需要了解html相关的 ...
在Python中使用BeautifulSoup进行网页爬取
目录什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型创建网络爬虫步骤1:浏览并检查网站/网页步骤2:创建用户代理步骤3:导入请求库检查状态码步 ...
关于python中lambda 函数使用小结
例子: 如果定义普通函数,一般都是这样写: def:ds(x): return 2*x+1 调用即: ds(5) 如果用lambda函数就是这么写,就是一句话: g =lambda x:2*x+1 调 ...
python中的变量引用小结
python的变量都可以看成是内存中某个对象的引用.(变量指向该内存地址存储的值) 1.python中的可更改对象和不可更改对象 python中的对象可以分为可更改(mutable)对象与不可更改(i ...
python中的requests使用小结
现接触到的很少,详细的官方教程地址: requests官方指南文档:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html ...
Python中的BeautifulSoup库简要总结
一.基本元素 BeautifulSoup库是解析.遍历.维护“标签树”的功能库. 引用 from bs4 import BeautifulSoup import bs4 html文档-标签树-Beau ...

随机推荐

stl源码剖析详细学习笔记配接器
//---------------------------15/04/03---------------------------- /* 配接器概述: 1:adapter是一种设计模式:将一个clas ...
stl源码剖析详细学习笔记deque（1）
//--------------------------15/3/12---------------------------- deque { deque没有容量(capacity)观念,是动态分段的 ...
如何有效的报告bug？
对于比较棘手的bug,反馈务须清晰.详细.精确,我们给出以下6个建议: 1.现场演示:重复bug出现的操作步骤.这个适用于公司内部人员. 2.详细描述:在什么系统使用哪个版本的YoMail,做了什 ...
jenkis +sonarqube 对后端代码静态扫描，钉钉群通知执行结果（记录）
代码提交,触发后端sonar测试,测试完成,jenkins触发依赖任务,执行python脚本,达到预期,调用上线任务模块,进行上线,达不到预期,钉钉群通知. 牵涉到配置: 1.配置sonar测试任务 ...
vue-router单页应用简单示例（一）
请先完成了项目初始化,具体请看我另一篇博文.vue项目初始化看一下完成的效果图,很典型的单页应用. .vue后缀名的单文件组件这里先说一下我对组件的理解.组件,顾名思义就是一组元素组成的一个原 ...
Asp.Net_Ajax调用WebService返回Json前台获取循环解析
利用JQuery的$.ajax()可以很方便的调用 asp.net的后台方法.但往往从后台返回的json字符串不能够正确解析,究其原因,是因为没有对返回的json数据做进一步的加工.其实,这里只需要 ...
ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding
论文简介本文是对词嵌入的一种应用,用户可以根据自己的需要创建concept,系统根据用户提供的seed word推荐其他词汇,以帮助用户更高的构建自己的concept.同时用户可以利用自己创建的 ...
TypeError: web3.eth.Contract is not a constructor错误解决
这是web3.js开发者在创建合约对象时很容易发生的错误,其实就是不同版本web3.js带来的API变化问题. 请检查你的web3.js版本: 如果version<1.0.0,使用: web3. ...
Backbone.js源码浅介
终于看到一个只有一千多行的js框架了,于是抱着一定可以看懂他的逻辑的心态,查看了他的整个源码,进去之后才发现看明白怎么用容易,看懂怎么写的就难了,于是乎有了这篇博客的标题:浅介,只能粗浅的介绍下Bac ...
Alpha版本测试
Alpha版本测试报告项目名称:面向团队的日程提醒系统软件版本:1.0.0 开发方:Team c# 开发代表:崔强杜正远是否经过开发自测(单元测试):是软件运行环境: Android4.4. ...

python中的BeautifulSoup使用小结

python中的BeautifulSoup使用小结的更多相关文章

随机推荐

热门专题