Beautiful Soup 4.2.0

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式

快速开始

pip install beautifulsoup4

下面的一段HTML代码将作为例子

content="""

<div id="post_detail">

	<div class="post">

		<h2>

			<a id="cb_post_title_url" href="http://www.cnblogs.com/Mainz/archive/2009/03/14/1411359.html">实用正则表达式匹配和替换</a>

		</h2>

		<div class="postText"><div id="cnblogs_post_body" class="blogpost-body"><p>正则表达式非常有用，查找、匹配、处理字符串、替换和转换字符串，输入输出等。而且各种语言都支持，例如.NET正则库，JDK正则包, Perl, JavaScript等各种脚本语言都支持正则表达式。下面整理一些常用的正则表达式。</p>

<table style="width: 710px;" border="1" cellspacing="0" cellpadding="2">

"""

from bs4 import BeautifulSoup

soup=BeautifulSoup(content,'html.parser')

从文档中找到所有<p>标签的链接

tag=soup.find(name="p")

print(tag)

从文档中找到所有<a>标签的链接:

for link in soup.find_all('a'):

    print(link.get('href'))

从文档中获取所有文字内容:

print(soup.get_text())    

每个tag都有自己的名字,通过 .name 来获取:

tag.name = "div"

tag.name

一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:

tag['class']

也可以直接”点”取属性, 比如: .attrs

tag.attrs

tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样

tag['class'] = 'post'

tag['id'] = 1

tag

# <div class="post" id="1">Extremely bold</div>

del tag['class']

del tag['id']

tag

# <div>Extremely bold</div>

tag['class']

# KeyError: 'class'

print(tag.get('class'))

多值属性

Beautiful Soup 4.2.0的更多相关文章

Beautiful Soup 4.2.0 文档
Beautiful Soup 4.2.0 文档 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方 ...
Beautiful Soup 4.4.0 基本使用方法
Beautiful Soup 4.4.0 基本使用方法Beautiful Soup 安装 pip install beautifulsoup4 标准库有html.parser解析器但速度不是很快一般 ...
吴裕雄--天生自然python学习笔记：Beautiful Soup 4.2.0模块
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup 4.2.0 doc_tag、Name、Attributes、多值属性
找到了bs4的中文文档,对昨天爬虫程序里所涉及的bs4库进行学习.这篇代码涉及到tag.Name.Attributes以及多值属性. ''' 对象的种类 Beautiful Soup将复杂HTML文档 ...
Beautiful Soup 4.2.0 文档（一）
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
转：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup 中文文档
Beautiful Soup 3.0 中文文档说明: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html Be ...
python标准库Beautiful Soup与MongoDb爬喜马拉雅电台的总结
Beautiful Soup标准库是一个可以从HTML/XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,Beautiful Soup将会节省数小 ...
Beautiful Soup 学习手册
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式快速开始下面的一段HTML代码将作为例 ...

随机推荐

虚拟机CentOS6.5网络配置
不得不说 6.5比7.0麻烦了许多.. 编辑ifcfg配置文件 vi /etc/sysconfig/network-script/ifcfg-eth0 内容如下 DEVICE=eth0 HWADDR ...
微信小程序申请。很蛋疼的流程。
微信小程序申请. 营业执照,食品许可证,身份证正面,身份证反面. 1.先要申请服务号. 需要一个QQ邮箱,申请服务号. 填写各种信息,营业执照信息. 法人信息. 管理员用自己人的.方便开发操作. 申请 ...
python matrix/array反向切片
>>> import numpy as np >>> m = np.mat([[1.,1,1],[1,2,3,],[1,5,1,]]) >>> m ...
目标检测 — NMS
1.非极大值抑制步骤非极大值抑制算法(Non-maximum suppression,NMS)在目标检测中经常用到.我们的检测算法可能对同一目标产生多次检测的结果,非极大值抑制算法可以保证每个目标只 ...
php 实现微信模拟登陆、获取用户列表及群发消息功能示例
本文实例讲述了php实现微信模拟登陆.获取用户列表及群发消息功能.分享给大家供大家参考,具体如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 ...
python中的类和对象
类和对象 1. 类和对象和概念类:共性事物的抽象,是对某一类具有共同事物的描述,是具有相同属性和方法的集合对象:类的实例,是共性事物的一个体现,是这类事物中的每个个体 2. 总结: 类是对象的模板 ...
cassandra 集群并发测试脚本
prepare: create keyspace ycsb WITH REPLICATION = { }; USE ycsb; CREATE TABLE users ( firstname text, ...
NodeJs学习之API篇
学习nodeJS的API在对于使用nodeJS来进行编程的是十分重要的,所以首先就要去学习看看,相关的node的模块,来看一看相关的内容和可用性. 正文篇: nodeJS的API学习之路.(这里我们将 ...
SMB/CIFS协议简介
1. 简介:(ServerMessage Block)服务消息块通信协议是微软(Microsoft)和英特尔(Intel)在1987年制定的协议,主要是作为Microsoft网络的通讯协议.SMB从I ...
分布式_理论_02_Base 理论
一.前言五.参考资料 1.分布式理论(二)——Base 理论 2.分布式理论(二) - BASE理论

Beautiful Soup 4.2.0

Beautiful Soup 4.2.0的更多相关文章

随机推荐

热门专题