[转]python下很帅气的爬虫包 - Beautiful Soup 示例
原文地址http://blog.csdn.net/watsy/article/details/14161201
先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/
建议有时间可以看一下python包的文档。
Beautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。
相比正则解析的爬虫,省略了学习正则的高成本。
相比xpath爬虫的解析,同样节约学习时间成本。虽然xpath已经简单点了。(爬虫框架Scrapy就是使用xpath)
安装
linux下可以执行
[plain] view plaincopy
apt-get install python-bs4
也可以用python的安装包工具来安装
[html] view plaincopy
easy_install beautifulsoup4
pip install beautifulsoup4
使用简介
下面说一下BeautifulSoup 的使用。
解析html需要提取数据。其实主要有几点
1:获取指定tag的内容。
[plain] view plaincopy
hello, watsy
hello, beautiful soup.
2:获取指定tag下的属性。
[html] view plaincopy
watsy's blog
3:如何获取,就需要用到查找方法。
使用示例采用官方
[html] view plaincopy
html_doc = """
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.
...
"""
格式化输出。
[html] view plaincopy
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
print(soup.prettify())
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie
,
Lacie
and
Tillie
; and they lived at the bottom of a well.
...
获取指定tag的内容
[html] view plaincopy
soup.title
The Dormouse's story
soup.title.name
u'title'
soup.title.string
u'The Dormouse's story'
soup.title.parent.name
u'head'
soup.p
The Dormouse's story
soup.a
Elsie
上面示例给出了4个方面
1:获取tag
soup.title
2:获取tag名称
soup.title.name
3:获取title tag的内容
soup.title.string
4:获取title的父节点tag的名称
soup.title.parent.name
怎么样,非常对象化的使用吧。
提取tag属性
下面要说一下如何提取href等属性。
[html] view plaincopy
soup.p['class']
u'title'
获取属性。方法是
soup.tag['属性名称']
[html] view plaincopy
watsy's blog
常见的应该是如上的提取联接。
代码是
[html] view plaincopy
soup.a['href']
相当easy吧。
查找与判断
接下来进入重要部分。全文搜索查找提取.
soup提供find与find_all用来查找。其中find在内部是调用了find_all来实现的。因此只说下find_all
[html] view plaincopy
def find_all(self, name=None, attrs={}, recursive=True, text=None,
limit=None, **kwargs):
看参数。
第一个是tag的名称,第二个是属性。第3个选择递归,text是判断内容。limit是提取数量限制。**kwargs 就是字典传递了。。
举例使用。
[html] view plaincopy
tag名称
soup.find_all('b')
[The Dormouse's story]
正则参数
import re
for tag in soup.find_all(re.compile("^b")):
print(tag.name)
body
b
for tag in soup.find_all(re.compile("t")):
print(tag.name)
html
title
列表
soup.find_all(["a", "b"])
[The Dormouse's story,
Elsie,
Lacie,
Tillie]
函数调用
def has_class_but_no_id(tag):
return tag.has_attr('class') and not tag.has_attr('id')
soup.find_all(has_class_but_no_id)
[
The Dormouse's story
,
Once upon a time there were...
,
...
]
tag的名称和属性查找
soup.find_all("p", "title")
[
The Dormouse's story
]
tag过滤
soup.find_all("a")
[Elsie,
Lacie,
Tillie]
tag属性过滤
soup.find_all(id="link2")
[Lacie]
text正则过滤
import re
soup.find(text=re.compile("sisters"))
u'Once upon a time there were three little sisters; and their names were\n'
获取内容和字符串
获取tag的字符串
[html] view plaincopy
title_tag.string
u'The Dormouse's story'
注意在实际使用中应该使用 unicode(title_tag.string)来转换为纯粹的string对象
使用strings属性会返回soup的构造1个迭代器,迭代tag对象下面的所有文本内容
[html] view plaincopy
for string in soup.strings:
print(repr(string))
u"The Dormouse's story"
u'\n\n'
u"The Dormouse's story"
u'\n\n'
u'Once upon a time there were three little sisters; and their names were\n'
u'Elsie'
u',\n'
u'Lacie'
u' and\n'
u'Tillie'
u';\nand they lived at the bottom of a well.'
u'\n\n'
u'...'
u'\n'
获取内容
.contents会以列表形式返回tag下的节点。
[html] view plaincopy
head_tag = soup.head
head_tag
The Dormouse's story
head_tag.contents
[The Dormouse's story]
title_tag = head_tag.contents[0]
title_tag
The Dormouse's story
title_tag.contents
[u'The Dormouse's story']
想想,应该没有什么其他的了。。其他的也可以看文档学习使用。
总结
其实使用起主要是
[html] view plaincopy
soup = BeatifulSoup(data)
soup.title
soup.p.['title']
divs = soup.find_all('div', content='tpc_content')
divs[0].contents[0].string
[转]python下很帅气的爬虫包 - Beautiful Soup 示例的更多相关文章
- python下很帅气的爬虫包 - Beautiful Soup 示例
先发一下官方文档地址.http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 建议有时间可以看一下python包的文档. Beautiful Sou ...
- python下的复杂网络编程包networkx的安装及使用
由于py3.x与工具包的兼容问题,这里采用py2.7 1.python下的复杂网络编程包networkx的使用: http://blog.sina.com.cn/s/blog_720448d30101 ...
- python 爬虫利器 Beautiful Soup
python 爬虫利器 Beautiful Soup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文 ...
- Python爬虫之Beautiful Soup解析库的使用(五)
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
- [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多 分类专栏: 网络爬虫 版权声明: ...
- python爬虫之Beautiful Soup基础知识+实例
python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档 ...
- python下的复杂网络编程包networkx的使用(摘抄)
原文:http://blog.sciencenet.cn/home.php?mod=space&uid=404069&do=blog&classid=141080&vi ...
- python爬虫之Beautiful Soup的基本使用
1.简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索 ...
- Python爬虫库-Beautiful Soup的使用
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性. 如在上一篇文章通过爬虫 ...
随机推荐
- CMake with Win&MinGW
今天一个下午都在做一件简直耻辱play的事情,论文没看,程序没写,玩了一个下午的编译器...心塞(逃... 言归正传,今天要讲在windows下,使用Cmake和MInGW. 1.g++ MinGW的 ...
- checkbox 全选、全不选、反选 插件
jquery.checkbox.js: ;(function($,window,document,undefined){ $.fn.check=function(mode){ mode= mode | ...
- Android相对布局(RelativeLayout)
Android相对布局(RelativeLayout) 备注:这里的视图和元素是等同的概念. RelativeLayout是一个允许子视图相对于其他兄弟视图或是父视图显示的视图组(通过ID指定).每个 ...
- 详谈 Jquery Ajax 异步处理Json数据.
啥叫异步,啥叫Ajax.咱不谈啥XMLHTTPRequest.通俗讲异步就是前台页面javascript能调用后台方法.这样就达到了无刷新.所谓的Ajax.这里我们讲二种方法 方法一:(微软有自带Aj ...
- bzoj2800
这题好难,翻了一下波兰文的题解……这好像是当年唯一没人A的题目 首先区间修改不难想到差分,我们令d1=x1,dn+1=-xn,di=xi-xi-1 注意Σdi=0,这样对于[l,r]的修改(比如+a) ...
- UVa 10375 (唯一分解定理) Choose and divide
题意: 求组合数C(p, q) / C(r, s)结果保留5为小数. 分析: 先用筛法求出10000以内的质数,然后计算每个素数对应的指数,最后再根据指数计算答案. #include <cstd ...
- Lambda表达式【转】
lambda表达式是对匿名方法的一种改进,具有更加简洁的语法和更易理解的形式,lambda表达式可以包括表达式和语句,并且可以用与创建委托或表达式目录树类型. lambda表达式都使用Lambda运算 ...
- 四种途径将HTML5 web应用变成android应用
作为下一代的网页语言,HTML5拥有很多让人期待已久的新特性.HTML5的优势之一在于能够实现跨平台游戏编码移植,现在已经有很多公司在移动 设备上使用HTML5技术.随着HTML5跨平台支持的不断增强 ...
- Darwin Streaming Server用vs2005编译运行过程
原创. 一:编译 Darwin6.0.3版本是最新版本,也提供了.dsw文件.但是使用vs2005和vc6是编译不过的.所以,采用Darwin5.5.5版本.使用vc6打开WinNTSupport文件 ...
- (1)quartz集群调度机制调研及源码分析---转载
quartz2.2.1集群调度机制调研及源码分析 原文地址:http://demo.netfoucs.com/gklifg/article/details/27090179 引言quartz集群架构调 ...