使用Python的BeautifulSoup 类库采集网页内容

BeautifulSoup 一个分析、处理DOM树的类库。可以做网络爬虫。模块简称bs4。

安装类库

easy_install beautifulsoup4  

pip install beautifulsoup4

下面是一些用法

from urllib.request    import    urlopen

from bs4 import    BeautifulSoup

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister text-bold text-danger" id="link3" title="this is title!">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="red">...</p>

<p class="green">...</p>

<p class="red green">...</p>

</body>

</html>

"""

soup = BeautifulSoup(html_doc, "html.parser")

link3 = soup.find(id='link3')

#  <a class="sister" href="http://example.com/tillie" id="link3" title="this is title!">Tillie</a>

print(link3)

#  <class 'bs4.element.Tag'>

print(type(link3))

# {'href': 'http://example.com/tillie', 'title': 'this is title!', 'id': 'link3', 'class': ['sister', 'text-bold', 'text-danger']}

print(link3.attrs)

# Tillie

print(link3.get_text())

# this is title!

print(link3["title"])

all_a = soup.find_all('a')

#  <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

print(all_a[0])

#  ['Elsie', 'Lacie', 'Tillie']

print(soup.find_all(text=["Tillie", "Elsie", "Lacie"]))

#  [<p class="red green">...</p>]

print(soup.find_all("p", {"class":"red", "class":"red green"}))

一个例子

采集所有img标签的title属性的内容

# -*- coding: utf-8 -*- 

from    urllib.request    import    urlopen

from    urllib.error    import    HTTPError

from    bs4    import    BeautifulSoup

url  = "http://qa.beloved999.com/category/view?id=2"

url  = "http://beloved.finley.com/category/view?id=24"

html = urlopen(url)

bs   = BeautifulSoup(html.read(),"html.parser")

res  = bs.findAll("img", "item-image")

print(len(res))

for a in res:

    print(a['title'])

注意，有些网站会失败，返回403 forbidden。比如我试的开源中国，可能更header头有关。

经查，发送的HTTP_USER_AGENT是Python-urllib/3.4。包含HTTP的信息有

'HTTP_ACCEPT_ENCODING' => 'identity'
'HTTP_CONNECTION' => 'close'
'HTTP_HOST' => 'beloved.finley.com'
'HTTP_USER_AGENT' => 'Python-urllib/3.4' 。

使用Python的BeautifulSoup 类库采集网页内容的更多相关文章

python利用beautifulSoup写爬虫
python BeautifulSoup模块的安装安装包下载地址:http://www.crummy.com/software/BeautifulSoup/#Download 文档:http://w ...
python——5行代码采集3000+上市公司信息
毕业季也到了找工作的季节了,很多小伙伴都会一家一家的公司去看,这得多浪费时间啊.今天用Python教大家怎么采集公司的信息,相信大家会很喜欢这个教程的,nice! 基本环境配置版本:Python3 ...
python安装第三方类库的方法
1.先到官网 http://pypi.python.org/pypi/setuptools 下载setuptools.exe文件并安装点击 ez_setup.py进入, 并将内容复制下来, 保存为本 ...
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台 By 子敬叔叔最近在学习麦好的<机器学习实践指南案例应用解析第二版>,在安装学习环境的时候 ...
Python配合BeautifulSoup读取网络图片并保存在本地
本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # ...
phpQuery轻松采集网页内容
原文地址:phpQuery轻松采集网页内容作者:陌上花开 phpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息.更有意思的是,它 ...
python 网络请求类库 requests 使用
python 网络请求类库 requests 使用 requests是为python封装的强大 REST 操作类库 githubhttps://github.com/kennethreitz/req ...
python scrapy,beautifulsoup,regex,sgmparser,request,connection
In [2]: import requests In [3]: s = requests.Session() In [4]: s.headers 如果你是爬虫相关的业务?抓取的网站还各种各样, ...
Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分：微博爬行要求python包裹
后果<信息检索>第二project,微博具有抓取数据,再处理.师兄给了代码.让慢慢爬.可是在ubuntu下.少了非常多python软件包.须要安装. 1.首先执行时.说少了python.B ...

随机推荐

ALICE源代码分析
前言 ALICE(爱丽丝)事实上是"人工语言计算机实体"的英文缩写. 它以前在往年(2000年.2001年和2004年)的勒布纳人工智能奖角逐中三次获胜.并在其它年度中也获过骄人的 ...
the longest distance of a binary tree
版权声明:欢迎查看本博客.希望对你有有所帮助 https://blog.csdn.net/cqs_2012/article/details/24880735 the longest distance ...
【[SHOI2007]善意的投票】
直接是最小割啊设最终还和\(S\)相连表示睡觉,和\(T\)相连表示不睡觉如果这个人想睡觉,那么就从源点向它连\(1\)的边,表示割掉这条边选择不睡觉的代价为1 如果这个人不想睡觉的话,就向汇点连 ...
webpack4配置
一.安装webpack 需要先在项目中npm init初始化一下,生成package.json 建议node版本安装到8.2以上 // webpack4中除了正常安装webpack之外,需要再单独安一 ...
LORA芯片SX1272IMLTRT资料介绍
升特公司(Semtech)(纳斯达克:SMTC)日前推出新型远程RFIC平台的首款产品SX1272,可将器件的无线传输距离扩大至15公里. 该器件集成了升特公司的新型LoRa(远程)调制技术,相比其他 ...
【luogu P2827 蚯蚓】题解
题目链接:https://www.luogu.org/problemnew/show/P2827 35分:暴力sortO(mnlogn). 80分:考虑到每次不好维护不被切的点+q,正难则反.改成维护 ...
[LuoguP1053][Noip2005]篝火晚会
[LuoguP1053][Noip2005]篝火晚会(Link) 现在你有一个排成一个圈的\(N\)大小的队列,一开始的顺序是\(\{1,2,3,4...N\}\),一共有\(N\)个要求,第\(i\ ...
ASP.NET Core 中的 WebSocket 支持（转自MSDN）
本文介绍 ASP.NET Core 中 WebSocket 的入门方法. WebSocket (RFC 6455) 是一个协议,支持通过 TCP 连接建立持久的双向信道. 它用于从快速实时通信中获益的 ...
Kubernetes（二）-- 搭建（未完待续）
一.部署前规划 1. 操作系统初始化设置 :需要设置好集群机器,关闭防火墙和selinux 2. 创建ca证书和私钥 :集群间通信要加密,那么肯定要有ca的创建,以后就用这一步创建的ca当作证书颁发机 ...
LVM的创建与管理
LVM的创建与管理1.创建物理分区 fdisk 或者 parted 工具分区. LVM分区的类型ID为8e2.创建物理卷 pvcreate 磁盘分区或整个磁盘3.创建卷组 vgcreate 卷组 ...

使用Python的BeautifulSoup 类库采集网页内容

使用Python的BeautifulSoup 类库采集网页内容的更多相关文章

随机推荐

热门专题