对于一个最简单的爬虫结构的代码是这样的。

也就是抓取出整个页面,然后创建一个BeautifulSoup对象。

  1. from urllib.request import urlopen
  2. from bs4 import BeautifulSoup
  3. html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
  4. bsObj = BeautifulSoup(html)

find()和findAll()

这两个函数非常相似,是用来通过标签的不同属性来过滤HTML页面,查找需要的标签组或单个标签的。BeautifulSoup文档里两者的定义就是这样:

  1. findAll(tag, attributes, recursive, text, limit, keywords)
  2. find(tag, attributes, recursive, text, keywords)

标签参数tag

你可以传一个标签的名称或多个标签名称组成的Python列表做标签参数。比如:

  1. bsObj.findAll({"h1","h2","h3","h4"})

属性参数attributes

它是用一个Python字典封装一个标签的若干属性和对应的属性值。比如,下面这个函数会返回HTML文档里红色和绿色两种颜色的span标签:

  1. bsObj.finaAll("span",{"class":{"green", "red"}})

递归参数recursive

它是一个布尔变量。如果设置为True,findAll就会根据你的要求去查找标签参数的所有子标签,以及子标签的子标签。如果设置为False,findAll就只查找文档的一级标签。默认是支持递归查找的,所以一般这个参数不需要设置。

文本参数text

它是用标签的文本去匹配,而不是用标签的属性。比如:

  1. nameList = bsObj.findAll(text="the prince")
  2. print(len(nameList))

范围限制参数limit

find()其实等价于findAll()的limit等于1时的情形。如果你只对网页中获取的前n项结果感兴趣,就可以设置它。

关键词参数keyword

它可以让你选择那些具有指定属性的标签。比如:

  1. allText=bsObj.findAll(id="text")
  2. print(allText[0].get_text())

但是,keyword偶尔会出现问题,尤其是在用class属性查找标签的时候,因为class是Python中受保护的关键字。但是可以用BeautifulSoup提供的另一种方案,在class后面增加一个下划线

  1. # 错误
  2. bsObj.findAll(class="green")
  3. # 正确
  4. bsObj.findAll(class_="green")
  5. bsObj.findAll("",{"class":"green"})

get_text()

get_text()会把正在处理的HTML文档中所有的标签都清楚,然后返回一个只包含文字的字符串。

通常在你准备打印、存储和操作数据时,应该最后才使用get_text()。一般情况下,你应该尽可能地保留HTML文档的标签结构。

导航树

如果需要通过标签在文档中的位置来查找标签,那么就要用到导航树(Navigating Trees)。

虚拟的在线购物网站作为要抓取的示例网页,这个HTML页面可以映射成一棵树,如下所示:

  1. -body
  2. -div.wrapper
  3. -h1
  4. -div.content
  5. -table#giftList
  6. -tr
  7. -th
  8. -th
  9. -th
  10. -th
  11. -tr.gift#gitf1
  12. -td
  13. -td
  14. -span.excitingNote
  15. -td
  16. -td
  17. -img
  18. -……其他表格行省略了……
  19. -div.footer

子标签与后代标签

在BeautifulSoup库里,孩子(child)后代(descendant)有显著的不同。

子标签就是一个父标签的下一级,而后代标签是指一个父标签下面所有级别的标签。

比如,tr标签是table标签的子标签,而tr、th、td、img和span标签都是table标签的后代标签。

也就是所有的子标签都是后代标签,但不是所有的后代标签都是子标签。

如果只想找出子标签,可以使用children()函数

  1. from urllib.request import urlopen
  2. from bs4 import BeautifulSoup
  3. html = urlopen("http://www.pythonscraping.com/pages/page3.html")
  4. bsObj = BeautifulSoup(html)
  5. for child in bsObj.find("table",{"id":"giftList"}).children:
  6. print(child)

这段代码会打印gitfList表格中所有产品的数据行。

而如果使用的是descendants()函数就会有二十几个标签打印出来,包括img标签等。

兄弟标签

next_siblings()函数可以让收集表格数据成为简单的事情,尤其是处理带标题行的表格:

  1. from urllib.request import urlopen
  2. from bs4 import BeautifulSoup
  3. html = urlopen("http://www.pythonscraping.com/pages/page3.html")
  4. bsObj = BeautifulSoup(html)
  5. for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:
  6. print(sibling)

这段代码会打印产品列表里所有行的产品,第一行表格标题除外。因为自己不能是自己的兄弟标签,而且这个函数只调用后面的兄弟标签。

如果一组兄弟标签里的最后一个标签比较好找,也可以用previous_siblings()函数

获取标签属性

有时候我们需要的数据在标签属性里,那么我们可以使用下面的代码获取它的全部属性:

  1. myTag.attrs

这行代码返回的是一个Python字典对象,可以获取和操作这些属性。

比如要获取图片的资源位置src,可以这样使用:

  1. myImgTag.attrs["src"]

【参考】

[1]《Python网络数据收集》Ryan Mitchell

【Python学习】使用BeautifulSoup解析HTML的更多相关文章

  1. 第14.12节 Python中使用BeautifulSoup解析http报文:使用select方法快速定位内容

    一. 引言 在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>和<第14.11节 Python中使用BeautifulSo ...

  2. 第14.11节 Python中使用BeautifulSoup解析http报文:使用查找方法快速定位内容

    一. 引言 在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>介绍了BeautifulSoup对象的主要属性,通过这些属性可以访 ...

  3. python学习(25) BeautifulSoup介绍和实战

    BeautifulSoup是python的html解析库,处理html非常方便 BeautifulSoup 安装 pip install beautifulsoup4 BeautifulSoup 配合 ...

  4. python学习之BeautifulSoup模块爬图

    BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...

  5. 第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问

    一. 引言 在<第14.8节 Python中使用BeautifulSoup加载HTML报文>中介绍使用BeautifulSoup的安装.导入和创建对象的过程,本节介绍导入后利用Beauti ...

  6. python学习之----BeautifulSoup的find()和findAll()及四大对象

    BeautifulSoup 里的find() 和findAll() 可能是你最常用的两个函数.借助它们,你可以通 过标签的不同属性轻松地过滤HTML 页面,查找需要的标签组或单个标签. 这两个函数非常 ...

  7. python学习之----BeautifulSoup示例二

    网络爬虫可以通过class 属性的值,轻松地区分出两种不同的标签.例如,它们可以用 BeautifulSoup 抓取网页上所有的红色文字,而绿色文字一个都不抓.因为CSS 通过属性准 确地呈现网站的样 ...

  8. python学习之----BeautifulSoup示例一

    BeautifulSoup 库最常用的对象恰好就是BeautifulSoup 对象. from urllib.request import urlopen from bs4 import Beauti ...

  9. python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]

    目录 前言 一.BeautifulSoup的基本语法 二.爬取网页图片 扩展学习 后记 前言 本章同样是解析一个网页的结构信息 在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...

  10. python爬虫之Beautifulsoup学习笔记

    相关内容: 什么是beautifulsoup bs4的使用 导入模块 选择使用解析器 使用标签名查找 使用find\find_all查找 使用select查找 首发时间:2018-03-02 00:1 ...

随机推荐

  1. Kafka在大型应用中的 20 项最佳实践

    原标题:Kafka如何做到1秒处理1500万条消息? Apache Kafka 是一款流行的分布式数据流平台,它已经广泛地被诸如 New Relic(数据智能平台).Uber.Square(移动支付公 ...

  2. 【EF】EF框架 Code First Fluent API

    在Code First方法中,还可以通过Fluent API的方式来处理实体与数据表之间的映射关系. 要使用Fluent API必须在构造自定义的DbContext时,重写OnModelCreatin ...

  3. 【bzoj5133】[CodePlus2017年12月]白金元首与独舞 并查集+矩阵树定理

    题目描述 给定一个 $n\times m$ 的方格图,每个格子有 ↑.↓.←.→,表示从该格子能够走到相邻的哪个格子.有一些格子是空着的,需要填上四者之一,需要满足:最终的方格图中,从任意一个位置出发 ...

  4. 【BZOJ4516】生成魔咒(后缀自动机)

    [BZOJ4516]生成魔咒(后缀自动机) 题面 BZOJ Description 魔咒串由许多魔咒字符组成,魔咒字符可以用数字表示.例如可以将魔咒字符 1.2 拼凑起来形成一个魔咒串 [1,2]. ...

  5. linux 递归删除目录文件

    比如删.svn文件 >find . -name ".svn" | xargs -exec rm -rf

  6. iframe在ios上不能滚动问题解决

    同这篇文章一样,用到了-webkit-overflow-scrolling: touch;属性.主要解决方案是在iframe外层添加一个div,然后设置-webkit-overflow-scrolli ...

  7. 洛谷P1029 最大公约数和最小公倍数问题

    题目描述 输入二个正整数x0,y0(2<=x0<100000,2<=y0<=1000000),求出满足下列条件的P,Q的个数 条件: 1.P,Q是正整数 2.要求P,Q以x0为 ...

  8. 009.C++ const使用

    1.引例 class complex { public: complex(, ) : re (r), im (i) {} complex& operator += (const complex ...

  9. OpenCV---Numpy数组的使用以及创建图片

    一:对头像的所有像素进行访问,并UI图像进行像素取反 (一)for循环取反 import cv2 as cv import numpy as np def access_pixels(image): ...

  10. Oracle把本地的dmp备份文件导入到本地的Oracle数据库中语句

    ----------------------------------------------------------------------------- 导入语法 imp usename/passw ...