1.创建 Beautiful Soup 对象

  1. from bs4 import BeautifulSoup
  3. html = """
  4. <html><head><title>The Dormouse's story</title></head>
  5. <body>
  6. <p class="title" name="dromouse"><b>The Dormouse's story</b></p>
  7. <p class="story">Once upon a time there were three little sisters; and their names were
  8. <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
  9. <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
  10. <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
  11. and they lived at the bottom of a well.</p>
  12. <p class="story">...</p>
  13. """
  15. soup = BeautifulSoup(html)
  16. print soup.prettify()


Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

2.1 tag

  1. print soup.title
  2. #<title>The Dormouse's story</title>
  4. print soup.head
  5. #<head><title>The Dormouse's story</title></head>
  7. print soup.a
  8. #<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
  10. print soup.p
  11. #<p class="title" name="dromouse"><b>The Dormouse's story</b></p>

2.2 name

  1. print soup.name
  2. #[document]
  4. print soup.head.name
  5. #head

2.3 attrs

  1. print soup.p.attrs
  2. #{'class': ['title'], 'name': 'dromouse'}
  1. print soup.p['class']
  2. #['title']
  4. print soup.p.get('class')
  5. #['title']
  7. //可以进行修改和删除
  8. soup.p['class']="newClass"
  9. print soup.p
  10. #<p class="newClass" name="dromouse"><b>The Dormouse's story</b></p>
  12. del soup.p['class']
  13. print soup.p
  14. #<p name="dromouse"><b>The Dormouse's story</b></p>


  1. print soup.p.string
  2. #The Dormouse's story


(1)find_all( name , attrs , recursive , text , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件

1)name 参数

name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉


最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的<b>标签

  1. print soup.find_all('a')
  2. #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示<body>和<b>标签都应该被找到

  1. import re
  2. for tag in soup.find_all(re.compile("^b")):
  3. print(tag.name)
  4. # body
  5. # b


如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有<a>标签和<b>标签

  1. soup.find_all(["a", "b"])
  2. # [<b>The Dormouse's story</b>,
  3. # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
  4. # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
  5. # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

D.传 True

True 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点

  1. for tag in soup.find_all(True):
  2. print(tag.name)
  3. # html
  4. # head
  5. # title
  6. # body
  7. # p
  8. # b
  9. # p
  10. # a
  11. # a


如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 [4] ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False

下面方法校验了当前元素,如果包含 class 属性却不包含 id 属性,那么将返回 True:

  1. def has_class_but_no_id(tag):
  2. return tag.has_attr('class') and not tag.has_attr('id')
  4. print soup.find_all(has_class_but_no_id)
  5. # [<p class="title"><b>The Dormouse's story</b></p>,
  6. # <p class="story">Once upon a time there were...</p>,
  7. # <p class="story">...</p>]

2)keyword 参数

  1. soup.find_all(id='link2')
  2. # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
  4. soup.find_all(href=re.compile("elsie"))
  5. # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
  7. soup.find_all(href=re.compile("elsie"), id='link1')
  8. # [<a class="sister" href="http://example.com/elsie" id="link1">three</a>]
  10. soup.find_all("a", class_="sister")
  11. # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
  12. # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
  13. # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性 ,但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag

  1. data_soup.find_all(attrs={"data-foo": "value"})
  2. # [<div data-foo="value">foo!</div>]

