先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/

建议有时间可以看一下python包的文档。

Beautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。

相比正则解析的爬虫,省略了学习正则的高成本。

相比xpath爬虫的解析,同样节约学习时间成本。虽然xpath已经简单点了。(爬虫框架Scrapy就是使用xpath)

 安装

linux下可以执行

  1. apt-get install python-bs4

也可以用python的安装包工具来安装

  1. easy_install beautifulsoup4
  2.  
  3. pip install beautifulsoup4

使用简介

下面说一下BeautifulSoup 的使用。

解析html需要提取数据。其实主要有几点

1:获取指定tag的内容。

  1. <p>hello, watsy</p><br><p>hello, beautiful soup.</p>

2:获取指定tag下的属性。

  1. <a href="http://blog.csdn.net/watsy">watsy's blog</a>

3:如何获取,就需要用到查找方法。

  1. html_doc = """
  2. <html><head><title>The Dormouse's story</title></head>
  3. <body>
  4. <p class="title"><b>The Dormouse's story</b></p>
  5.  
  6. <p class="story">Once upon a time there were three little sisters; and their names were
  7. <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
  8. <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
  9. <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
  10. and they lived at the bottom of a well.</p>
  11.  
  12. <p class="story">...</p>
  13. """

格式化输出。

  1. from bs4 import BeautifulSoup
  2. soup = BeautifulSoup(html_doc)
  3.  
  4. print(soup.prettify())
  5. # <html>
  6. # <head>
  7. # <title>
  8. # The Dormouse's story
  9. # </title>
  10. # </head>
  11. # <body>
  12. # <p class="title">
  13. # <b>
  14. # The Dormouse's story
  15. # </b>
  16. # </p>
  17. # <p class="story">
  18. # Once upon a time there were three little sisters; and their names were
  19. # <a class="sister" href="http://example.com/elsie" id="link1">
  20. # Elsie
  21. # </a>
  22. # ,
  23. # <a class="sister" href="http://example.com/lacie" id="link2">
  24. # Lacie
  25. # </a>
  26. # and
  27. # <a class="sister" href="http://example.com/tillie" id="link2">
  28. # Tillie
  29. # </a>
  30. # ; and they lived at the bottom of a well.
  31. # </p>
  32. # <p class="story">
  33. # ...
  34. # </p>
  35. # </body>
  36. # </html>

获取指定tag的内容

  1. soup.title
  2. # <title>The Dormouse's story</title>
  3.  
  4. soup.title.name
  5. # u'title'
  6.  
  7. soup.title.string
  8. # u'The Dormouse's story'
  9.  
  10. soup.title.parent.name
  11. # u'head'
  12.  
  13. soup.p
  14. # <p class="title"><b>The Dormouse's story</b></p>
  15.  
  16. soup.a
  17. # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

上面示例给出了4个方面

1:获取tag

soup.title

2:获取tag名称

soup.title.name

3:获取title tag的内容

soup.title.string

4:获取title的父节点tag的名称

soup.title.parent.name

怎么样,非常对象化的使用吧。

 提取tag属性

下面要说一下如何提取href等属性。

  1. soup.p['class']
  2. # u'title'

获取属性。方法是

soup.tag['属性名称']

  1. <a href="http://blog.csdn.net/watsy">watsy's blog</a>

常见的应该是如上的提取联接。

代码是

  1. soup.a['href']

相当easy吧。

查找与判断

接下来进入重要部分。全文搜索查找提取.

soup提供find与find_all用来查找。其中find在内部是调用了find_all来实现的。因此只说下find_all

  1. def find_all(self, name=None, attrs={}, recursive=True, text=None,
  2. limit=None, **kwargs):

看参数。

第一个是tag的名称,第二个是属性。第3个选择递归,text是判断内容。limit是提取数量限制。**kwargs 就是字典传递了。。

举例使用。

  1. tag名称
  2. soup.find_all('b')
  3. # [<b>The Dormouse's story</b>]
  4.  
  5. 正则参数
  6. import re
  7. for tag in soup.find_all(re.compile("^b")):
  8. print(tag.name)
  9. # body
  10. # b
  11.  
  12. for tag in soup.find_all(re.compile("t")):
  13. print(tag.name)
  14. # html
  15. # title
  16.  
  17. 列表
  18. soup.find_all(["a", "b"])
  19. # [<b>The Dormouse's story</b>,
  20. # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
  21. # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
  22. # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
  23.  
  24. 函数调用
  25. def has_class_but_no_id(tag):
  26. return tag.has_attr('class') and not tag.has_attr('id')
  27.  
  28. soup.find_all(has_class_but_no_id)
  29. # [<p class="title"><b>The Dormouse's story</b></p>,
  30. # <p class="story">Once upon a time there were...</p>,
  31. # <p class="story">...</p>]
  32.  
  33. tag的名称和属性查找
  34. soup.find_all("p", "title")
  35. # [<p class="title"><b>The Dormouse's story</b></p>]
  36.  
  37. tag过滤
  38. soup.find_all("a")
  39. # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
  40. # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
  41. # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
  42.  
  43. tag属性过滤
  44. soup.find_all(id="link2")
  45. # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
  46.  
  47. text正则过滤
  48. import re
  49. soup.find(text=re.compile("sisters"))
  50. # u'Once upon a time there were three little sisters; and their names were\n'

获取内容和字符串

获取tag的字符串
  1. title_tag.string
  2. # u'The Dormouse's story'
注意在实际使用中应该使用 unicode(title_tag.string)来转换为纯粹的string对象
 
使用strings属性会返回soup的构造1个迭代器,迭代tag对象下面的所有文本内容
  1. for string in soup.strings:
  2. print(repr(string))
  3. # u"The Dormouse's story"
  4. # u'\n\n'
  5. # u"The Dormouse's story"
  6. # u'\n\n'
  7. # u'Once upon a time there were three little sisters; and their names were\n'
  8. # u'Elsie'
  9. # u',\n'
  10. # u'Lacie'
  11. # u' and\n'
  12. # u'Tillie'
  13. # u';\nand they lived at the bottom of a well.'
  14. # u'\n\n'
  15. # u'...'
  16. # u'\n'
获取内容
.contents会以列表形式返回tag下的节点。
  1. head_tag = soup.head
  2. head_tag
  3. # <head><title>The Dormouse's story</title></head>
  4.  
  5. head_tag.contents
  6. [<title>The Dormouse's story</title>]
  7.  
  8. title_tag = head_tag.contents[0]
  9. title_tag
  10. # <title>The Dormouse's story</title>
  11. title_tag.contents
  12. # [u'The Dormouse's story']
想想,应该没有什么其他的了。。其他的也可以看文档学习使用。
 
总结
其实使用起主要是
  1. soup = BeatifulSoup(data)
  2. soup.title
  3. soup.p.['title']
  4. divs = soup.find_all('div', content='tpc_content')
  5. divs[0].contents[0].string

python下很帅气的爬虫包 - Beautiful Soup 示例的更多相关文章

  1. [转]python下很帅气的爬虫包 - Beautiful Soup 示例

    原文地址http://blog.csdn.net/watsy/article/details/14161201 先发一下官方文档地址.http://www.crummy.com/software/Be ...

  2. python 爬虫利器 Beautiful Soup

    python 爬虫利器 Beautiful Soup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文 ...

  3. Python爬虫之Beautiful Soup解析库的使用(五)

    Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...

  4. [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

    [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多 分类专栏: 网络爬虫   版权声明: ...

  5. python爬虫之Beautiful Soup基础知识+实例

    python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档 ...

  6. python下的复杂网络编程包networkx的安装及使用

    由于py3.x与工具包的兼容问题,这里采用py2.7 1.python下的复杂网络编程包networkx的使用: http://blog.sina.com.cn/s/blog_720448d30101 ...

  7. python爬虫之Beautiful Soup的基本使用

    1.简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索 ...

  8. Python爬虫库-Beautiful Soup的使用

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性. 如在上一篇文章通过爬虫 ...

  9. python下的复杂网络编程包networkx的使用(摘抄)

    原文:http://blog.sciencenet.cn/home.php?mod=space&uid=404069&do=blog&classid=141080&vi ...

随机推荐

  1. T4模板的基本结构

    (转自:http://www.cnblogs.com/yank/archive/2012/02/14/2342287.html) T4模板的基本结构 代码块的总体分类,就是两种:文本.程序脚本. 我感 ...

  2. 怎样安装 OpenJDK 8 in Ubuntu 14.04 & 12.04 LTS

    OpenJDK Java 8 has been made into official Ubuntu repositories for 14.10 Utopic and higher. For Ubun ...

  3. 【LeetCode 111_二叉树_遍历】Minimum Depth of Binary Tree

    解法一:递归 int minDepth(TreeNode* root) { if (root == NULL) ; if (root->left == NULL) { ; } else if ( ...

  4. 在pycharm中自定义模板代码,快速输出固定代码块

    pycharm中有时会经常输出固定一段代码,为避免每次重复输入,可以自定义一段模板代码,请看以下图教程: 1.  点击 file   里面的   setting 2. 在搜索框输入live,就会显示出 ...

  5. Buildroot构建指南--Overview

    使用Buildroot,让嵌入式Linux系统构建更加便捷.本文以Buildroot-2016.05的版本为基础来讲解,不同版本之间有细节差异,需要根据读者使用的版本自行调整. Buildroot是什 ...

  6. vue中使用jquery插件

    (1)使用npm下载安装依赖 直接npm  install  ‘插件名称’ --save   安装依赖 在main.js中引入插件的样式 在页面中直接使用 (2)直接将js文件引入到项目中 先将js文 ...

  7. XOR Queries(莫队+trie)

    题目链接: XOR Queries 给出一个长度为nn的数组CC,回答mm个形式为(L, R, A, B)(L,R,A,B)的询问,含义为存在多少个不同的数组下标k \in [L, R]k∈[L,R] ...

  8. Java 保存对象到文件并恢复 ObjectOutputStream/ObjectInputStream

    1.从inputFile文件中获取内容,读入到set对象: 2.然后通过ObjectOutputStream将该对象保存到outputFile文件中: 3.最后通过ObjectInputStream从 ...

  9. Python3 字符串操作

    截掉指定字符串 # 截掉指定字符串 string.strip("what you want to delete") #截掉字符串左边的空格 string.lstrip() #截掉字 ...

  10. WIN7下配置和使用解压缩版MYSQL

    最近mysql出了新的GA版本——mysql5.6.11,此版本windows64位下只有解压缩版,于是在win7上进行了配置.期间碰到了一些问题,在此记录一下. 一.环境 操作系统:WIN764位 ...