Beautiful Soup

简介

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

'''

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

'''

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4。

安装

pip install beautifulsoup4

解析器

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器

lxml 解析器更加强大，速度更快，推荐安装。

pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

pip install html5lib

解析器对比：

BeautifulSoup使用

BS导入

1. 导包：from bs4 import BeautifulSoup

2. 可以将一个html文档，转化为BeautifulSoup对象，然后通过对象的方法或者属性去查找指定的节点内容

    2.1 本地文件：soup = BeautifulSoup(open('本地文件'), 'lxml')

    2.2 网络数据：soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')

属性

<1>根据标签名查找

        - soup.a   只能找到第一个符合要求的标签，返回标签


<2>获取属性

        - soup.a.attrs  返回一个字典,获取a所有的属性和属性值

        - soup.a.attrs['href']   获取href属性

        - soup.a['href']   也可简写为这种形式


<3>获取内容

        - soup.a.string

        - soup.a.text

        - soup.a.get_text()    与text无区别

       【注意】如果标签还有标签，那么string获取到的结果为None，而其它两个，可以获取文本内容


<4>find：找到第一个符合要求的标签

        - soup.find('a')  找到第一个符合要求的

        - soup.find('a', title="xxx")

        - soup.find('a', alt="xxx")

        - soup.find('a', class_="xxx")

        - soup.find('a', id="xxx")


<5>find_all：找到所有符合要求的标签

        - soup.find_all('a')

        - soup.find_all(['a','b']) 找到所有的a和b标签

        - soup.find_all('a', limit=2)  限制前两个


<6>根据选择器选择指定的内容

               select:soup.select('#feng')

        - 常见的选择器：标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器

            - 层级选择器：

                div .dudu #lala .meme .xixi  下面好多级

                div > p > a > .lala          只能是下面一级

        【注意】select选择器返回永远是列表，需要通过下标提取指定的对象

方法

doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p id="my p" class="title"><b id="bbb" class="boldest">The Dormouse's story</b>

</p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

测试数据

find_all()

找到所有符合要求的标签
返回一个列表
find_all(name=None, attrs={}, recursive=True, text=None,limit=None, **kwargs)

1 name

五种过滤器：字符串、正则表达式、列表、True和方法

# 字符串:即标签名

print(soup.find_all('b'))  # [<b class="boldest" id="bbb">The Dormouse's story</b>]

# 正则表达式

print(soup.find_all(re.compile("^b")))  # 找出b开头的标签，结果有body和b标签

# 列表：如果传入列表参数，BeautifulSoup会与列表中任一元素匹配的内容返回

print(soup.find_all(['a', 'b']))  # 找到文档中所有<a>标签和<b>标签

# True: 可以匹配任何值

print(soup.find_all(True))  # 找出所有的tag

for tag in soup.find_all(True):

    print(tag.name)             # html head title body p b p a a a p

# 方法: 如果没有合适过滤器，可以定义一个方法，方法只接受一个元素参数，如果这个方法返回True, 表示当前元素匹配并且被找到，如果不是则返回False

def has_class_but_no_id(tag):

    return tag.has_attr('class') and not tag.has_attr('id')

print(soup.find_all(has_class_but_no_id))

2 按照类名查找

class关键字为class_, class_=value,value可以是五种选择器之一

print(soup.find_all('a', class_='sister'))  # 查找class为sister的a标签

print(soup.find_all('a', id='link3'))  # 查找id为link3的a标签

3 attrs

print(soup.find_all('p', attrs={'class': 'story'}))  # 查找class为story的p标签

4 text

值可以是字符、列表、True和正则

print(soup.find_all(text='Elsie'))  # ['Elsie']

print(soup.find_all('a', text='Elsie'))  # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

5 limit

限制返回结果的数量

print(soup.find_all('a', limit=2))

6 recursive

默认为True,即搜索当前tag的所有子孙节点，如果只想搜索tag的直接子节点，可以使用参数recursive=False

print(soup.html.find_all('a'))

# 局部查找

print(soup.html.find_all('a', recursive=False))

find()

find()参数与和find_all完全一样
soup.find('a') 等同于soup.a，只能找到每一个符合要求的标签

selector选择器

selector等同于css选择器

返回列表

print(soup.select('.sister'))  # 查找class为sister的标签

print(soup.select("#link2"))  # 查找id为link2的标签

print(soup.select('.c1 a'))  # 查找class为c1标签下的a标签

04 Beautiful Soup的更多相关文章

使用Beautiful Soup编写一个爬虫系列随笔汇总
这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友.通过学习Beautiful Soup基础知识完成了一个简单的爬虫服务:从all ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Python爬虫学习（11）：Beautiful Soup的使用
之前我们从网页中提取重要信息主要是通过自己编写正则表达式完成的,但是如果你觉得正则表达式很好写的话,那你估计不是地球人了,而且很容易出问题.下边要介绍的Beautiful Soup就可以帮你简化这些操 ...
推荐一些python Beautiful Soup学习网址
前言:这几天忙着写分析报告,实在没精力去研究django,虽然抽时间去看了几遍中文文档,还是等实际实践后写几篇操作文章吧! 正文:以下是本人前段时间学习bs4库找的一些网址,在学习的可以参考下,有点多 ...
错误 You are trying to run the Python 2 version of Beautiful Soup under Python 3. This will not work
Win 10 下python3.6 使用Beautiful Soup 4错误 You are trying to run the Python 2 version of Beautiful ...
Python学习笔记之Beautiful Soup
如何在Python3.x中使用Beautiful Soup 1.BeautifulSoup中文文档:http://www.crummy.com/software/BeautifulSoup/bs3/d ...
Python Beautiful Soup学习之HTML标签补全功能
Beautiful Soup是一个非常流行的Python模块.该模块可以解析网页,并提供定位内容的便捷接口. 使用下面两个命令安装: pip install beautifulsoup4 或者 sud ...
转：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup教程转
Python中使用Beautiful Soup库的超详细教程转 http://www.jb51.net/article/65287.htm 作者:崔庆才字体:[增加减小] 类型:转载时间:20 ...

随机推荐

EXBSGS
http://210.33.19.103/problem/2183 参考:https://blog.csdn.net/frods/article/details/67639410(里面代码好像不太对) ...
递推DP HDOJ 5459 Jesus Is Here
题目传送门题意:简单来说就是sn = sn-1 + sn-2递推而来,求其中所有c字符的:∑i<j:sn[i..i+2]=sn[j..j+2]=‘‘cff"(j−i) mod 530 ...
线段树(单点更新) HDOJ 2795 Billboard
题目传送门 /* 主要利用线段树求区间最值,sum[]代表位置可用空间每次找到最大值的位置功能:查询最靠前能容纳广告的位置 */ #include <cstdio> #include ...
转--oracle查看允许的最大连接数和当前连接数等信息
两个参数间的关系:sessions=1.1*processes+5 目前总结的语句,在查看数据的连接情况很有用,写完程序一边测试代码一边查看数据库连接的释放情况有助于分析优化出一个健壮的系统程序来. ...
nginx中常见的变量
$arg_PARAMETER 客户端GET请求PARAMETER的值. $args 请求中的参数. $binary_remote_addr 二进制码形式的客户端地址. $body ...
服务器php-cgi.exe进程过多，导致CPU占用100%的解决方法
再使用iis服务器中经常会出现php-cgi.exe进程过多,导致CPU占用100%,最终造成网站运行过慢甚至卡死的情况,重启iis会好一会,过一段时间久出现这种情况,为什么会出现这种情况呢,应该怎么 ...
PHP使用iconv函数遍历数组转换字符集
/** * 字符串/二维数组/多维数组编码转换 * @param string $in_charset * @param string $out_charset * @param mixed $dat ...
基于坐标的自动化测试神器---Total Control快速入门
1.Total Control简单介绍一款能够在PC上控制手机的软件,同时可以使用PC 触摸屏.鼠标.键盘, 全面操控 Android 手机,只需通过 USB 或 WiFi 连接手机至电脑,即可随时 ...
[转]Android TCP长连接心跳机制及实现
背景知识智能手机上的长连接心跳和在Internet上的长连接心跳有什么不同 Android系统的推送和iOS的推送有什么区别几种推送的实现方式协议 1XMPP简介 2 MQTT简介 3移动端消息 ...
hihocoder offer收割编程练习赛8 A 小Ho的强迫症
思路: 乱搞. 实现: #include <iostream> #include <cstdio> using namespace std; typedef long long ...

04 Beautiful Soup