使用 Beautiful Soup

Beautiful Soup 用法：

(1) 前面我们爬取一个网页，都是使用正则表达式来提取想要的信息，但是这种方式比较复杂，一旦有一个地方写错，就匹配不出来了，因此我们可以使用 Beautiful Soup 来进行提取
(2) Beautiful Soup 就是 Python 的一个 HTML 或 XML 的解析库，可以用它来方便地从网页中提取数据，我们可以通过 pip 来安装 Beautiful Soup：pip3 install beautifulsoup4

import re

from bs4 import BeautifulSoup

html = '''

    <!DOCTYPE html>

    <html lang="en">

    <head>

        <meta charset="UTF-8">

        <title>首页</title>

    </head>

    <body>

        <p id="username">This is your username</p>

        <p id="password">This is your password</p>

    </body>

    </html>

'''

soup = BeautifulSoup(html, 'lxml')    # 初始化一个BeautifulSoup对象，接收一个HTML文本和'lxml'解析器作为参数，lxml解析器用于解析HTML或XML文档

result = soup.title           # 表示提取<title>节点，结果为：<title>首页</title>

result = soup.title.name      # 表示提取<title>节点的名字，结果为：title

result = soup.title.string    # 表示提取<title>节点的文本内容，结果为：首页

result = soup.head.title      # 表示提取<head>节点下的<title>节点，结果为：<title>首页</title>

result = soup.p.attrs         # 表示提取<p>节点的所有属性，结果为：{'id': 'username'}

result = soup.p.attrs['id']   # 表示提取<p>节点的属性为id的值，结果为：username

result = soup.body.contents   # 表示提取<body>节点包含的所有内容，结果为：['\n', <p id="username">This is your username</p>, '\n', <p id="password">This is your password</p>, '\n']

result = soup.body.children   # 表示提取<body>节点包含的所有内容，结果返回一个生成器，内容跟contents的内容一样，只不过我们要用for循环去遍历出来

result = soup.p.parent        # 表示提取<p>节点的父节点的内容，结果为：<body>....</body>

result = soup.find_all(name='head')                # 根据节点名来提取所有节点，结果为：[<head><meta charset="utf-8"/><title>首页</title></head>]

result = soup.find_all(attrs={'id': 'username'})   # 根据属性值来提取所有节点，结果为：[<p id="username">This is your username</p>]

result = soup.find_all(text=re.compile('your'))    # 根据文本内容来提取所有节点，结果为：['This is your username', 'This is your password']

result = soup.find_all(name='head')                # find_all()用于提取所有节点，find()用于提取匹配到的第一个节点

result = soup.select('title, #username')           # select()可以使用CSS选择器进行提取，关于CSS选择器参考：https://www.cnblogs.com/pzk7788/p/10530050.html

使用 Beautiful Soup的更多相关文章

使用Beautiful Soup编写一个爬虫系列随笔汇总
这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友.通过学习Beautiful Soup基础知识完成了一个简单的爬虫服务:从all ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Python爬虫学习（11）：Beautiful Soup的使用
之前我们从网页中提取重要信息主要是通过自己编写正则表达式完成的,但是如果你觉得正则表达式很好写的话,那你估计不是地球人了,而且很容易出问题.下边要介绍的Beautiful Soup就可以帮你简化这些操 ...
推荐一些python Beautiful Soup学习网址
前言:这几天忙着写分析报告,实在没精力去研究django,虽然抽时间去看了几遍中文文档,还是等实际实践后写几篇操作文章吧! 正文:以下是本人前段时间学习bs4库找的一些网址,在学习的可以参考下,有点多 ...
错误 You are trying to run the Python 2 version of Beautiful Soup under Python 3. This will not work
Win 10 下python3.6 使用Beautiful Soup 4错误 You are trying to run the Python 2 version of Beautiful ...
Python学习笔记之Beautiful Soup
如何在Python3.x中使用Beautiful Soup 1.BeautifulSoup中文文档:http://www.crummy.com/software/BeautifulSoup/bs3/d ...
Python Beautiful Soup学习之HTML标签补全功能
Beautiful Soup是一个非常流行的Python模块.该模块可以解析网页,并提供定位内容的便捷接口. 使用下面两个命令安装: pip install beautifulsoup4 或者 sud ...
转：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时 ...
Beautiful Soup教程转
Python中使用Beautiful Soup库的超详细教程转 http://www.jb51.net/article/65287.htm 作者:崔庆才字体:[增加减小] 类型:转载时间:20 ...
Beautiful Soup第三方爬虫插件
什么是BeautifulSoup? Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的 ...

随机推荐

【转】jmeter 如何将上一个请求的结果作为下一个请求的参数——使用正则提取器
1.简介 Apache JMeter是Apache组织开发的基于Java的压力测试工具.用于对软件做压力测试,它最初被设计用于Web应用测试但后来扩展到其他测试领域. 它可以用于测试静态和动态资源例如 ...
HBase什么时候作minor major compact
HBase什么时候做minor major compact我们都知道compact分为两类,一类叫Minor compact ,一类叫Major compact,两者有什么区别呢?两者的区别在于:Mi ...
《FPGA全程进阶---实战演练》第二十一章细说低速与高速电路设计之电阻电容电感磁珠
1.1 什么是高速电路信号的最高频率成分是取决于有效频率,而不是周期频率. 高速电路的定义是根据信号的有效频率来计算的,在现实世界中,任何信号都是由多个频率分量的正弦波叠加而成的.定义各正弦波分 ...
tortoiseSVN 合并代码方法
http://blog.csdn.net/zhuyong0722/article/details/8965095 转自:http://tangzhifei.iteye.com/blog/1143553 ...
elasticsearch系列三：索引详解（分词器、文档管理、路由详解（集群））
一.分词器 1. 认识分词器 1.1 Analyzer 分析器在ES中一个Analyzer 由下面三种组件组合而成: character filter :字符过滤器,对文本进行字符过滤处理,如 ...
Python encode() 方法
描述 encode() 方法以指定的编码格式编码字符串,默认编码为 'utf-8'. 对应的解码方法:bytes decode() 方法. 语法 encode() 方法语法: S.encode([e ...
OpenMP并行编程应用—加速OpenCV图像拼接算法
OpenMP是一种应用于多处理器程序设计的并行编程处理方案,它提供了对于并行编程的高层抽象.仅仅须要在程序中加入简单的指令,就能够编写高效的并行程序,而不用关心详细的并行实现细节.减少了并行编程的难度 ...
Saltstack配置管理
制作简单初始化模块(在minion主机安装软件): 1.定义master配置文件file_roots [root@localhost~]# cat /etc/salt/master file_root ...
安卓开发笔记——GridView组件
1.什么是GridView? GridView(网格视图)是按照行列的方式来显示内容的,一般用于显示图片,图片等内容,比如实现九宫格图,用GridView是首选,也是最简单的. 2.正文 GridVi ...
nginx配置ThinkPHP配置
配置时注意红色部分 server { listen 8888 default_server; #listen [::]:80 default_server; server_name _; root / ...

使用 Beautiful Soup

使用 Beautiful Soup的更多相关文章

随机推荐

热门专题