介绍

Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

使用方法

(1) 根据标签名查找

    - suop.a 只能找到第一个符合要求的标签

(2) 获取属性值

    - suop.a.attrs         获取a所有的属性和属性值,返回一个字典

    - suop.a.attrs["href"] 获取href属性值

    - suop.a["href"]       简写为这种形式

(3) 获取内容

    - suop.a.string        获取标签中直系的文本内容

    - suop.a.text          获取所有标签中的文本内容

    - suop.a.get_text()    获取所有标签中的文本内容

   【注意】如果标签中还有标签,那么string获取到的结果为None,其他两个方法可以获取到文本内容

(4) find 找到第一个符合要求的标签

    - suop.find("a")       找到第一个符合要求的

    # 根据标签中的属性获取指定的a标签

    - suop.find("a", class_="xxx")  # class是关键字需要加_

    - suop.find("a", id="xxx")

    - suop.find("a", href="xxx")

    - suop.find("a", alt="xxx")

    - suop.find("a", tetle="xxx")

    # 可以和获取内容的方法连用

    - suop.find("a",href="/hecheng/27.html").text

(5) find_all 找到所有符合要求的标签

    - suop.find_all("a")

    - suop.find_all(["a","p"])  找到所有a标签和p标签

    - suop.find_all(["a","p"],limit=2)   取前两个

(6) 根据选择器选择指定的内容

    select:suop.select("#id")

    - 常见的选择器:标签选择器(a)|类选择器(.)|id选择器(#)|层级选择器

    - 层级选择器:

        div .mm         div下面所有class属性值为mm的,子子孙孙,下面多级

        div > .dd       div儿子级class属性为dd的,下面一级

    【注意】查询到的是所有数据,返回列表

项目演示

import requests

import lxml

from bs4 import BeautifulSoup

url = "http://www.shicimingju.com/book/sanguoyanyi.html"

response = requests.get(url).text

suop = BeautifulSoup(response,'lxml') # 实例化对象,使用lxml进行解析

a_list = suop.select('.book-mulu > ul > li > a')

url = "http://www.shicimingju.com"

for a in a_list:

    fiction_name = a.string   # 小说章节名称

    fiction_url = url+a["href"]  # 小说章节url地址

    response = requests.get(fiction_url).text  # 请求每个章节的url地址

    suop = BeautifulSoup(response,'lxml')

    content = suop.find("div",class_="chapter_content").text  # 获取标签内所有文本数据

    with open("./{}.txt".format(fiction_name),"w",encoding="utf-8") as fp:

        fp.write(content)

print("下载成功！！！")

select选择器选择a标签中的文本内容和gref属性

效果

爬虫之解析库BeautifulSoup的更多相关文章

Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
爬虫解析库——BeautifulSoup
解析库就是在爬虫时自己制定一个规则,帮助我们抓取想要的内容时用的.常用的解析库有re模块的正则.beautifulsoup.pyquery等等.正则完全可以帮我们匹配到我们想要住区的内容,但正则比较麻 ...
爬虫----爬虫解析库Beautifulsoup模块
一:介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
爬虫之解析库-----re、beautifulsoup、pyquery
一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
爬虫解析库BeautifulSoup的一些笔记
BeautifulSoup类使用基本元素说明 Tag 标签,最基本的信息组织单元,分别是<>和</>标明开头和结尾 Name 标签的名字,<p></p ...
爬虫解析库beautifulsoup
一.介绍 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库. #安装Beautiful Soup pip install beautifulsoup4 #安装解析 ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
解析库beautifulsoup
目录一.介绍二.遍历文档树三.搜索文档树(过滤) 四.修改文档树五.总结一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的 ...

随机推荐

VMware Workstation虚拟机安装
VMware Workstation虚拟机安装我们缺乏资金, 所以吃土.我们想搭 hadoop 集群, redis 集群, k8s 集群, 怎么办? 用虚拟机!! 一. 安装普通版本(Worksta ...
CAS 5.x搭建常见问题系列(3).Failure to find org.apereo.cas:cas-server-support-pm-jdbc:jar:5.1.9
错误内容 cas overlay的pom.xml增加了cas-server-support-pm-jdbc.jary依赖后, 打包(mvn package)出现如下的报错 D:\casoverlay\ ...
Spring Boot 多个域名指向同一IP
一.需求:直接通过域名访问首页(同一应用下,多个首页,包括PC端.手机端首页) 方法:采用多个域名绑定同一IP下同一应用,不同域名对应不同产品(PC.手机端)的方法,在后台通过拦截器判断 reques ...
MyBatis核心组件
SqlSessionFactoryBuilder (构造器) 会根据配置或者代码来生成SqlSessionFactory SqlSessionFactory (工厂接口) 以后他来生成SqlSessi ...
computed和watch的使用场景
转载地址:https://blog.csdn.net/yuwenshi12/article/details/78561372 从作用机制和性质上看待methods,watch和computed的关系 ...
面对runc逃逸漏洞，华为云容器为您保驾护航
背景信息基于runc运行时的容器存在安全漏洞,攻击者可以通过恶意容器镜像等方式获取宿主机root执行权限.漏洞CVE-2019-5736的详细信息,请参见 https://cve.mitre.org ...
Paper Reading:ION
Inside-Outside Net (ION) 论文:Inside-Outside Net: Detecting Objects in Context with Skip Pooling and R ...
《流畅的Python》 A Pythonic Object--第9章
Python的数据模型data model, 用户可以创建自定义类型,并且运行起来像内建类型一样自然. 即不是靠继承,而是duck typing. 支持用内建函数来创建可选的对象表现形式.例如repr ...
部署kibana节点
部署Kibana节点 1.查看系统环境: [root@Kibana ~]# hostname Kibana [root@Kibana ~]# cat /etc/redhat-release CentO ...
C语言——for循环和while循环的效率区别——类似哨兵思想
int ID_Conv_Sentinel(int u16device_cfg_num) { int i8id; int size=0; int i=0; size = sizeof(Device_ID ...

爬虫之解析库BeautifulSoup

介绍

使用方法

项目演示

select选择器选择a标签中的文本内容和gref属性

效果

爬虫之解析库BeautifulSoup的更多相关文章

随机推荐

热门专题