bs4-爬取小说
bs4
安装
pip install bs4
pip install lxml
bs4有两种运行方式一种是处理本地资源,一种是处理网络资源
本地
from bs4 import BeautifulSoup
if __name__ == '__main__':
fr = open("wl.html",'r',encoding="utf8")
soup=BeautifulSoup(fr,'lxml')
print(soup)
网络
from bs4 import BeautifulSoup
import requests
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}
if __name__ == '__main__':
url="https://www.cnblogs.com/zx125/p/11404486.html"
res=requests.get(url=url,headers=headers)
soup=BeautifulSoup(res.text,'lxml')
print(soup)
实例化对象的方法
soup.tagname
直接返回第一个tag
标签的内容
#返回第一个a标签对象
soup.a
soup.find()
#效果和上面类似
soup.find(tagname)
#class_为tagname上的class内的属性
soup.find(tagname,class_="")
#有以下属性
class_ id attr
双重定位 属性定位 但是只拿一个
soup.find_all()
#用法和上面相同但是可以拿到满足条件的所有数据
soup.find(tagname,class_="")
soup.select()
#它支持css的选择器
select('某种选择器 #id .class 标签...'),返回的是一个列表
层级选择
soup.select('.zx > ul > li > a')一个>表示一个层级
soup.select('.zx > ul a')也可以这样写,一个空格代表以下的任意层级,并找到所有的a
获取标签的文本内容
soup.select('.zx > ul a').tagname.text/string/get_text()
text/get_text()获取标签下面所有的文本内容
string只获取直系的文本
获取标签中的属性值
a["href"]
基本使用
from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml') #具有容错功能
res=soup.prettify() #处理好缩进,结构化显示
案例爬取小说标题和内容
import requests
from bs4 import BeautifulSoup
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}
def work():
url="http://www.shicimingju.com/book/sanguoyanyi.html"
res=requests.get(url=url,headers=headers).text
#读取首页信息
soup=BeautifulSoup(res,"lxml")
#获取所有标题存在的a标签
titles=soup.select(".book-mulu > ul > li > a")
with open("./sangup.txt","w",encoding="utf8")as fw:
for i in titles:
#获取标题名称
title=i.text
#获取文章内容的url,并拼接成有效的请求链接
url_title="http://www.shicimingju.com"+i['href']
res2=requests.get(url=url_title,headers=headers).text
soup2=BeautifulSoup(res2,"lxml")
#获取每个章节的文章内容
content=soup2.find("div",class_="chapter_content").text
context_all=title+"\n"+content+"\n"
#将标题和文章内容写入本地文件
fw.write(context_all)
print(title+"写入成功")
if __name__ == '__main__':
work()
参考链接
https://www.cnblogs.com/xiaoyuanqujing/articles/11805757.html
https://www.jianshu.com/p/9254bdc467b2
bs4-爬取小说的更多相关文章
- python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
- python之爬取小说
继上一篇爬取小说一念之间的第一章,这里将进一步展示如何爬取整篇小说 # -*- coding: utf- -*- import urllib.request import bs4 import re ...
- 用Python爬取小说《一念永恒》
我们首先选定从笔趣看网站爬取这本小说. 然后开始分析网页构造,这些与以前的分析过程大同小异,就不再多叙述了,只需要找到几个关键的标签和user-agent基本上就可以了. 那么下面,我们直接来看代码. ...
- python3下BeautifulSoup练习一(爬取小说)
上次写博客还是两个月以前的事,今天闲来无事,决定把以前刚接触python爬虫时的一个想法付诸行动:就是从网站上爬取小说,这样可以省下好多流量(^_^). 因为只是闲暇之余写的,还望各位看官海涵:不足之 ...
- Python实战项目网络爬虫 之 爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
- python实战项目 — 使用bs4 爬取猫眼电影热榜(存入本地txt、以及存储数据库列表)
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
- Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑 一 准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
- 使用request+bs4爬取所有股票信息
爬取前戏 我们要知道利用selenium是非常无敌的,自我认为什么反爬不反爬都不在话下,但是今天我们为什么要用request+bs4爬取所有股票信息呢?因为他比较原始,因此今天的数据,爬取起来也是比较 ...
- Golang 简单爬虫实现,爬取小说
为什么要使用Go写爬虫呢? 对于我而言,这仅仅是练习Golang的一种方式. 所以,我没有使用爬虫框架,虽然其很高效. 为什么我要写这篇文章? 将我在写爬虫时找到资料做一个总结,希望对于想使用Gola ...
- Python3爬取小说并保存到文件
问题 python课上,老师给同学们布置了一个问题,因为这节课上学的是正则表达式,所以要求利用python爬取小说网的任意小说并保存到文件. 我选的网站的URL是'https://www.biquka ...
随机推荐
- PowerBI开发 第十六篇:PowerBI Service基本概念
从总体上来看,PowerBI Service 有4个主要的构建模块,分别是dashboards.reports.workbooks 和 datasets,这四个模块都是目录,位于workspaces目 ...
- Docker应用部署
MySQL: #拉取mysql镜像 docker pull centos/mysql--centos7 #创建容器 #-p 端口映射 -e添加环境变量MYSQL_ROOT_PASSWORD 是root ...
- C++学习笔记1_ 指针.引用
1.引用的本质struct typeA{ int &a;}struct typeB{ int *a;}int main(void){ cout<<sizeof(struct typ ...
- 关于Ubuntu10.04磁盘空间不足的问题
最近由于项目问题,需要自己写驱动,但是驱动知识太少,开始下了个内核自己玩玩,没想到的是内核下好了,Ubuntu待机后却登录不了了,重启了好几次也不行,而且颜色是蓝色,右上角还提示:Install pr ...
- python实现清屏
往常都是用os.system("cls")清屏,但是发现每次执行完这个命令后都会出现一个空白字符 尝试了一下午,网上也没解决的办法 最后: os.system("cls& ...
- Django学习day8——admin后台管理和语言适应
Django最大的优点之一,就是体贴的为你提供了一个基于项目model创建的一个后台管理站点admin.这个界面只给站点管理员使用,并不对大众开放. 1. 创建管理员用户 (django) E:\Dj ...
- Pandas分类(category)数据处理
分类(Category)数据:直白来说,就是取值为有限的,或者说是固定数量的可能值.例如:性别.血型 指定数据类型构建分类数据 dtype="category" 以血型为例,创建一 ...
- 用css或js实现文本输入框的特效
1文本框默认点击特效: 点击文本框,外围会出现蓝色阴影,取消该特效,为该文本框添加css样式"outline:none;",就取消了默认特效. 2实现百度搜索框点击特效: 点击文本 ...
- python学习之【第五篇】:Python中的元组及其所具有的方法
1.前言 Python的元组(tuple)与列表很相似,不同之处在于元组不能被修改,即元组一旦创建,就不能向元组中的增加新元素,不能删除元素中的元素,更不能修改元组中元素.但是元组可以访问任意元素,可 ...
- SSHD服务安全的连接
SSHD服务 SSH 安全的远程连接 OpenSSH 工具 centos服务端的包:openssh-server centos客户端的包:openssh-clients 主要配置文件一般安装完成后再/ ...