python爬虫之小说网站--下载小说(正则表达式)

思路:

1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/2447.html)

2.分析自己要得到的内容,首先分析url,发现只有后面的是变化的，先获得小说的没有相对路径，然后组合成新的url(每章小说的url)

3.获得每章小说的内容，进行美化处理

代码如下:

#小说爬虫

import requests

import re

url='https://www.kanunu8.com/book4/10509/'

#因为编码原因,先获取二进制内容再进行解码

txt=requests.get(url).content.decode('gbk') #当前小说编码为"gbk2312"

m1=re.compile(r'<td colspan="4" align="center"><strong>(.+)</strong>')

#print(m1.findall(txt))

m2=re.compile(r'<td( width="25%")?><a href="(.+\.html)">(.+)</a></td>')

#print(m2.findall(txt))

raw=m2.findall(txt) #获得小说的目录以及对应的每个章节的相对路径

sanguo=[]

for i in raw:

    sanguo.append([i[2],url+i[1]])  #生成每个章节的url

#print(sanguo)

m3=re.compile(r'<p>(.+)</p>',re.S)  #每章节小说内容

m4=re.compile(r'<br />')            #<br />小说内容中的符号

m5=re.compile(r'&nbsp;&nbsp;&nbsp;&nbsp;')

with open('中国合伙人1.txt','a') as f:

    for i in sanguo:

        i_url=i[1]  #i[1]为小说章节url

        print("正在下载----->",i[0])    #i[0]为小说章节目录

        r_nr=requests.get(i_url).content.decode('gbk')

        n_nr=m3.findall(r_nr)

        #print(n_nr)

        n=m4.sub('',n_nr[0]) #把n_nr[0]中"<br />"替换为空

        n2=m5.sub('',n)

        f.write('\n'+i[0]+'\n') #把小说的目录写入文件

        f.write(n2)

运行效果如下：

保存的内容如下:

python爬虫之小说网站--下载小说(正则表达式)的更多相关文章

初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...
【Python 爬虫系列】从某网站下载小说《鬼吹灯》,正则解析html
import re import urllib.request import urllib.parse import urllib.error as err import time # 下载 seed ...
Python爬虫帮你打包下载所有抖音好听的背景音乐，还不快收藏一起听歌【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...
Python爬虫某招聘网站的岗位信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
python爬虫05 | 年轻人，不会正则表达式你睡得着觉？有点出息没有？
现在你已经会使用 python 模拟浏览器进行一些 Http 的请求了那么请求完之后服务器返回给我们一堆源代码我们可不是啥都要的啊我们是有原则的我们想要的东西怎么能一股脑的啥都往自己兜 ...

随机推荐

Mysql加锁过程详解（5）-innodb 多版本并发控制原理详解
Mysql加锁过程详解(1)-基本知识 Mysql加锁过程详解(2)-关于mysql 幻读理解 Mysql加锁过程详解(3)-关于mysql 幻读理解 Mysql加锁过程详解(4)-select fo ...
https://finance.sina.com.cn/realstock/company/sh600522/nc.shtml
https://finance.sina.com.cn/realstock/company/sh600522/nc.shtml http://hq.sinajs.cn/list=sh601006
教你如何在React及Redux项目中进行服务端渲染
服务端渲染(SSR: Server Side Rendering)在React项目中有着广泛的应用场景基于React虚拟DOM的特性,在浏览器端和服务端我们可以实现同构(可以使用同一份代码来实现多端 ...
分布式系统监视zabbix讲解五之web监控--技术流ken
Web 监控概况你可以使用 Zabbix 检查几个网站可用性方面. 如果要使用 Web 检测功能,必须在编译Zabbix 的时候加入 cURL(libcurl) 的支持. 要使用 Web 监控, ...
Chrome插件开发，美化网页上的文件列表。chrome-extension，background
上一篇文章通过“content-scripts”的方式向页面注入js和css来美化页面,但是有一个弊端:一旦配置好需要注入的页面,之后如果这个页面地址以后发生变化,或者要新加一些URL进来,那么得修 ...
JDBC&Hibernate
当数据库有大量用户来访问要采取什么技术解决可以采用连接池: 什么是ORM 对象关系映射(Object Relational Mapping 简称ORM)是一种为了解决面向对象与面向关系数据库存在的互 ...
OAuth2.0 授权码理解
OAuth2.0授权模式本篇文章介绍OAuth的经典授权模式,授权码模式所谓授权无非就是授权与被授权,被授权方通过请求得到授权方的同意,并赋予某用权力,这个过程就是授权. 那作为授权码 ...
Java 学习笔记判断一个数组是否有序
思路升序:每次比较数组中的两个数的时候,最大的数一定是前一个降序: 每次比较数组中的两个数的时候,最小的数一定是前一个 Flag1和flag2都是假的时候,返回flase,否则,返回flase 代 ...
vbscript 语言通过序列和ADODB实现取号不重复
目的:通过VBScript脚本利用序列的性质,实现取号不重复首先,表空间中创建表名为TABLE_YEWID的表格,主要有以下几个字段 -- Create table create table TAB ...
JavaScript中8个常见的陷阱
译者按: 漫漫编程路,总有一些坑让你泪流满面. 原文: Who said javascript was easy ? 译者: Fundebug 为了保证可读性,本文采用意译而非直译.另外,本文版权归原 ...

python爬虫之小说网站--下载小说(正则表达式)

python爬虫之小说网站--下载小说(正则表达式)的更多相关文章

随机推荐

热门专题