学习使用re做解析器爬小说

一、背景：近期学习python爬虫中看到，在对网页内容进行解析的技术中，re正则表达式工具也是一个很好的工具，使用re编制爬虫工具正好熟悉re正则表达式的使用。

二、环境及爬取目标

1、linux centos7系统

2、小说网站：http://www.xbiquge.la/15/15158 ，小说名称《汉乡》。

三、爬取思路

1、爬取目录页面，获得章节链接和标题List列表文件

2、根据章节链接和标题List列表文件内容，逐一爬取小说各章节，并写入预设文件名。

四、代码实现（代码文件名：test7.py）

#-*- coding:utf-8 -*-
import requests
import re
#通过目录页面获取小说各章节链接和标题列表
url="http://www.xbiquge.la/15/15158/"
html=requests.get(url).content.decode("utf-8")      #获取目录页面内容
#print(html)
catalog=re.findall('<dd><a href=\'(/15/15158/\d+.html)\' >(.+?)</a></dd>', html, re.S)    #返回章节链接和标题List列表文件，其中？表示使用非贪婪模式。
#print(catalog[0], catalog[len(catalog)-1])    #测试显示起始和结束章节的链接和标题

#获取小说各章节内容并输出为预设文件
novelname="汉乡_test7.txt"
count_begin=0
#count_end=2 #调试用
count_end=len(catalog)
with open(novelname, mode="a", encoding="utf-8") as f:
        for i in range(count_begin,count_end):
            #print(catalog[i][0])
            url_c="http://www.xbiquge.la" + catalog[i][0]           #获得小说各章节的链接
            title=catalog[i][1]
            print("正在下载----------", title)
            html_c=requests.get(url_c).content.decode("utf-8")       #获得章节页面
            #print(html_c)
            text_l=re.findall('<div id="content">(.*?)</div>', html_c, re.S)    #获得章节内容
            text1=text_l[0].replace('    ', '').replace('<br />', '\n').replace('\15', '') #消除多余字符，其中\15是^M字符的八进制值
            text=re.sub(r'<p>.*?</p>', '', text1, 0, re.S)   #消除每个章节的广告段落，re.sub方法有五个参数：正则表达式规则、替代字符串、被替代的字符串、count、flag，count为0表示全部替换，flag设为re.S表示.代表的字符包含换行符\n。
            #print(text)
            f.write(title)
            f.write('\n\n')
            f.write(text)
            f.write('\n\n')
f.close()

五、运行：

(base) [python@ELK ~]$ python test7.py
正在下载---------- 第一章预言
正在下载---------- 第二章被烧焦了
正在下载---------- 第三章虎外婆
正在下载---------- 第四章始皇帝的太宰
正在下载---------- 第五章大人为上,礼为尊

......

学习使用re做解析器爬小说的更多相关文章

学习使用pyquery解析器爬小说
一.背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本.正好学习一 ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
学习SpringMVC——说说视图解析器
各位前排的,后排的,都不要走,咱趁热打铁,就这一股劲我们今天来说说spring mvc的视图解析器(不要抢,都有位子~~~) 相信大家在昨天那篇如何获取请求参数篇中都已经领略到了spring mvc注 ...
XML学习笔记——关于XML解析器
本篇文章基于W3C而写在Firefox及其他浏览器中的XML解析器(除IE) var xmlDoc=document.implementation.createDocument("&quo ...
高性能Java解析器实现过程详解
如果你没有指定数据或语言标准的或开源的Java解析器, 可能经常要用Java实现你自己的数据或语言解析器.或者,可能有很多解析器可选,但是要么太慢,要么太耗内存,或者没有你需要的特定功能.或者开源解析 ...
SpringMVC——说说视图解析器
学习SpringMVC——说说视图解析器各位前排的,后排的,都不要走,咱趁热打铁,就这一股劲我们今天来说说spring mvc的视图解析器(不要抢,都有位子~~~) 相信大家在昨天那篇如何获取请 ...
vert.x学习（四），使用模板解析器ClassLoaderTemplateResolver
在vert.x中使用模板解析,可以为我们带来很多方便.我这里学习了一下ClassLoaderTemplateResolver的简单使用.这次工程配置与上篇一样,不需要做任何多的配置.直接编写代码就可以 ...
DjangoRestFramework 学习之restful规范 APIview 解析器组件 Postman等
DjangoRestFramework学习一之restful规范.APIview.解析器组件.Postman等本节目录一预备知识二 restful规范三 DRF的APIView和解析器组件 ...
day89 DjangoRsetFramework学习---restful规范,解析器组件,Postman等
DjangoRsetFramework学习---restful规范,解析器组件,Postman等本节目录一预备知识二 restful规范三 DRF的APIView和解析 ...

随机推荐

自动化运维工具Ansible之Tests测验详解
Ansible Tests 详解与使用案例主机规划添加用户账号说明: 1. 运维人员使用的登录账号: 2. 所有的业务都放在 /app/ 下「yun用户的家目录」,避免业务数据乱放: 3. 该用 ...
B. Preparing for Merge Sort
$考虑的时候,千万不能按照题目意思一组一组去模拟$ $要发现每组的最后一个数一定大于下一组的最后一个数$ $那我们可以把a中的数一个一个填充到vec中$ #include <bits ...
【Spark】RDD的依赖关系和缓存相关知识点
文章目录 RDD的依赖关系宽依赖窄依赖血统 RDD缓存概述缓存方式 RDD的依赖关系 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency) 和宽依赖 ...
【HBase】Java实现过滤器查询
目录概述代码实现 rowKey过滤器RowFilter 列族过滤器FamilyFilter 列过滤器QualifierFilter 列值过滤器ValueFilter 专用过滤器单列值过滤器 Si ...
JDBC02 加载JDBC驱动建立连接
JDBC(Java Database Connection)为Java开发者使用数据库提供了统一的编程接口 sun公司由于不知道各个主流商用数据库的程序代码,因此无法自己写代码连接各个数据库,因此su ...
【Docker】在本地打包maven程序为docker镜像报错： Connect to localhost:2375 [localhost/127.0.0.1, localhost/0:0:0:0:0:0:0:1]
错误信息: [ERROR] Failed to execute goal com.spotify:docker-maven-plugin:1.0.0:build (default-cli) on pr ...
学习python的第一天，python的简单知识
python 是现如今比较火的一种编程语言.在抱着试试的态度我来进行学习下python.要学习python 要先进行环境的安装. 下面是下载链接:https://pan.baidu.com/s/1PW ...
python--遇到SyntaxError: Non-UTF-8 code starting with '\xb8' in file
在运行python中因为添加了中文注释,遇到SyntaxError: Non-UTF-8 code starting with '\xb8' in file 经过百度,说是Python的默认编码格式是 ...
C# Sign In With Apple苹果登陆后端验证
苹果App授权登录苹果官方的授权文档: 生成Token:https://developer.apple.com/documentation/sign_in_with_apple/generate_a ...
node的url模块
.parse(url,query2obj[boolean],ignorePrototype[boolean]) .format({}) 和.parse相反,将带有url参数属性的对象组装成url .r ...

学习使用re做解析器爬小说

学习使用re做解析器爬小说的更多相关文章

随机推荐

热门专题