1.

from urllib.request import urlopen

from urllib import request

from bs4 import BeautifulSoup

from urllib.request import urlretrieve

from selenium import webdriver

import socket

import time,re

from docx import Document

from docx.oxml.ns import qn

def tackle(text):

    #print(text)

    for i in range(len(text)):

        if(text[i:i+22] == '<div class="bookname">'):

            for j in range(i+39,len(text)):

                if (text[j] == '<'):

                    name = (text[i+39:j])

                    break

            print(name)

            break

    for i in range(len(text)):

        if(text[i:i+18] == '<div id="content">'):

            text = text[i+18:]

            break

    for i in range(len(text)):

        if(text[i:i+6] == '</div>'):

            text = text[:i]

            break

    text = text.replace('…','')

    text = text.replace('」','')

    text = text.replace('「','')

    text = text.replace('<br/><br/>','')

    text = re.sub(r"\s+", "", text)#正则匹配去掉空格

    save(name,text)

def save(name,text):

    doc = Document()

    doc.styles['Normal'].font.name = u'宋体'

    doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')

    doc.add_paragraph(text)

    #保存.docx文档

    doc.save(name + '.docx')

def download(url):#下载网页

    #获取HTML

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

    req = request.Request(url, headers=headers)

    html = request.urlopen(req).read()

    #保存HTML

    file_name = 'text'

    with open (file_name.replace('/','_')+".html","wb") as f:

        f.write(html)

if __name__ == "__main__":

    #url = ''

    download(url)

    with open('text'+str(i)+'.html', 'rb') as f:

        Soup = str(BeautifulSoup(f.read(), 'html.parser'))

        tackle(Soup)

2.

from urllib import request

from bs4 import BeautifulSoup

import re,codecs

def download(url,i=0):#下载网页

#获取HTML

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

req = request.Request(url, headers=headers)

html = request.urlopen(req).read()

#保存HTML

file_name = i

with open ("{}.html".format(i),"wb") as f:

f.write(html)

with open('{}.html'.format(i), 'rb') as f:

Soup = str(BeautifulSoup(f.read(), 'html.parser')) #把html转化为string

return Soup

def save(name,txt): # 得到标题和正文之后，保存为txt

f = codecs.open("{}.txt".format(name),'w','utf-8')

f.write(txt)

def tackle(url,i):

Soup = download(url,i) # 获取字符串，字符串内容为整个网页

pattern_title = '

' #匹配，其中.代表匹配中间全部字符（除了换行）

mp = re.search(pattern_title,Soup) #正则搜索

title = mp.group()[12:-6] # group方法返回搜索结果的字符串形式，并把字符串中

和

去掉

start = Soup.find('

')

end = Soup.find('</p>

')

pattern_body = Soup[start+34:end] #标记正文位置

save(title+'.txt',pattern_body)

if name == "main":

Soup = download('path') # 小说目录网址

place = [substr.start() for substr in re.finditer('http://www.ncwxw.cc/0/298/8',Soup)] # 字符串匹配，确定所有章节的网址位置

place = place[13:] #预处理

website = [] #存储每一章的网址

for chapter in place:

website.append(Soup[chapter:chapter+36])

'''以上适用于每一章节网址无规律的情况，若有规律则可直接变址寻址'''

for i in range(1,1979):

tackle(website[i],i)

python爬虫下载小说的更多相关文章

python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
Python爬虫下载Bilibili番剧弹幕
本文绍如何利用python爬虫下载bilibili番剧弹幕. 准备: python3环境需要安装BeautifulSoup,selenium包 phantomjs 原理: 通过aid下载bilibi ...
python爬虫下载小视频和小说(基础)
下载视频: 1 from bs4 import BeautifulSoup 2 import requests 3 import re 4 import urllib 5 6 7 def callba ...
Python爬虫-爬小说
用途用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊. 如果下载不到txt,那不如自己把txt爬下来好了. 功能将小说取回,去除HTML标签记录已爬过 ...
Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)
从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说 ...
如何丧心病狂的使用python爬虫读小说
写在前边其实一直想入门python很久了,慕课网啊,菜鸟教程啊python的基础的知识被我翻了很多遍了,但是一直没有什么实践.刚好,这两天被别人一直安利一本小说<我可能修的是假仙>,还在 ...
Python爬虫下载美女图片（不同网站不同方法）
声明:以下代码,Python版本3.6完美运行一.思路介绍不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从 ...
使用Python爬虫整理小说网资源-自学
第一次接触python,原本C语言的习惯使得我还不是很适应python的语法风格.希望读者能够给出建议. 相关的入门指导来自以下的网址:https://blog.csdn.net/c406495762 ...

随机推荐

RabbitMQ 入门系列：2、基础含义理解：链接、通道、队列、交换机
系列目录 RabbitMQ 入门系列:1.MQ的应用场景的选择与RabbitMQ安装. RabbitMQ 入门系列:2.基础含义:链接.通道.队列.交换机. RabbitMQ 入门系列:3.基础含义: ...
LeetCode 593. 有效的正方形（向量做法）
题目题目链接:593. 有效的正方形题意:给出二维平面上四个点的坐标,判断这四个点是否能构成一个正方形,四个点的输入顺序不做任何保证. 思路通过向量运算可以很轻松地解决这道题.任取一点向其他三点 ...
有意思的方向裁切 overflow: clip
本文将介绍一个新特性,从 Chrome 90 开始,overflow 新增的一个新特性 -- overflow: clip,使用它,轻松的对溢出方向进行控制. overflow: clip 为何首先 ...
FFT/NTT 学习笔记
0. 前置芝士基础群论复数 \(\mathbb C = \mathbb R[x^2+1]\) 则有 \(i^2+1=(-i)^2+1=0\),\(i \in \mathbb C - \mathbb ...
KingbaseES V8R3 由于修改系统时间导致sys_rman备份故障案例
案例说明: 此案例,为复现"current time may be rewound"错误.对于数据库环境,在使用前必须保证系统时间的正确性.如果数据库创建后,再将系统时间修改为 ...
Docker 入门指南
Docker 入门指南目录基础概念安装教程基本操作常用安装构建操作容器编排壹.基础概念什么是Docker? Docker是基于Go开发的应用容器引擎,属于 Linux 容器的一种封装 ...
[机器学习]-分类问题常用评价指标、混淆矩阵及ROC曲线绘制方法
分类问题分类问题是人工智能领域中最常见的一类问题之一,掌握合适的评价指标,对模型进行恰当的评价,是至关重要的. 同样地,分割问题是像素级别的分类,除了mAcc.mIoU之外,也可以采用分类问题的一些 ...
AVL Tree (1) - Definition, find and Rotation
1. 定义 (15-1) [AVL tree]: 一棵空二叉树是 AVL tree; 若 T 是一棵非空二叉树, 则 T 满足以下两个条件时, T 是一棵 AVL tree: T_LeftSubtre ...
Ubuntu20.04本地安装Redash中文版
一.安装基础环境: # 1.更换APT国内源 sudo sed -i s@/cn.archive.ubuntu.com/@/mirrors.aliyun.com/@g /etc/apt/sources ...
使用 Windows 包管理器 (winget) 安装 .Net
用户可以在 Windows 10 和 Windows 11 计算机上使用 winget 命令行工具来发现.安装.升级.删除和配置应用程序. 此工具是 Windows 程序包管理器服务的客户端接口. 以 ...

python爬虫下载小说

1.

2.

python爬虫下载小说的更多相关文章

随机推荐

热门专题