Python3利用BeautifulSoup4抓取站点小说全文的代码

再写一个用BeautifulSoup抓站的工具，体会BeautifulSoup的强大。

根据小说索引页获取小说全部章节内容并在本地整合为小说全文。不过不是智能的，不同的站点对代码需要做相应的修改。

#!/usr/bin/env python

import os

import sys

import re

import time

import chardet

import urllib.request as ur

from urllib.parse import urljoin,urlparse

from bs4 import BeautifulSoup

from threading import Thread

class Download(Thread):                          #为每个章节分配多线程

    def __init__(self,filepath,info):

        Thread.__init__(self)

        self.filepath = filepath

        (self.link,self.chapter) = info

    def run(self):

        print('开始下载： '+self.chapter)

        section(self.filepath,self.chapter,self.link)

        print('完成下载： '+self.chapter)

def getData(url):                          #主要用于判断页面编码，但是发现BeautifulSoup自带判定能力，故废弃此函数

    charsets = 'utf8'

    response = ur.urlopen(url,timeout = 10)

    html = response.read()

    charinfo = chardet.detect(html)

    charsets = charinfo['encoding']

    data = html.decode(charsets)

    return data

def merge(tmpFiles,targetFile):             #将下载的章节合并

    for tmpFile in tmpFiles:

        with open(targetFile,'a+') as wfile:

            wfile.write(open(tmpFile,'r').read())

        os.remove(tmpFile)

def content(link):                         #获取章节页面的小说内容。对于不同的站点，在此函数内修改获取章节内容的代码

    html = ur.urlopen(link,timeout = 10)

    soup =BeautifulSoup(html)

    contents = soup.find(id = 'readtext').p.span.text.replace('  ','\n')   #BeautifulSoup会自动将&nbsp;转换为空格，<br/>转换为特殊符号

    return contents

def section(filepath,chapter,link):         #下载章节内容

    while True:                #反复请求页面

        try:

            with open(filepath,'w') as nfile:

                nfile.write(chapter+'\n'+content(link)+'\n')

            break

        except:

            pass

def index(url):                         #获取章节索引

    indexs = []

    while True:                   #反复请求页面

        try:

            html = ur.urlopen(url,timeout = 10)

            #html = html.read().decode('gb2312')

            #html = getData(url)

            soup = BeautifulSoup(html,from_encoding = 'gbk')#BeautifulSoup能自动识别编码，但是会将gbk页面识别为gb2312页面，可能导致页面内部分数据获取失败，故显式指定

            break

        except:

            pass

    title = soup.find(name = 'div',attrs = {'class':'booktext'}).text

    indexDiv = soup.find(name = 'div',attrs = {'class':'booktext'})

    indexUl = [ul for ul in indexDiv.find_all('ul') if ul][1:]

    for ul in indexUl:

        indexList = [li.a for li in ul.find_all('li') if li]

        index = [(urljoin(url,a.get('href')),a.text) for a in indexList if a]

        indexs +=index

    return indexs

def novel(url):

    tmpFiles = []

    tasks = []

    try:

        indexs = index(url)

        tmpDir = os.path.join(os.getcwd(),'tmp')

        if not os.path.exists(tmpDir):             #创建章节片段存放的临时目录

            os.mkdir(tmpDir)

        for i,info in enumerate(indexs):

            tmpFile = os.path.join(tmpDir,str(i))

            tmpFiles.append(tmpFile)

            task = Download(tmpFile,info)            #开启新线程下载章节内容

            task.setDaemon(True)

            task.start()

            tasks.append(task)

            if len(tasks) >= 20:                  #将线程总数控制在20个以内，如果线程过多会导致程序崩溃

                while len([task for task in tasks if task.isAlive()]):

                    print( '进度： {} / {}'.format(i+1-len([task for task in tasks if task.isAlive()]),len(indexs)))  #显示下载进度

                    time.sleep(2)

                tasks = []

            if i == len(indexs) - 1:

                while len([task for task in tasks if task.isAlive()]):

                    print( '进度： {} / {}'.format(len(indexs) - len([task for task in tasks if task.isAlive()]),len(indexs)))

                    time.sleep(2)

        print( '进度： {} / {}'.format(len(indexs),len(indexs)))

        print('开始整合......')

        merge(tmpFiles,os.path.join(os.getcwd(),title+'.txt'))

        print('下载成功！')

    except Exception as ex:

        print(ex)

        print('下载失败！')

        sys.exit()

def main(argv):

    try:

        novel(argv[0])

    except KeyboardInterrupt as kbi:            #使用<C-c>中断下载后仍然能将已下载的章节合并

        tmpDir = os.path.join(os.getcwd(),'tmp')

        if os.path.exists(tmpDir):

            tmpFiles = [os.path.join(tmpDir,tfile) for tfile in os.listdir(tmpDir) if os.path.isfile(os.path.join(tmpDir,tfile))]

            print('开始整合不完整的下载......')

            try:

                merge(tmpFiles,os.path.join(os.getcwd(),'不完整文档.txt'))

                if os.path.exists(os.path.join(os.getcwd(),'不完整文档.txt')):

                    print('部分章节下载成功！')

                else:

                    print('下载失败！')

            except:

                print('下载失败！')

                sys.exit()

            os.rmdir(tmpDir)

        else:

            print('下载失败！')

            sys.exit()

    if os.path.exists(os.path.join(os.getcwd(),'tmp')):

        os.rmdir(os.path.join(os.getcwd(),'tmp'))

if __name__ == "__main__":

    if len(sys.argv) > 1:

        main(sys.argv[1:])

    #http://www.lueqiu.com/

截图：

Python3利用BeautifulSoup4抓取站点小说全文的代码的更多相关文章

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
对比使用Charles和Fiddler两个工具及利用Charles抓取https数据（App）
对比使用Charles和Fiddler两个工具及利用Charles抓取https数据(App) 实验目的:对比使用Charles和Fiddler两个工具实验对象:车易通App,易销通App 实验结果 ...
利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容在做 Web 信息提取.数据挖掘的过程中,一个关键步骤就是网页源代码的获取.但是出于各种原因 ...
利用Fiddler抓取websocket包
一.利用fiddler抓取websockt包打开Fiddler,点开菜单栏的Rules,选择Customize Rules... 这时会打开CustomRules.js文件,在class Handl ...
Python3.x：抓取百事糗科段子
Python3.x:抓取百事糗科段子实现代码: #Python3.6 获取糗事百科的段子 import urllib.request #导入各类要用到的包 import urllib import ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
利用wireshark抓取远程linux上的数据包
原文发表在我的博客主页,转载请注明出处. 前言因为出差,前后准备总结了一周多,所以博客有所搁置.出差真是累人的活计,不过确实可以学习到很多东西,跟着老板学习做人,学习交流的技巧.入正题~ wires ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
Python3利用BeautifulSoup4批量抓取站点图片的代码
边学边写代码,记录下来.这段代码用于批量抓取主站下所有子网页中符合特定尺寸要求的的图片文件,支持中断. 原理很简单:使用BeautifulSoup4分析网页,获取网页<a/>和<im ...

随机推荐

@RequestMapping用法详解
@RequestMapping是一个用来处理请求地址映射的注解,可用于类或方法上.用于类上,表示类中的所有响应请求的方法都是以该地址作为父路径. RequestMapping注解有六个属性,下面我们把 ...
iptables--简单的防火墙
iptables--简单的防火墙如果你执行iptables --list你将看到防火墙上的可用规则.下例说明当前系统没有定义防火墙,你可以看到,它显示了默认的filter表,以及表内默认的input ...
MAXIMO-数据库配置属性数据类型解释
ALN: 字母数字字符,混合大小写,最大长度取决于数据库 Oracle = 4000 个字符 Sql Server = 8000 个字符 DB2 = 32672 个 ...
基于springmvc和restClient的rest服务的测试
在开发中,不熟悉驱动驱动测试开发的coder往往喜欢将服务应用启动以后测试,对于GET请求可以直接在浏览器中输入URL就可以,参数非中文可以直接追加到URL后.但是,对于其他请求方式的测试必须借助相应 ...
JTAG 学习 -SVF格式
yxr注: 主要zt,附上自己的心得如下: 1)反观SVF文件,除了设置必要的条件之外(初始条件和TIR等四条命令),真正的运行命令就两条,SIR向JTAG TAP状态机的IR寄存器送命令,SDR往J ...
解决openssl: error while loading shared libraries: libssl.so.1.1: cannot open shared object file: No such file or directory错误
问题在Centos7上编译安装openssl后,运行openssl version出现如下错误: openssl: error while loading shared libraries: lib ...
C# iis错误配置信息( 500.21 - Internal Server Error )
新电脑安装完开发环境后,还需要注册framework4.0到IIS.不然会报错: HTTP 错误 500.21 - Internal Server Error 处理程序"Extensionl ...
---bind 配置
http://blog.csdn.net/zjunjun/article/details/7419125
Linq的一些很方便的方法
Aggregate Aggregate我用的最多的地方就是拼接字符串,打个比方来说,如果有数组,想要的结果是在他们之间插入一个","然后返回拼接以后的新字符串. 常规的做法是: L ...
C++ 内存的分配方式（摘选自网络）
在c++中有三种分配内存的方式: 在许多大大公司在面试的时候很可能考到的内容.在这里和大家分享了!1. 静态存储区,是在程序编译时就已经分配好的,在整个运行期间都存在,如全局变量.常量.2. 栈上分配 ...

Python3利用BeautifulSoup4抓取站点小说全文的代码

Python3利用BeautifulSoup4抓取站点小说全文的代码的更多相关文章

随机推荐

热门专题