Python爬虫-爬取17K小说

随笔记录方便自己和同路人查阅。

#------------------------------------------------我是可耻的分割线-------------------------------------------

　这是一个爬取用户17k小说网站爬虫。

#------------------------------------------------我是可耻的分割线-------------------------------------------

# !/usr/bin/env python

# -*- coding: UTF-8 -*-

__author__ = 'Mr.Li'

from bs4 import BeautifulSoup

import requests, sys

"""

类说明:下载《17K》网小说

Parameters:

    无

Returns:

    无

Modify:

    2019-05-13

"""

class downloader(object):

    def __init__(self):

        """

        :rtype: object

        """

        self.server = 'http://www.17k.com'  # 网站地址

        self.target = 'http://www.17k.com/list/2731559.html'  # 目录URL地址

        self.names = []            #存放章节名

        self.urls = []            #存放章节链接

        self.nums = 0            #章节数

    """

    函数说明:获取下载链接

    Parameters:

        无

    Returns:

        无

    Modify:

        2017-09-13

    """

    def get_downloader_url(self):

        req = requests.get(self.target)  # 获取URL地址内容

        req.encoding = 'utf-8'  # 转码

        html = req.text  # 保存get到的内容

        div_bf = BeautifulSoup(html, 'html.parser')  # 使用BeautifulSoup进行解析

        div = div_bf.find_all('div', class_='Main List')  # 查询符合条件的内容

        a_bf = BeautifulSoup(str(div[0]),'html.parser')#重新解析

        a = a_bf.find_all('a')#查找元素为'a'的内容

        self.nums = len(a[11:])

        for each in a[11:]:

            self.names.append(each.string)#把章节名称添加到变量

            self.urls.append(self.server + each.get('href'))#把章节URL地址添加到变量

    """

        函数说明:获取章节内容

        Parameters:

            target - 下载连接(string)

        Returns:

            texts - 章节内容(string)

        Modify:

            2019-05-13

        """

    def get_contents(self,target):

        req = requests.get(target)#获取URL地址内容

        req.encoding = 'utf-8'#解码

        html = req.text

        bf = BeautifulSoup(html, 'html.parser')#解析

        texts = bf.find_all('div', class_='readAreaBox content')#使用查找章节正文

        texts = texts[0].text.replace('\xa0' * 8, '\n\n')#使用replace方法，剔除空格，替换为回车进行分段

        return texts

    """

    函数说明:将爬取的文章内容写入文件

    Parameters:

        name - 章节名称(string)

        path - 当前路径下,小说保存名称(string)

        text - 章节内容(string)

    Returns:

        无

    Modify:

        2019-05-13

    """

    def writer(self, name, path, text):

        write_flag = True

        with open(path, 'a', encoding='utf-8') as f:

            f.write(name + '\n')

            f.writelines(text)

            f.write('\n\n')

if __name__ == "__main__":

    dl = downloader()

    dl.get_downloader_url()

    print('《正道潜龙》开始下载：')

    for i in range(dl.nums):

        dl.writer(str(dl.names[i]), '正道潜龙.txt', dl.get_contents(dl.urls[i]))

        sys.stdout.write("  已下载:%.3f%%" %  float(i/dl.nums) + '\r')

        sys.stdout.flush()

    print('《正道潜龙》下载完成')

Python爬虫-爬取17K小说的更多相关文章

使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
使用scrapy爬虫,爬取17k小说网的案例-方法二
楼主准备爬取此页面的小说,此页面一共有125章我们点击进去第一章和第一百二十五章发现了一个规律我们看到此链接的 http://www.17k.com/chapter/271047/6336386 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...

随机推荐

Django静态文件配置、form表单、request对象、连接数据库、ORM
目录静态文件配置静态文件相关配置 1.接口前缀浏览器停用缓存 2.接口前缀动态匹配 form表单 action 控制数据提交的地址 method 控制数据提交的方法请求方法补充 get: 朝服 ...
对象和类—Java世界的细胞
对象和类-Java世界的细胞今天向大家介绍我自己关于Java中对象和类的一些体会,中有不足还请大家多多指教 1.面向对象程序设计为什么会产生面向对象我认为人们在最初探索计算机世界时,常常会从计算 ...
2022年8月20，第一组，周鹏，从1到m中随机取n个数，n<=m，显示出所有取法
static Random a1 =new Random(); static int m = a1.nextInt(20)+1;//随机取一个1到20的值 static int n = a1.next ...
2022年7月13日，第四组周鹏 JAVA认识的第一天，附加一个用JS写的计算器代码
心情:╭(╯^╰)╮ ╮(╯﹏╰)╭ (╯﹏╰)b 罒ω罒 |*´Å`)ﾉ ( Ĭ ^ Ĭ ) (ㄒoㄒ) o(╥﹏╥)o /(ㄒoㄒ)/~~ (〒︿〒) ┭┮﹏┭┮ ε(┬┬﹏┬┬)3 ε(┬┬﹏┬ ...
vlc qt player 播放器开发实例
(一)VLC-Qt下载官网地址:https://vlc-qt.tano.si/ Github 地址:https://github.com/vlc-qt 示例地址:https://github.com ...
编写异步任务@Async出现bean无法注入的问题解决方案
在编写一个异步任务时出现报错:"The bean 'asyncShenCe' could not be injected as a 'com.sinochem.api.service.imp ...
[深度学习] imgaug库使用笔记
imgaug是一款非常有用的python图像增强库,非常值得推荐应用于深度学习图像增强.其包含许多增强技术,支持图像分类,目标检测,语义分割,热图.关键点检测等一系列任务的图像增强.本文主要介绍img ...
单向绑定vs双向绑定、单向数据流vs双向数据流
参考文章:http://www.qb5200.com/article/482839.html 单双向绑定指的是View层跟Model层之间的映射关系单向绑定vs双向绑定 react采用单向绑定,vu ...
cordova第三方插件的创建,修改以及调试指南---真机调试，浏览器调试
cordova使用以及真机调试,浏览器调试创建插件点击参考此文-- 超详细手把手教你cordova开发使用指南+自定义插件插件修改注意事项--很重要每次对自己代码目录里面任何内容进行修改后都 ...
如何解决github下载很慢的问题？（已经解决）
目的是为了解决GitHub致命的下载速度慢的问题方法通过码云来导入github,通过码云下载 1.在github上面找到自己想要的项目这一步略过 2.复制github项目上面的网页链接 3.打开 ...

Python爬虫-爬取17K小说

随笔记录方便自己和同路人查阅。

Python爬虫-爬取17K小说的更多相关文章

随机推荐

热门专题