python 爬虫系列02-小说

本爬虫为网络上的..

# # -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# import requests

# if __name__ == '__main__':

#     target = 'https://www.biqukan.com/1_1094/17967679.html'

#     req = requests.get(url=target)

#     html = req.text

#     bf = BeautifulSoup(html)

#     tests = bf.find_all('div', class_ = 'showtxt')

#     print(tests)

# -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# import requests

# if __name__ == "__main__":

#      target = 'http://www.biqukan.com/1_1094/5403177.html'

#      req = requests.get(url = target)

#      html = req.text

#      bf = BeautifulSoup(html)

#      texts = bf.find_all('div', class_ = 'showtxt')

#      print(texts[0].text.replace('\xa0'*8,'\n\n'))

# -*- coding:UTF-8 -*-

#

# -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# # import requests

# #

# # if __name__ == "__main__":

# #     server = 'http://www.biqukan.com/'

# #     target = 'http://www.biqukan.com/1_1094/'

# #     req = requests.get(url=target)

# #     html = req.text

# #     div_bf = BeautifulSoup(html)

# #     div = div_bf.find_all('div', class_='listmain')

# #     a_bf = BeautifulSoup(str(div[0]))

# #     a = a_bf.find_all('a')

# #     for each in a:

# #         print(each.string, server + each.get('href'))

# -*- coding:UTF-8 -*-

from bs4 import BeautifulSoup

import requests, sys

"""

类说明:下载《笔趣看》网小说《一念永恒》

Parameters:

    无

Returns:

    无

"""

class downloader(object):

    def __init__(self):

        self.server = 'http://www.biqukan.com/'

        self.target = 'http://www.biqukan.com/1_1094/'

        self.names = []  # 存放章节名

        self.urls = []  # 存放章节链接

        self.nums = 0  # 章节数

    """

    函数说明:获取下载链接

    Parameters:

        无

    Returns:

        无

    Modify:

        2017-09-13

    """

    def get_download_url(self):

        req = requests.get(url=self.target)

        html = req.text

        div_bf = BeautifulSoup(html)

        div = div_bf.find_all('div', class_='listmain')

        a_bf = BeautifulSoup(str(div[0]))

        a = a_bf.find_all('a')

        self.nums = len(a[15:])  # 剔除不必要的章节，并统计章节数

        for each in a[15:]:

            self.names.append(each.string)

            self.urls.append(self.server + each.get('href'))

    """

    函数说明:获取章节内容

    Parameters:

        target - 下载连接(string)

    Returns:

        texts - 章节内容(string)

    Modify:

        2017-09-13

    """

    def get_contents(self, target):

        req = requests.get(url=target)

        html = req.text

        bf = BeautifulSoup(html)

        texts = bf.find_all('div', class_='showtxt')

        texts = texts[0].text.replace('\xa0' * 8, '\n\n')

        return texts

    """

    函数说明:将爬取的文章内容写入文件

    Parameters:

        name - 章节名称(string)

        path - 当前路径下,小说保存名称(string)

        text - 章节内容(string)

    Returns:

        无

    Modify:

        2017-09-13

    """

    def writer(self, name, path, text):

        write_flag = True

        with open(path, 'a', encoding='utf-8') as f:

            f.write(name + '\n')

            f.writelines(text)

            f.write('\n\n')

if __name__ == "__main__":

    dl = downloader()

    dl.get_download_url()

    print('《一年永恒》开始下载：')

    for i in range(dl.nums):

        dl.writer(dl.names[i], '一念永恒.txt', dl.get_contents(dl.urls[i]))

        sys.stdout.write("  已下载:%.3f%%" % float(i / dl.nums) + '\r')

        sys.stdout.flush()

    print('《一年永恒》下载完成')

python 爬虫系列02-小说的更多相关文章

python 爬虫系列教程方法总结及推荐
爬虫,是我学习的比较多的,也是比较了解的.打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了. 爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来. 而访问页 ...
$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
Python爬虫系列 - 初探：爬取旅游评论
Python爬虫目前是基于requests包,下面是该包的文档,查一些资料还是比较方便. http://docs.python-requests.org/en/master/ POST发送内容格式爬 ...
python爬虫系列（2）—— requests和BeautifulSoup
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
python爬虫入门02：教你通过 Fiddler 进行手机抓包
哟~哟~哟~ hi起来 everybody 今天要说说怎么在我们的手机抓包通过 python爬虫入门01:教你在Chrome浏览器轻松抓包我们知道了 HTTP 的请求方式以及在 Chrome 中 ...
Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...
【数量技术宅 | Python爬虫系列分享】实时监控股市重大公告的Python爬虫
实时监控股市重大公告的Python爬虫小技巧精力有限的我们,如何更加有效率地监控信息? 很多时候特别是交易时,我们需要想办法监控一些信息,比如股市的公告.如果现有的软件没有办法实现我们的需求,那么就 ...
【Python 爬虫系列】从某网站下载小说《鬼吹灯》,正则解析html
import re import urllib.request import urllib.parse import urllib.error as err import time # 下载 seed ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
Python爬虫系列（三）：requests高级耍法
昨天,我们更多的讨论了request的基础API,让我们对它有了基础的认知.学会上一课程,我们已经能写点基本的爬虫了.但是还不够,因为,很多站点是需要登录的,在站点的各个请求之间,是需要保持回话状态的 ...

随机推荐

前端mock利器：randomjson
randomjson的应用场景前后端分离时,前端根据后端提供的数据模型模拟后端请求.如果数据写死,每次返回的都一样,这个时候randomjson就能派上用场了.在前端规定数据类型,每次用random ...
MATLAB读取写入文本数据最佳方法 | Best Method for Loading & Saving Text Data Using MATLAB
MATLAB读取文件有很多方法.然而笔者在过去进行数据处理中,由于函数太多,相互混杂,与C#,Python等语言相比,反而认为读取文本数据比较麻烦.C#和Python等高级语言中,对于大部分的文本数据 ...
请教一个Jquery ligerui 框架的小问题
关闭子窗体时,要刷新父窗体,百度了很多像使用“window.opener.location.reload();”都不行,和easyui框架是有区别的在子窗体里写Response.Write(&quo ...
MongoDB整理笔记のSharding分片
这是一种将海量的数据水平扩展的数据库集群系统,数据分表存储在sharding 的各个节点上,使用者通过简单的配置就可以很方便地构建一个分布式MongoDB 集群.MongoDB 的数据分块称为 chu ...
js工具库简单介绍
javascript mvc的解决方案: angularjs, backbone,underscore, 有空的时候了解一下. 移动端的几个需要了解一下,jq mobile, zepto.knocko ...
asp.net mvc 请求处理流程，记录一下。
asp.net mvc 请求处理流程,记录一下.
「POJ 1741」Tree
题面: Tree Give a tree with n vertices,each edge has a length(positive integer less than 1001). Define ...
[JSOI2009]计数问题二维树状数组BZOJ 1452
题目描述一个n*m的方格,初始时每个格子有一个整数权值.接下来每次有2种操作: 改变一个格子的权值: 求一个子矩阵中某种特定权值出现的个数. 输入输出格式输入格式: 第一行有两个数N,M. 接下来 ...
maven No compiler is provided environment
eclipse maven操作正常出现的No compiler is provided in this environment. Perhaps you are running on a JRE ra ...
Svn安装成功后的操作
一.服务器端创建目录在Svn服务器端创建一个用来保存客户端提交文件的文件夹 (我的路径是d:/Svn/App/book) 首先将Svn的服务端安装目录/bin 进行环境配置,以下操作是在进行环境配置 ...

python 爬虫系列02-小说

python 爬虫系列02-小说的更多相关文章

随机推荐

热门专题