python爬虫-《笔趣看》网小说《悟空看私聊》

小编是个爱看小说的人，哈哈

# -*- coding:UTF-8 -*-

'''

类说明:下载《笔趣看》网小说《悟空看私聊》

'''

from bs4 import BeautifulSoup

import requests,urllib3, sys

urllib3.disable_warnings()

class downloader(object):

    def __init__(self):

        self.server = 'http://www.biqukan.com/'

        self.target = 'http://www.biqukan.com/37_37039/'

        self.names = []            #存放章节名

        self.urls = []            #存放章节链接

        self.nums = 0            #章节数

    """

    函数说明:获取下载链接

    """

    def get_download_url(self):

        req = requests.get(url = self.target)

        html = req.text

        div_bf = BeautifulSoup(html, "html.parser")

        div = div_bf.find_all('div', class_ = 'listmain')

        a_bf = BeautifulSoup(str(div[0]))

        a = a_bf.find_all('a')

        self.nums = len(a[12:])                                #剔除不必要的章节，并统计章节数

        for each in a[12:]:

            self.names.append(each.string)

            self.urls.append(self.server + each.get('href'))

        print(self.names)

        print(self.urls)

    """

    函数说明:获取章节内容

        target - 下载连接(string)

        texts - 章节内容(string)

    """

    def get_contents(self, target):

        req = requests.get(url = target)

        aa = req.content

        bf = BeautifulSoup(aa,"html.parser")

        texts = bf.find_all('div', id = 'content')

        a = texts[0].text.replace('\xa0'*8,'\n\n')

        print(a)

        return a

    """

    函数说明:将爬取的文章内容写入文件

        name - 章节名称(string)

        path - 当前路径下,小说保存名称(string)

        text - 章节内容(string)

    """

    def writer(self, name, path, text):

        write_flag = True

        with open(path, 'a', encoding='utf-8') as f:

            f.write(name + '\n')

            f.writelines(text)

            f.write('\n\n')

if __name__ == "__main__":

    dl = downloader()

    dl.get_download_url()

    print('《悟空看私聊》开始下载：')

    for i in range(dl.nums):

        dl.writer(dl.names[i], 'D://悟空看私聊.txt', dl.get_contents(dl.urls[i]))

        sys.stdout.write("  已下载:%.5f%%" %  float(i/dl.nums*100) + '\r')

        sys.stdout.flush()

    print('《悟空看私聊》下载完成')

python爬虫-《笔趣看》网小说《悟空看私聊》的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
Python爬虫爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
项目: python爬虫福利煎蛋网妹子图
嘿嘿嘿! 嘿嘿嘿! 福利一波, 之前看小甲鱼的python教学视频的时候, 看到上面教的爬虫, 爬美女图片的, 心很痒痒, 但是不知道为啥, 按照视频一个字一个字敲的代码,总是报错, 有一天花了一下 ...
python爬虫06取当当网 Top 500 本五星好评书籍
主要思路使用 page 变量来实现翻页我们使用 requests 请求当当网然后将返回的 HTML 进行正则解析由于我们暂时还没学到数据库所以解析完之后就把内容存到文件中 def main( ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...

随机推荐

机器学习---三种线性算法的比较（线性回归，感知机，逻辑回归）（Machine Learning Linear Regression Perceptron Logistic Regression Comparison）
最小二乘线性回归,感知机,逻辑回归的比较: 最小二乘线性回归 Least Squares Linear Regression 感知机 Perceptron 二分类逻辑回归 Binary Logis ...
webapp接口安全设计思路
在做webqq或者说app开发的时候,免不了会有接口是有权限的(如查询用户敏感信息等),这时接口安全设计思路就非常重要了. 简单一点,在APP中保存登录数据,每次调用接口时传输程序员总能给自己找到偷 ...
原创：协同过滤之spark FP-Growth树应用示例
上一篇博客中,详细介绍了UserCF和ItemCF,ItemCF,就是通过用户的历史兴趣,把两个物品关联起来,这两个物品,可以有很高的相似度,也可以没有联系,比如经典的沃尔玛的啤酒尿布案例.通过Ite ...
转载：四两拨千斤：借助Spark GraphX将QQ千亿关系链计算提速20倍
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍时间 2016-07-22 16:57:00 炼数成金相似文章 (5) 原文 http://www.dataguru.cn/ ...
使用javascript获取父级元素
之前jquery用多了习惯了它那简洁的写法,后来使用ES6进行编写的时候,需要使用类似$(this).parent();来获取点击元素所属的父级元素时发现,es6中的class下的this指向是cla ...
python学习笔记一: 《python3 input()函数》
一.在学习之前需要先了解: 1.Python3.x 中 input() 函数接受一个标准输入数据,返回为 string 类型,即把任何输入看作str. 2.input可以用作文本输入,如用户名,密码框 ...
MongoDB 关系型数据库表（集合）与表（集合）之间的几种关系
简述关系数据库中表与表的 3 种关系一对一的关系:例如:一个人对应一个唯一的身份证号,即为一对一的关系. 一对多关系 :例如:一个班级对应多名学生,一个学生只能属于一个班级,即为一对多关系多对多关 ...
微信小程序之页面传参
效果图: 点击编辑值传过去了,那么编辑支出类型这个界面又是如何获取到值呢? 传值代码: type.js editType: function (e) { var typeId = e.currentT ...
css3实现左侧固宽，右侧随着屏幕，右侧随着屏幕变化而变化
A, ----float+calc(css3新属性计算属性)方式 <div class="Father"> <div class="LeftChildr ...
系统树图 | Dendrogram construction | Phylogenetic Analysis
Molecular Architecture of the Mouse Nervous System 表示亲缘关系的树状图解先看文章里是怎么做的: Dendrogram construction A ...

python爬虫-《笔趣看》网小说《悟空看私聊》

python爬虫-《笔趣看》网小说《悟空看私聊》的更多相关文章

随机推荐

热门专题