Python 爬虫-抓取小说《盗墓笔记-怒海潜沙》

最近想看盗墓笔记，看了一下网页代码，竟然不是js防爬虫，那就用简单的代码爬下了一节：

"""

爬取盗墓笔记小说-七星鲁王宫

"""

from urllib.request import urlopen

from bs4 import BeautifulSoup

from docx import Document

import os

class Download():

    def __init__(self):

        self.baseUrl = 'http://www.daomubiji.com/nu-hai-qian-sha-'

        self.basePath = os.path.dirname(__file__)

    def makedir(self, name):

        path = os.path.join(self.basePath, name)

        isExist = os.path.exists(path)

        if not isExist:

            os.makedirs(path)

            print('File has been created.')

        else:

            print('The file is existed.')

        #切换到该目录下

        os.chdir(path)

    def connect(self, url):

        try:

            html = urlopen(url)

            print(url)

            obj = BeautifulSoup(html, 'lxml')

        except:

            print('This page is not existed.')

        return obj

    def getContent(self):

        doc = Document()

        self.makedir('storyFiles')

        for page in range(1,47):

            if page < 10:

                url = self.baseUrl + '' + str(page) + '.html'

            else:

                url = self.baseUrl + str(page) + '.html'

            obj = self.connect(url)

            content = obj.find('article', {'class': 'article-content'})

            doc.add_paragraph(content.text)

        doc.save('盗墓笔记-怒海潜沙.doc')

if __name__ == '__main__':

    obj = Download()

    obj.getContent()

Python 爬虫-抓取小说《盗墓笔记-怒海潜沙》的更多相关文章

Python 爬虫-抓取小说《鬼吹灯之精绝古城》
想看小说<鬼吹灯之精绝古城>,可是网页版的好多广告,还要一页一页的翻,还无法复制,于是写了个小爬虫,保存到word里慢慢看. 代码如下: """ 爬取< ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
C# 爬虫抓取小说
心血来潮,想研究下爬虫,爬点小说. 通过百度选择了个小说网站,随便找了一本小书http://www.23us.so/files/article/html/13/13655/index.html. 1. ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
Python爬虫 -- 抓取电影天堂8分以上电影
看了几天的python语法,还是应该写个东西练练手.刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来.做完花了两三个小时,撸了这么一个程序.反正蛮简单 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...

随机推荐

vue笔记一：设置表头的背景颜色以及下边框颜色
最近做的一个项目有个小小的需求,就是把表头的背景颜色改为黑色,表格边框颜色改为这个颜色,中间出了些问题,因为vue的表格样式是内联样式,一修改就影响到其他地方的表格样式,尽管我单独加了id还是不行,经 ...
java基础集合底层介绍
ArrayList.Vector.HashMap.HashTable.HashSet的默认初始容量.加载因子.扩容增量这里要讨论这些常用的默认初始容量和扩容的原因是: 当底层实现涉及到扩容时,容器或 ...
C++的ofstream与ifstream使用
基本理解: ofstream是从内存到硬盘,ifstream是从硬盘到内存,其实所谓的流缓冲就是内存空间; 在C++中,有一个stream这个类,所有的I/O都以这个“流”类为基础的,包括我们要认识的 ...
假如Kafka集群中一个broker宕机无法恢复，应该如何处理？
假如Kafka集群中一个broker宕机无法恢复, 应该如何处理? 今天面试时遇到这个问题, 网上资料说添加新的broker, 是不会自动同步旧数据的. 笨办法环境介绍三个broker的集群, z ...
【hive 日期函数】Hive常用日期函数整理
1.to_date:日期时间转日期函数 select to_date('2015-04-02 13:34:12');输出:2015-04-02122.from_unixtime:转化unix时间戳到当 ...
11、testng.xml文件解析
我们可以从以下几种方式调用testng 用testng.xml ant 命令行我们本次重点介绍testng.xml,testng.xml 文件来配置测试用例的执行 ,testng.xml 文件可以很 ...
2017 ICPC Asia Urumqi A.coins (概率DP + 期望)
题目链接:Coins Description Alice and Bob are playing a simple game. They line up a row of nn identical c ...
python类的实例方法、静态方法和类方法区别及其应用场景
https://blog.csdn.net/helloxiaozhe/article/details/79940321 普通实例方法,第一个参数需要是self,它表示一个具体的实例本身. 如果用了st ...
网络编程（四）——基于udp协议的套接字socket、socketserver模块的使用
基于udp协议的套接字.socketserver模块一.UDP协议(数据报协议) 1.何为udp协议不可靠传输,”报头”部分一共只有8个字节,总长度不超过65,535字节,正好放进一个IP数据包. ...
CSS3 Media Queries模板:max-width和min-width
CSS3 Media Queries模板 CSS3 Media Queries一般都是使用“max-width”和“min-width”两个属性来检查各种设备的分辨大小与样式表所设条件是否满足,如果满 ...

Python 爬虫-抓取小说《盗墓笔记-怒海潜沙》

Python 爬虫-抓取小说《盗墓笔记-怒海潜沙》的更多相关文章

随机推荐

热门专题