使用scrapy制作的小说爬虫

爬虫配套的django网站 https://www.zybuluo.com/xuemy268/note/63660

首先是安装scrapy，在Windows下的安装比较麻烦，大家好好百度下，这里就不细说了，在ubuntu下的安装

apt-get install python-dev

apt-get install python-lxml

apt-get install libffi-dev

pip install scrapy

爬取小说的话无非就是爬取两个页面，小说介绍页和小说章节页，然后又分为2种情况

小说介绍页中含有章节列表目录
小说介绍页中不含章节列表目录，但是含有指向章节列表的URL

相对于a情况来说：

def parse(self,response):

# 使用xpath，获取小说名，作者，分类，介绍，章节列表URL

#使用下面的方法获取章节列表URL可以直接使用Request（），还能直接获得章节名

#http://www.ydzww.com

    SgmlLinkExtractor(restrict_xpaths=(config.get("NovelChapterList_XPATH"),),).extract_links(response)

对于b情况：

#可以使用xpath 获取 指向章节列表的URL，如何url不完整的话可以使用

get_base_url(response) 获取域名信息，然后使用moves.urllib.parse.urljoin()进行拼接

#然后就可以使用Request（），后面的步奏基本上就和a情况一样了

#http://www.ydzww.com

插入数据库这个方面，google一下，使用twisted的数据库接口，好像这个是异步的，配合scrapy估计会更好，要是使用别的也没有关系，我用的django Model 没发现问题

提供一个网上搜出来的代码

# Cannot use this to create the table, must have table already created

from twisted.enterprise import adbapi

import datetime

import MySQLdb.cursors

class SQLStorePipeline(object):

    def __init__(self):

        self.dbpool = adbapi.ConnectionPool('MySQLdb', db='mydb',

                user='myuser', passwd='mypass', cursorclass=MySQLdb.cursors.DictCursor,

                charset='utf8', use_unicode=True)

    def process_item(self, item, spider):

        # run db query in thread pool

        query = self.dbpool.runInteraction(self._conditional_insert, item)

        query.addErrback(self.handle_error)

        return item

    def _conditional_insert(self, tx, item):

        # create record if doesn't exist.

        # all this block run on it's own thread

        tx.execute("select * from websites where link = %s", (item['link'][0], ))

        result = tx.fetchone()

        if result:

            log.msg("Item already stored in db: %s" % item, level=log.DEBUG)

        else:

            tx.execute(\

                "insert into websites (link, created) "

                "values (%s, %s)",

                (item['link'][0],

                 datetime.datetime.now())

            )

            log.msg("Item stored in db: %s" % item, level=log.DEBUG)

    def handle_error(self, e):

        log.err(e)

#该代码片段来自于: http://www.sharejs.com/codes/python/8392

#http://www.ydzww.com

另外就是爬虫控制这块，使用默认的控制，爬虫爬的太快了，有封站的危险，再有就是怕那么快，把采集站爬掉了，以后采集谁的呀？

# 同时下载个数

CONCURRENT_REQUESTS = 5

CONCURRENT_REQUESTS_PER_SPIDER = 5

CLOSESPIDER_PAGECOUNT = 100000

CLOSESPIDER_TIMEOUT = 36000

DOWNLOAD_DELAY = 1.5

RETRY_ENABLED = False

COOKIES_ENABLED = False

# http://www.ydzww.com

这个是我的配置，从我这么多天的采集来看，一分钟采集40个左右的页面，也差不多了

内容的过滤

基本上内容都是用xpath来获取的，然后章节内容也里面还使用了一些正则，去除内容里面的URL，还有一些有关采集站的信息

(http(s)?://.)?(www\.)?[-a-zA-Z0-9@:!$^&\*%.()_\+~#=\uff10-\uff40{}\[\]]{2,256}[\[\]{}!$^\*&@:%._\+~#=()][\[\]{}a-z!$^\*&@:%._\uff10-\uff40\s]{2,6}\b([\[\]-a-zA-Z0-9()@:%_\+.~#?&//=]*)

# www.ydzww.com

这个是我使用来处理内容页url的正则，到目前为止采集小说里面没有碰到处理不了的URL，要是大家能发现有处理不了的话，评论一下，我好做个修改，方便大家使用么！

爬虫比现行的小说爬虫来说，优点有以下几点：

能在linux下面完美运行，windows下面能运行，但是有时可能出现log文件乱码
通过和数据库的配置，一本小说对应一个采集站，3分钟循环监控单本小说，保证小说能够在最快的时间采集
运行快速稳定，scrapy的稳定性还是值得肯定的

已经用这个爬虫程序制作了一个小说站，易读中文网

使用scrapy制作的小说爬虫的更多相关文章

Scrapy - 小说爬虫
实例解析 - 小说爬虫页面分析共有三级页面一级页面大目录二级页面章节目录三级界面章节内容爬取准备一级界面 http://www.daomubiji.com/ 二级页面xpath 直 ...
Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...
基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
C#最基本的小说爬虫
新手学习C#,自己折腾弄了个简单的小说爬虫,实现了把小说内容爬下来写入txt,还只能爬指定网站. 第一次搞爬虫,涉及到了网络协议,正则表达式,弄得手忙脚乱跑起来效率还差劲,慢慢改吧. 爬的目标:htt ...
『Scrapy』全流程爬虫demo
建立好的爬虫工程如下: item.py 它用来存储解析后的响应文件: # -*- coding: utf-8 -*- # Define here the models for your scraped ...
Scrapy笔记10- 动态配置爬虫
Scrapy笔记10- 动态配置爬虫有很多时候我们需要从多个网站爬取所需要的数据,比如我们想爬取多个网站的新闻,将其存储到数据库同一个表中.我们是不是要对每个网站都得去定义一个Spider类呢? 其 ...
基于Scrapy的B站爬虫
基于Scrapy的B站爬虫最近又被叫去做爬虫了,不得不拾起两年前搞的东西. 说起来那时也是突发奇想,想到做一个B站的爬虫,然后用的都是最基本的Python的各种库. 不过确实,实现起来还是有点麻烦的 ...
Scrapy+Scrapyd+Scrapydweb实现爬虫可视化
Scrapy+Scrapyd+Scrapydweb实现爬虫可视化 Scrapyd是一个服务,用来运行scrapy爬虫的它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫官 ...

随机推荐

POJ 2391 容牛问题
题目大意:给定一个无向图,点i处有Ai头牛,点i处的牛棚能容纳Bi头牛,求一个最短时间T使得在T时间内所有的牛都能进到某一牛棚里去.(1 <= N <= 200, 1 <= M &l ...
COJ 1007 WZJ的数据结构（七）树上操作
传送门:http://oj.cnuschool.org.cn/oj/home/problem.htm?problemID=983 WZJ的数据结构(七) 难度级别:C: 运行时间限制:1000ms: ...
COJ 0016 20603矩阵链乘
传送门:http://oj.cnuschool.org.cn/oj/home/solution.htm?solutionID=35454 20603矩阵链乘难度级别:B: 运行时间限制:1000ms ...
nova-network创建初始化网络
nova-network创建初始化网络
mvc系统过滤器
一.系统过滤器使用说明 1.OutputCache过滤器 OutputCache过滤器用于缓存你查询结果,这样可以提高用户体验,也可以减少查询次数.它有以下属性: Duration:缓存的时间,以秒为 ...
定时关机命令——shutdown
通常会用到的定时关机命令有两种: Shutdown -s -t 36001小时后自己主动关机(3600秒) at 12:00 Shutdown -s 12:00自己主动关闭计算机系统定时关机: Wi ...
再次记录老K站点的工作策略
股市开盘了. 据说今天是多空决战的日子. 7月17日.三大期指交割. 打开大盘,看着指数一会上升,一会跳水.好不欢乐.当然,今天我是来记录我的老K,关于老K的下一步. 近期每天傍晚的时候.都会去江边散 ...
java Serializable和Externalizable序列化反序列化详解--转
一.什么是序列化? “对象序列化”(Object Serialization)是 Java1.1就开始有的特性. 简单地说,就是可以将一个对象(标志对象的类型)及其状态转换为字节码,保存起来(可以保存 ...
-bash: ulimit: open files: cannot modify limit: Operation not permitted
普通用户登录系统报错,提示: -bash: ulimit: open files: cannot modify limit: Operation not permitted. 处理方法: #vi /e ...
N!水题
//题目是求N!的问题,思路:设定一个整形数组来存放每次计算过后的值有两个for循环,第一个for循环每次加进一个数然后在第二个for循环里面计算出此时的阶乘,比如9999,先给出i=2 在第二个 ...

使用scrapy制作的小说爬虫

内容的过滤

爬虫比现行的小说爬虫来说，优点有以下几点：

使用scrapy制作的小说爬虫的更多相关文章

随机推荐

热门专题