(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接

放假这段时间好好的思考了一下关于Scrapy的一些常用操作，主要解决了三个问题：

1.如何连续爬取

2.数据输出方式

3.数据库链接

一，如何连续爬取：

思考：要达到连续爬取，逻辑上无非从以下的方向着手

1)预加载需要爬取的列表，直接到这个列表都处理完，相应的爬取工作都已经完成了。

2)从第一页开始爬取，遇到有下一页标签的，那继续爬取，如果没有下一页类似的标签，那表示已经爬到最后一页

3)分析当前页面的所有链接，对于链接符合某种特定规则的，继续爬取，如果没有那表示爬取工作完成(此时需要建立已经爬取列表，防止重复操作)

一般会于定向的爬虫，比如爬取某宝或者某东的数据时，可以采用方式一，二，写好规则就可以了，也方便维护。

1.1对于预加载的列表，那根据需要生成列表就可以了。

在start_urls 里面生成相应的列表就可以，这里引入一个概念，列表推导式。

我们将代码变换成如下：

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from cnblogs.items import CnblogsItem

class CnblogsSpider(BaseSpider):

    name = "cnblogs"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        'http://www.cnblogs.com/#p%s' % p for p in xrange(1, 11)

        ]

    def parse(self, response):

        self.log("Fetch douban homepage page: %s" % response.url)

        hxs = HtmlXPathSelector(response)

        # authors = hxs.select('//a[@class="titlelnk"]')

        items = hxs.select('//a[contains(@class, "titlelnk")]')

        listitems = []

        for author in items:

            # print author.select('text()').extract()

            item = CnblogsItem()

            # property

            item['Title'] = ''.join(author.select('text()').extract())

            item['TitleUrl'] = author.select('@href').extract()

            listitems.append(item)

        return listitems

在这里，start_urls里面使用列表推导式，爬出了一共10页的数据。

1.2对于爬取下一页实现全趴取的过程，就需要使用yield关键字

我们就虫师的博客来进行测试实验：

http://www.cnblogs.com/fnng/default.aspx?page=1

这里介绍一个scrapy 一个非常有用的技巧，scrapy shell ，因为使用 xpath 可以帮助我们调试xpath语法(或者使用firebug又或者是chrome都可以)

语法：scrapy shell http://你要调试xpath的网址

这里我就不继续讲xpath的语法了，自己去搜一下，相比正则要相对简单好理解。

相应的Spider可以这样编写：

# -*- coding: utf-8 -*-

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from cnblogs.items import CnblogsItem

from scrapy.http import Request

from scrapy import log

# please pay attention to the encoding of info,otherwise raise error of decode

import sys

reload(sys)

sys.setdefaultencoding('utf8')

class BlogsSpider(BaseSpider):

    name = "cnblogs_blogs"

    allowed_domains = ["cnblogs.com"]

    start_urls = [

        'http://www.cnblogs.com/fnng/default.aspx?page=1'

        ]

    def parse(self, response):

        hxs = HtmlXPathSelector(response)

        # authors = hxs.select('//a[@class="titlelnk"]')

        # sel.xpath('//a[@class="PostTitle"]').xpath('text()')

        items = hxs.select('//a[@class="PostTitle"]')

        a_page = hxs.select('//div[@id="pager"]/a')

        for a_item in items:

            item = CnblogsItem()

            # property

            item['Title'] = ''.join(a_item.xpath('text()').extract())

            item['TitleUrl'] = a_item.xpath('@href').extract()

            yield item

        # get the page index

        log.msg(len(a_page))

        if len(a_page) > 0:

            for a_item in a_page:

                page_text = ''.join(a_item.xpath('text()').extract())

                if page_text == '下一页'.encode('utf-8') or 'Next' in page_text:

                    next_url = ''.join(a_item.xpath('@href').extract())

                    log.msg(next_url)

                    yield Request(next_url, callback=self.parse)

                    break

我们来运行看看效果如何:

所有的数据完整，效果还是不错的。

关于第三种，以规则来规划爬虫的机制，在以后会介绍 :)

二，数据输出的方式：

上面的scrapy命令是：scrapy crawl cnblogs_blogs --nolog -o cnblogs_blogs.json -t json

那结果输出的就是json格式的文件,-t 指的是输出文件格式，json ，-t 支持下列参数：

xml
csv
json
jsonlines
jl
pickle
marshal

一般选择xml ,csv,json三种格式就够了，这样可以很方便的导入各种数据库。

更多的参考：http://doc.scrapy.org/en/latest/topics/feed-exports.html

三，数据库连接：

数据保存为文件的形式然后导入是一个不错的选择，不过一般都会有一定的IO开销，一般可以将Item直接保存到数据库中，这个时候就要引入pipelines这个部件了。

在我们项目的根目录下有一个名为:pipelines.py文件，我们在设置里面首先启用这个文件，在启用之后，spider得到的item都会传入到这个部件中进行二次处理，

3.1在settings.py中启用pipelines

ITEM_PIPELINES = {

    'cnblogs.pipelines.CnblogsPipelineobj': 300,

}

注意命名方式：botname.moudlename.classname 要不然会找不到指定的模块。

3.2 编写pipelines

# -*- coding: utf-8 -*-

import MySQLdb

import MySQLdb.cursors

import logging

from twisted.enterprise import adbapi

class CnblogsPipelineobj(object):

    def __init__(self):

        self.dbpool = adbapi.ConnectionPool(

                dbapiName ='MySQLdb',

                host ='127.0.0.1',

                db = 'cnblogs',

                user = 'root',

                passwd = '密码',

                cursorclass = MySQLdb.cursors.DictCursor,

                charset = 'utf8',

                use_unicode = False

        )

    # pipeline dafault function

    def process_item(self, item, spider):

        query = self.dbpool.runInteraction(self._conditional_insert, item)

        logging.debug(query)

        return item

    # insert the data to databases

    def _conditional_insert(self, tx, item):

        parms = (item['Title'], item['TitleUrl'])

        sql = "insert into blogs values('%s','%s') " % parms

        #logging.debug(sql)

        tx.execute(sql)

OK.运行一下看一下效果如何

中文数据得以保存，OK

总结：本次主要多三个方向来解决连续爬取文章内容，并将获得内容保存的问题，不过文中主要介绍的，还是以定向为基础的爬取，和以规则来构建的爬虫还是有区别，下篇文章将介绍。

(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接的更多相关文章

(5)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置
软件版本: redis-2.4.6-setup-64-bit.exe — Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下 ...
(2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍
本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法: 一,猜想我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) ...
(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参
本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫. 我们选从逻辑上来看,这种爬虫是如何工作的: 我们给定一个起点的url link ,进入页面之后提 ...
(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)
转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能 ...
(1)分布式下的爬虫Scrapy应该如何做-安装
关于Scrapy的安装,网上一搜一大把,一个一个的安装说实话是有点麻烦,那有没有一键安装的?答案显然是有的,下面就是给神器的介绍: 主页:http://conda.pydata.org/docs/ 下 ...
(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)
转载请注明出处:http://www.cnblogs.com/codefish/p/4993809.html 最近在群里频繁的被问到ajax和js的处理问题,我们都知道,现在很多的页面都是用动态加载的 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
另类爬虫：从PDF文件中爬取表格数据
简介本文将展示一个稍微不一样点的爬虫. 以往我们的爬虫都是从网络上爬取数据,因为网页一般用HTML,CSS,JavaScript代码写成,因此,有大量成熟的技术来爬取网页中的各种数据.这次, ...
吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中
1.下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮上面这张图直接Next 把bin路径添加 ...

随机推荐

POJ 1681 Painter's Problem 【高斯消元二进制枚举】
任意门:http://poj.org/problem?id=1681 Painter's Problem Time Limit: 1000MS Memory Limit: 10000K Total ...
【转】JS gzip加密字符串并base64输出
http://blog.csdn.net/zunwei/article/details/49886115 最近开发中遇到一些问题,关于js怎么给一个字符串进行字节流加密.下面就详细说下做法. 首先引入 ...
Ueditor插入script标签
对于这个问题.我想有的人会遇到有的人不会遇到,后面说为什么. 有的人会百度解决问题.百度官方文档这样回答然而你去editor_config.js搜索根本找不到这个配置.(百度你该更新了.....) ...
shell命令查看某文件夹下的文件个数
shell命令查看某文件夹下的文件个数 2010-06-25 17:05:15| 分类: shell |字号订阅 1.查看某文件夹下文件的个数: ls -l |grep "^-&qu ...
火狐 SSL 收到了一个弱临时 Diffie-Hellman 密钥
火狐 SSL 收到了一个弱临时 Diffie-Hellman 密钥最近在用FireFox 调试时使用Https,连接 https网址时发生错误. 在服务器密钥交换握手信息中 SSL 收到了一个 ...
apache开启.htaccess及使用方法
1 . 如何让的本地APACHE器.htaccess 如何让的本地APACHE呢?其实只要简朴修改一下apache的httpd.conf设置就让APACHE.htaccess开启了,来看看操作打开h ...
DBCacheServer服务升级
前段时间完成了该服务的设计的功能,花了很多时间和经历,最终完成了一个版本,已经测试了:现在后期再次在以前的基础上,完成了一些扩展. 1.扩展了内存存储最初版本只是采用了gauva cache进行存储 ...
css3响应式布局设计——回顾
响应式设计是在不同设备下分辨率不同显示的样式就不同. media 属性用于为不同的媒体类型规定不同的样式.根绝浏览器的宽度和高度重新渲染页面. 语法: @media mediatype and | n ...
js替换字符串中的空格，换行符\r\n或\n替换成<br>
为了让回车换行符正确显示,需要将 \n 或 \r\n 替换成 <br>.同样地,将空格替换存 .这里我们通过正则表达式来替换. 一.替换所有的空格.回车换行符 //原始字符串 var s ...
HTTP基本内容
*********************HTTP基本交互*************************** HTTP请求格式:HTTP 请求由三部分组成:请求行.请求头和请求正文请求行: 请求方 ...

(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接

(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接的更多相关文章

随机推荐

热门专题