终极大招——Scrapy框架

Scrapy框架

　　Scrapy 是一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

　　Scrapy 是基于twisted框架开发而来，所以要使用 Scrapy 首先得安装 twisted 。twisted 是一个流行的事件驱动的python网络框架。因此 Scrapy 使用了一种非阻塞（又名异步）的代码来实现并发。Scrapy 的官网地址为：https://docs.scrapy.org/en/latest/topics/architecture.html

根据官网，我们知道 Scrapy 整体架构大致由7部分组成：

引擎(EGINE)：引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，之后会在数据流部分提到。
调度器(SCHEDULER)：用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。
爬虫(SPIDERS)：SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求。
下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的。
项目管道(ITEM PIPLINES)：在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作。
下载器中间件(Downloader Middlewares)：位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，你可用该中间件做以下几件事：
1. 在将请求发送到下载器之前处理请求（即在Scrapy将请求发送到网站之前）。
2. 在传递给蜘蛛之前改变接收到的响应;
3. 发送新的请求，而不是将接收到的响应传递给蜘蛛;
4. 向蜘蛛传递响应而不需要获取网页;
5. 去除某些请求
爬虫中间件(Spider Middlewares)：位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）。

由上图的整体架构可以看出，Scrapy中的数据流由执行引擎控制，如下所示：

引擎(Engine)获取最初的请求由爬虫(Spider)抓取。　
引擎(Engine)在调度程序(Scheduler)中调度请求，并要求抓取下一个请求。
调度程序(Scheduler)将下一个请求返回给引擎(Engine)。
引擎(Engine)将请求通过下载器中间件( Downloader Middlewares )发送到下载器( Downloader)（详情请参阅process_request（））。
一旦页面完成下载，下载器( Downloader)会生成一个响应（使用该页面）并通过下载器中间件( Downloader Middlewares )将其发送到引擎(Engine)。（详情请参阅process_response（））。
引擎(Engine)从下载器( Downloader)接收到响应后通过爬虫中间件( Spider Middlewares )将其发送给爬虫(Spider)进行处理。（详情请参阅process_spider_input（））。
爬虫(Spider)处理响应，并通过爬虫中间件( Spider Middlewares )将抓取的项目和新请求（后续）返回给引擎(Engine)。（详情请参阅process_spider_output（））
引擎(Engine)将已处理的项目发送到项目管道(ITEM PIPLINES)，然后将已处理的请求发送到调度程序(Scheduler)，然后询问是否有下一个请求需要进行爬网。
若有请求则重复以上步骤，直到没有更多的调度请求。

Scrapy 安装

windows安装：

    1、pip3 install wheel #安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs

    3、pip3 install lxml

    4、pip3 install pyopenssl

    5、下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/

    6、下载twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl

　　#以上步骤是因为scrapy是基于twisted实现的，所以要先安装twisted

    8、pip3 install scrapy

linux安装：

pip3 install scrapy

命令行工具

　　安装完scrapy后我们最关心的就是如何创建一个新的项目，然后展开爬虫行动。这里就需要用到命令行工具，首先我们来说创建项目。

startproject #创建项目

　　命令行分为全局命令（Global commands）和项目命令（Project-only commands）。全局命令指在任何位置都可以调用，而项目命令只能在项目中使用。

#1 查看帮助

    scrapy -h

    scrapy <command> -h

#2 有两种命令：其中Project-only必须切到项目文件夹下才能执行，而Global的命令则不需要

    Global commands:

        startproject #创建项目

        genspider    #创建爬虫程序

        settings     #如果是在项目目录下，则得到的是该项目的配置

        runspider    #运行一个独立的python文件，不必创建项目

        shell        #scrapy shell url地址  在交互式调试，如选择器规则正确与否

        fetch        #独立于程单纯地爬取一个页面，可以拿到请求头

        view         #下载完毕后直接弹出浏览器，以此可以分辨出哪些数据是ajax请求

        version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依赖库的版本

    Project-only commands:

        crawl        #运行爬虫，必须创建项目才行，确保配置文件中ROBOTSTXT_OBEY = False

        check        #检测项目中有无语法错误

        list         #列出项目中所包含的爬虫名

        edit         #编辑器，一般不用

        parse        #scrapy parse url地址 --callback 回调函数  #以此可以验证我们的回调函数是否正确

        bench        #scrapy bentch压力测试

全局命令和项目命令

　　刚才我们用到的创建项目的命令是一条全局命令，通常我们会在指定位置创建项目，所以我们先cd 文件路径切到指定位置后再执行“scrapy startproject 项目名”就能创建一个爬虫项目。

创建项目示例：

#cd 项目所在路径

scrapy startproject AMAZON#这里以爬取亚马逊举例

#这时候会有一出现AMAZON的文件夹和一个scrapy.cfg文件，scrapy.cfg里面写的是项目的部署信息，爬虫相关的配置信息在settings.py文件中

cd AMAZON#切到项目路径下

scrapy genspider amazon www.amazon.cn#创建一只叫amazon的蜘蛛，爬取的网页的域名为www.amazon.cn

#这时候在AMAZON文件夹下的spiders文件夹下就会多一个amazon.py文件

#amazon.py中：

# -*- coding: utf-8 -*-

import scrapy

#继承了scrapy.Spider类的自定义类

class AmazonSpider(scrapy.Spider):

    name = 'amazon'#爬虫名字，不可改

    allowed_domains = ['www.amazon.cn']#域名

    start_urls = ['http://www.amazon.cn/']#不设置url时默认爬这个网页

    def parse(self, response):

    #解析操作

        pass

"""

　　爬虫是一项不违法但也容易违法的行为，有些公司会不想让你爬，所以有一个ROBOTSTXT_OBEY协议，规定了如该公司的网站不允许你爬的话会另外开一个
　　专门接口放入不重要的信息用于给你爬取。在settings,py中有一条ROBOTSTXT_OBEY的配置，默认为True就是遵循该协议，我们处理爬取的数据的行为
　　不违法的情况下可以将其设置为False，以爬取所有数据

"""

注意：Scrapy默认只能在CMD中执行爬虫程序，若想在Pycharm中运行需在settings.py文件同级的目录下新建entrypoint.py，里面写入

#在项目目录下新建：entrypoint.py

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'amazon','--nolog'])#执行这条会打印默认的日志信息

# execute(['scrapy', 'crawl', 'amazon',])#执行这条为不打印日志信息

#1、执行全局命令：请确保不在某个项目的目录下，排除受该项目配置的影响

scrapy startproject MyProject

cd MyProject

scrapy genspider baidu www.baidu.com

scrapy settings --get XXX #如果切换到项目目录下，看到的则是该项目的配置

scrapy runspider baidu.py

scrapy shell https://www.baidu.com

    response

    response.status

    response.body

    view(response)

scrapy view https://www.taobao.com #如果页面显示内容不全，不全的内容则是ajax请求实现的，以此快速定位问题

scrapy fetch --nolog --headers https://www.taobao.com

scrapy version #scrapy的版本

scrapy version -v #依赖库的版本

#2、执行项目命令：切到项目目录下

scrapy crawl baidu

scrapy check

scrapy list

scrapy parse http://quotes.toscrape.com/ --callback parse

scrapy bench

CMD中执行项目的命令（一般我们都在pycharm中操作）

import sys,os

sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

关于windows编码问题

项目文件的结构以及各文件的作用如下图所示

spiders文件夹作用

　　spiders文件夹的内容是由程序员自定义的多个类组成，用于爬取一个或多个网址，具体包括如何执行爬取任务并且如何从页面中提取结构化的数据。换句话说，Spiders是你为了一个特定的网址或一组网址自定义爬取和解析页面行为的地方。

　　Spiders中的类封装了发起请求的方法和回调函数的方法，回调函数可以是多个但每一个请求都必须一个绑定回调函数以处理抓取到的网页的内容。

　　默认生成的“def start_requests(self):” 只执行一次默认从start_urls列表中获得url地址来生成Request请求，默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发。

　　回调函数用于解析response并返回值，返回值可以使4种，通常Scrapy用自带的Selectors解析内容，当然我们也可以使用Beutifulsoup，lxml或其他的。返回Item对象的话会通过项目管道（Item Pipeline）组件存到数据库或以文件的形式导出。

四种返回值：

1. 包含解析数据的字典
2. Item对象
3. 新的Request对象（新的Requests也需要指定一个回调函数）
4. 可迭代对象（包含Items或Request）

Spiders给我们提供了5个类

scrapy.spiders.Spider #scrapy.Spider等同于scrapy.spiders.Spider，使我们用的最多的类

scrapy.spiders.CrawlSpider

scrapy.spiders.XMLFeedSpider

scrapy.spiders.CSVFeedSpider

scrapy.spiders.SitemapSpider

#可链式操作

from scrapy.spiders import Spider,CrawlSpider,XMLFeedSpider,CSVFeedSpider,SitemapSpider