scrapy爬虫学习系列二：scrapy简单爬虫样例学习

系列文章列表：

scrapy爬虫学习系列一：scrapy爬虫环境的准备：　　 http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html

scrapy爬虫学习系列二：scrapy简单爬虫样例学习：　　http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html

scrapy爬虫学习系列三：scrapy部署到scrapyhub上：　 http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html

scrapy爬虫学习系列四：portia的学习入门：　　　　　 http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html

scrapy爬虫学习系列五：图片的抓取和下载： http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_011_scrapy05.html

scrapyhub上有些视频简单介绍scrapy如何学习的（貌似要翻墙）：https://helpdesk.scrapinghub.com/support/solutions/articles/22000201028-learn-scrapy-video-tutorials-

本博客的源码下载地址（github） :https://github.com/zhaojiedi1992/tutorial

在上一个学习系列一种，我们简单了解了小scrapy的一些概念和基本环境的搭建，接下来就开始创建工程和爬虫吧。

1 创建工程

1.1先创建一个目录，用于我们后续的scrapy目录（e:\scrapytest)

Win+R 快捷键 输入cmd 启动一个cmd创建，进行一下输入。
C:\Users\Administrator>e:
 
E:\>cd e:\scrapytest
 
e:\scrapytest>scrapy startproject tutorial
New Scrapy project 'tutorial', using template directory 'C:\\Program Files\\Anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
    e:\scrapytest\tutorial
 
You can start your first spider with:
    cd tutorial
    scrapy genspider example example.com
 
e:\scrapytest>

我们发现使用scrapy startproject tutorial 给我们创建了许多文件，文件树结构如下：

e:\scrapytest>tree  /f
卷 新加卷 的文件夹 PATH 列表
卷序列号为 0000004B D20B:
E:.
└─tutorial
    │  scrapy.cfg                    #开发配置文件
    │
    └─tutorial                       #工程模块
        │  items.py　　　　　　　　　　　　
        │  middlewares.py　　　　　　　#定义数据条目的定义，可以理解为一行记录
        │  pipelines.py　　　　　　　　#定义数据导出类，用于数据导出
        │  settings.py　　　　　　　　 #工程设置文件
        │  __init__.py　　　　　　　　#空文件
        │
        ├─spiders　　　　　　　　　　　#爬虫目录，用于放置各种爬虫类文件
        │  │  __init__.py　　　　　　#空文件
        │  │
        │  └─__pycache__　　　　　　　#这个文件不用管它
        └─__pycache__    　　　　　　#这个文件不用管它

通过上面的一条简单的命令，我们就创建了一个工程，有了工程，没有爬虫啊，接下里我们就创建一个爬虫吧。

2 创建爬虫

我们使用scrapy genspider quotes quotes.toscrape.com去创建一个爬虫。

scrapy genspider 使用方法： scrapy genspider [options] <name> <domain>

可以使用scrapy genspider -h 获取详细帮助或者从官方获取shell帮助https://docs.scrapy.org/en/latest/topics/commands.html

e:\scrapytest\tutorial>scrapy genspider quotes quotes.toscrape.com
Created spider 'quotes' using template 'basic' in module:
  tutorial.spiders.quotes

注意：使用pycharm 打开tutorial项目,需要对python的环境进行设置（我机器上python环境太多了），使用File->Settings->Project:tutorial->Project Interpreter 选择我们特定的python.exe。如下图：

3 完善我们的爬虫

修改我们的爬虫文件（quotes.py）内容如下：

# -*- coding: utf-8 -*-
import scrapy
 
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ["http://quotes.toscrape.com/"]
    start_urls = ['http://quotes.toscrape.com/page/1/']
 
    def parse(self, response):
        filename="source.html"
        with open(filename,'wb') as f:
            f.write(response.body)

代码简单介绍下吧：

name：设定了爬虫的名字
allowed_domains ：设定允许域，不是这些域内的网址就会被放弃。
start_urls:就是爬虫程序初始的url集合。
parse：默认处理response流的方法，通常会返回一个item或者dict 给pipeline。

现在，工程有了，爬虫也有了。接下里开始让我们的爬虫进行工作吧。

4 运行爬虫

运行爬虫很简单，使用scrapy crawl quotes 命令就可以里

e:\scrapytest\tutorial>scrapy crawl quotes
2017-08-25 22:50:25 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: tutorial)
2017-08-25 22:50:25 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders']}
2017-08-25 22:50:25 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2017-08-25 22:50:26 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-08-25 22:50:26 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-08-25 22:50:26 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2017-08-25 22:50:26 [scrapy.core.engine] INFO: Spider opened
2017-08-25 22:50:26 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-08-25 22:50:26 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-08-25 22:50:27 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2017-08-25 22:50:27 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2017-08-25 22:50:28 [scrapy.core.engine] INFO: Closing spider (finished)
2017-08-25 22:50:28 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 451,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 2701,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 1,
 'downloader/response_status_count/404': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2017, 8, 25, 14, 50, 28, 49601),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'response_received_count': 2,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2017, 8, 25, 14, 50, 26, 788397)}
2017-08-25 22:50:28 [scrapy.core.engine] INFO: Spider closed (finished)

运行爬虫后，会提示一堆的信息，主要是完成以下几个部分工作：

启动爬虫引擎
加载设置文件
启用扩展
启用下载中间件
启用爬虫中间件
启动pipeline
爬虫启动，开始工作
爬虫结束，引擎收集统计信息，清理工作

我们的爬虫代码是简单，就是打开一个sour.html文件，把获取的响应流（response）的页面内容写入进去。

到这这里，我们的爬虫只是获取了网址的源码，可能不是我们真正关心的，我们还需要写一写提取规则，提取网站的有用的信息（比如这个网址，我们只需要提取出作者，他的名言，他的标签），那我们就修改完善下爬虫吧。

5 完善爬虫

5.1 网址分析

我们自己用浏览器打开http://quotes.toscrape.com/page/1/ 这个网址，发现网页比较规整，核心的内容区域包含3个内容出作者，他的名言，他的标签。

5.2 使用浏览器调试功能（f12）获取元素的css样式。

5.3 在item,py 文件修改为如下的内容

# -*- coding: utf-8 -*-
 
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    author=scrapy.Field()
    text=scrapy.Field()
    tags=scrapy.Field()
    pass

代码简介：我们创建了3个字段，分别用于存储网址上的名言，作者和标记信息。

5.4 完善我们的爬虫

修改我们的爬虫为如下代码：

# -*- coding: utf-8 -*-
import scrapy
from ..items import  TutorialItem
 
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ["http://quotes.toscrape.com/"]
    start_urls = ['http://quotes.toscrape.com/page/1/']
 
    def parse(self, response):
        for quote in response.css('div.quote'):
            elem=TutorialItem()
            elem["text"]=quote.css('span.text::text').extract_first()
            elem["author"]=quote.css('small.author::text').extract_first()
            elem["tags"]=quote.css('div.tags a.tag::text').extract()
            yield  elem

代码简介：写一个for循环去遍历，每次提取一个elem，使用css选择器去定位元素。当然你也可以使用xpath去定位元素。

关于css选择器的如何使用：可以参考如下网址

w3cschool :http://www.w3school.com.cn/cssref/css_selectors.asp

官方文档：https://docs.scrapy.org/en/latest/topics/selectors.html

6 存储我们的数据

我们启动爬虫的时候，加入-o选项，可以指定输出，它可以根据文件后缀判断出你要导出的格式。默认的导出目录是基于工程目录的，也就是说你设置-o quotes.json 会在你的工程目录下生成一个quotes.json文件。

e:\scrapytest\tutorial>scrapy crawl quotes -o quotes.json
e:\scrapytest\tutorial>scrapy crawl quotes -o quotes.xml
e:\scrapytest\tutorial>scrapy crawl quotes -o quotes.csv
e:\scrapytest\tutorial>scrapy crawl quotes -o quotes.jl

这里我是实在命令行指定-o选项，导出的，能不能不在命令行设置就可以导出呢，当然可以了，修改我们的pipeline吧。

7 修改pipeline

pipeline从其名字就知意，管道行用于对输入的数据（item）进行清洗和持久化处理。

修改pipeline.py内容如下：

# -*- coding: utf-8 -*-
 
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
 
class TutorialPipeline(object):
    def process_item(self, item, spider):
        return item
 
import json
 
class JsonWriterPipeline(object):
 
    def open_spider(self, spider):
        self.file = open('items.jl', 'w')
 
    def close_spider(self, spider):
        self.file.close()
 
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

设置好一个jsonline的pipline后，怎么让他生效呢，需要在setting文件启用它的。

8 启用指定pipeline

打开setting.py文件

启用如下如下注释行，并稍作修改。

ITEM_PIPELINES = {
    'tutorial.pipelines.JsonWriterPipeline': 300,
}

9 再次运行爬虫

这次在运行爬虫，我们发现生成了一个items.jl文件。当然了，我们这里是把items持久化到文件中去了，我们也是可以修改pipeline添加一个pipeline让item数据持久化到数据库中去。官方的一个样例：https://docs.scrapy.org/en/latest/topics/item-pipeline.html#write-items-to-mongodb

如果想生成各种格式的，处理feedback技术，可以参考我另一篇文章： http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_005_scrapy.html

10 链接追踪

可以看到我们的爬虫只是爬取了page=1的内容，我要是想提取所有page的内容呢。如果你仔细分析下网页，可以看到page=1的页面最下面有个next的超链接指向下一页的。

那我们修改我们的爬虫代码为如下：

# -*- coding: utf-8 -*-
import scrapy
from ..items import  TutorialItem
 
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ["http://quotes.toscrape.com/"]
    start_urls = ['http://quotes.toscrape.com/page/1/']
 
    def parse(self, response):
        for quote in response.css('div.quote'):
            elem=TutorialItem()
            elem["text"]=quote.css('span.text::text').extract_first()
            elem["author"]=quote.css('small.author::text').extract_first()
            elem["tags"]=quote.css('div.tags a.tag::text').extract()
            yield elem
        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse,dont_filter=True)

代码简介：

next_page是我们从页面提取的下一页的网址，然后urljoin去拼接完整url,然后使用request去请求下一页，还是使用parse去解析响应流，当然我们可以在写一个parse的。

11 在次运行爬虫

我们可以发现page1,page2的页面的数据都提取出来，如下图

12 给爬虫添加参数

　　我们想运行爬虫的时候，想给他指定一个参数，比如传递一个page号，让他动态去设置一个startul 可以吗？

　　修改quotes.py文件为如下内容：

# -*- coding: utf-8 -*-
import scrapy
from ..items import  TutorialItem
 
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ["http://quotes.toscrape.com/"]
    #start_urls = ['http://quotes.toscrape.com/page/1/']
    def __init__(self, page=None, *args, **kwargs):
        super(QuotesSpider, self).__init__(*args, **kwargs)
        if isinstance(page, str):
            self.start_urls = [
                'http://quotes.toscrape.com/page/%s/' % page]
            self.page = page
 
    def parse(self, response):
        for quote in response.css('div.quote'):
            elem=TutorialItem()
            elem["text"]=quote.css('span.text::text').extract_first()
            elem["author"]=quote.css('small.author::text').extract_first()
            elem["tags"]=quote.css('div.tags a.tag::text').extract()
            yield elem
        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse ,dont_filter=True)

代码简介：添加一个init方法，完成了page参数的赋值接受，设置了startu_urls。这样就可以接受参数动态的生成start_urls了。

13 运行爬虫

e:\scrapytest\tutorial>scrapy crawl quotes -a page=1

注： page=1,1就是参数，如果有空格使用双引号引起来。

通过本文的学习，你应该了解了。 scrapy框架的大概流程了吧，items,pipeline,spider.py,settings 这些文件是如何协同工作的。

xpath学习： http://www.w3school.com.cn/xpath/xpath_functions.asp , https://www.w3.org/TR/xpath

浏览器调试： https://docs.scrapy.org/en/latest/topics/firefox.html

浏览器插件推荐： chrom下cssfinder,xpathfinder ,selectorGadget , firefox下xpathfinder。强烈推荐selectorGadget。

注意：有时候设置css或者xpath表达式的时候建议在scrapy shell环境中先测试。