Scrapy 终端是一个交互终端,可以在未启动 spider 的情况下尝试及调试你的爬取代码。其本意是用来测试提取数据的代码,不过可以将其作为正常的 Python 终端,在上面测试任何 Python 代码。

该终端是用来测试 XPath 或 CSS 表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的 spider 时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行 spider 的麻烦。

启动终端

  1. scrapy shell <url>

<url> 是你要爬取的网页的地址。

可用的快捷命令(shortcut)

  • shelp() - 打印可用对象及快捷命令的帮助列表
  • fetch(request_or_url) - 根据给定的请求(request)或 URL 获取一个新的 response,并更新相关的对象
  • view(response) - 在本机的浏览器打开给定的 response。 其会在 response 的 body 中添加一个 tag ,使得外部链接(例如图片及 css)能正确显示。 注意,该操作会在本地创建一个临时文件,且该文件不会被自动删除。

可用的 Scarpy 对象

Scrapy 终端根据下载的页面会创建一些方便使用的对象,例如 Response 对象及 Selector 对象(对 HTML 和 XML 内容)。

这些对象有:

  • crawler - 当前 Crawler 对象。
  • spider - 处理 URL 的 spider。对当前 URL 没有处理的 Spider 时则为一个 Spider 对象。
  • request - 最近获取到的页面的 Request 对象。您可以使用 replace() 修改该 request。或者 使用 fetch 快捷方式来获取新的 request。
  • response - 包含最近获取到的页面的 Response 对象。
  • sel - 根据最近获取到的 response 构建的 Selector 对象。
  • settings - 当前的 Scrapy settings

终端会话(shell session)样例

下面给出一个典型的终端会话的例子。 在该例子中,我们首先爬取了 http://scarpy.org 的页面,而后接着爬取 http://slashdot.org 的页面。 最后,我们修改了(Slashdot)的请求,将请求设置为 POST 并重新获取, 得到 HTTP 405(不允许的方法)错误。 之后通过 Ctrl-D(Unix)或 Ctrl-Z(Windows)关闭会话。

需要注意的是,由于爬取的页面不是静态页,内容会随着时间而修改, 因此例子中提取到的数据可能与您尝试的结果不同。

  1. scrapy shell 'http://scrapy.org' --nolog

接着该终端(使用 Scrapy 下载器(downloader))获取 URL 内容并打印可用的对象及快捷命令(注意到以[s]开头的行):

  1. [s] Available Scrapy objects:
  2. [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
  3. [s] item {}
  4. [s] request <GET http://scrapy.org>
  5. [s] response <200 http://scrapy.org>
  6. [s] sel <Selector xpath=None data=u'<html>\n <head>\n <meta charset="utf-8'>
  7. [s] settings <scrapy.settings.Settings object at 0x2bfd650>
  8. [s] spider <Spider 'default' at 0x20c6f50>
  9. [s] Useful shortcuts:
  10. [s] shelp() Shell help (print this help)
  11. [s] fetch(req_or_url) Fetch request (or URL) and update local objects
  12. [s] view(response) View response in a browser
  13.  
  14. >>>

之后,就可以操作这些对象了:

  1. >>> sel.xpath("//h2/text()").extract()[0]
  2. u'Welcome to Scrapy'
  3.  
  4. >>> fetch("http://slashdot.org")
  5. [s] Available Scrapy objects:
  6. [s] crawler <scrapy.crawler.Crawler object at 0x1a13b50>
  7. [s] item {}
  8. [s] request <GET http://slashdot.org>
  9. [s] response <200 http://slashdot.org>
  10. [s] sel <Selector xpath=None data=u'<html lang="en">\n<head>\n\n\n\n\n<script id="'>
  11. [s] settings <scrapy.settings.Settings object at 0x2bfd650>
  12. [s] spider <Spider 'default' at 0x20c6f50>
  13. [s] Useful shortcuts:
  14. [s] shelp() Shell help (print this help)
  15. [s] fetch(req_or_url) Fetch request (or URL) and update local objects
  16. [s] view(response) View response in a browser
  17.  
  18. >>> sel.xpath('//title/text()').extract()
  19. [u'Slashdot: News for nerds, stuff that matters']
  20.  
  21. >>> request = request.replace(method="POST")
  22.  
  23. >>> fetch(request)
  24. [s] Available Scrapy objects:
  25. [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
  26. ...
  27.  
  28. >>>

在 spider 中启动 shell 来查看 response

有时您想在 spider 的某个位置中查看被处理的 response, 以确认您期望的 response 到达特定位置。

这可以通过 scrapy.shell.inspect_response 函数来实现。

以下是如何在 spider 中调用该函数的例子:

  1. import scrapy
  2.  
  3. class MySpider(scrapy.Spider):
  4. name = "myspider"
  5. start_urls = [
  6. "http://example.com",
  7. "http://example.org",
  8. "http://example.net",
  9. ]
  10.  
  11. def parse(self, response):
  12. # We want to inspect one specific response.
  13. if ".org" in response.url:
  14. from scrapy.shell import inspect_response
  15. inspect_response(response, self)
  16.  
  17. # Rest of parsing code.

当运行 spider 时,您将得到类似下列的输出:

  1. 2014-01-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.com> (referer: None)
  2. 2014-01-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.org> (referer: None)
  3. [s] Available Scrapy objects:
  4. [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
  5. ...
  6.  
  7. >>> response.url
  8. 'http://example.org'

接着测试提取代码:

  1. >>> sel.xpath('//h1[@class="fn"]')
  2. []

看来是没有。您可以在浏览器里查看 response 的结果,判断是否是您期望的结果:

  1. >>> view(response)
  2. True

最后您可以点击 Ctrl-D(Windows 下 Ctrl-Z)来退出终端,恢复爬取:

  1. >>> ^D
  2. 2014-01-23 17:50:03-0400 [myspider] DEBUG: Crawled (200) <GET http://example.net> (referer: None)
  3. ...

注意: 由于该终端屏蔽了 Scrapy 引擎,您在这个终端中不能使用 fetch 快捷命令(shortcut)。 当您离开终端时,spider 会从其停下的地方恢复爬取,正如上面显示的那样。

爬虫:Scrapy7 - Scrapy终端(Scrapy shell)的更多相关文章

  1. python爬虫scrapy之scrapy终端(Scrapy shell)

    Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码. 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码. ...

  2. 【Python3爬虫】第一个Scrapy项目

    Python版本:3.5    IDE:Pycharm 今天跟着网上的教程做了第一个Scrapy项目,遇到了很多问题,花了很多时间终于解决了== 一.Scrapy终端(scrapy shell) Sc ...

  3. 第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

    第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...

  4. 十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

    Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip2.安装,wheel(建议网络安装) pip install wheel ...

  5. Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  6. Scrapy之Scrapy shell

    Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据 ...

  7. python爬虫(4)——scrapy框架

    安装 urllib库更适合写爬虫文件,scrapy更适合做爬虫项目. 步骤: 先更改pip源,国外的太慢了,参考:https://www.jb51.net/article/159167.htm 升级p ...

  8. 网络爬虫基本概念与Scrapy工具包使用

    Scrapy网络爬虫 Scrapy结构图: Scrapy流动图 图 2-1 1.在D:\Workspace下新建ScrapyTest文件夹,即D:\Workspace\ScrapyTest 2.cd ...

  9. Scrapy 常用的shell执行命令

    1.在任意系统下,可以使用 pip 安装 Scrapy pip install scrapy/ 确认安装成功 >>> import scrapy >>> scrap ...

随机推荐

  1. centos安装django

    1.如果默认安装的是python2.6,先升级至python2.7 参考:http://www.cnblogs.com/tiger2soft/p/5677843.html 2.安装pip 先下载get ...

  2. Raect Router 4 的使用 (1)

    本文来自于官方文档,属于意译而非直译 基本组件 React Router 有三种类型的组件,分别是:react-router.react-router-dom.react-router-native ...

  3. MFC项目依赖 BCG框架示例

    1.创建一个简单的MFC工程: 2.将BCG框架项目导入到新建的mfc解决方案中,例如将BCGCBPro\BCGCBPRO140.vcxproj添加到解决方案. 3.修改mfc项目属性,包含BCG框架 ...

  4. 第35题:LeetCode138. Copy List with Random Pointer

    题目 给定一个链表,每个节点包含一个额外增加的随机指针,该指针可以指向链表中的任何节点或空节点. 要求返回这个链表的深度拷贝. 考点 思路 代码 /** * Definition for singly ...

  5. Selenium页面加载策略

    https://blog.csdn.net/wkb342814892/article/details/81611737 https://blog.csdn.net/ouyanggengcheng/ar ...

  6. 《Linux就该这么学》,刘小伙实在人,给打个广告

    本书是由全国多名红帽架构师(RHCA)基于最新Linux系统共同编写的高质量Linux技术自学教程,极其适合用于Linux技术入门教程或讲课辅助教材,目前是国内最值得去读的Linux教材,也是最有价值 ...

  7. Laravel5.5.x集成Swagger (L5-Swagger) 只讲Laravel5.5.x的集成,laravel其他版本请自行研究或参考github上的说明

    --------上图 截取自Github 官网上的安装参考----------------------------------------------------------------------- ...

  8. python学习之数据类型与运算符号

    python版本:3.6 python编辑器:pycharm 最新版本 整理成代码如下: #!/usr/bin/env python #-*- coding: utf-8 -*- # 数学操作符 pr ...

  9. 010---Django的模型层(2)

    确定模型关系: ''' Publish ---- Book 多对一:一个出版社对应多本书,在多的那张表添加关联字段 Book ---- Author 多对多:一个书对应多个作者,多个作者对应一本书 会 ...

  10. python基础之模块part1

    模块: 模块本质上就是一个Python程序. 所有说是对象的,一定可以通过  对象.方法  来实现某些操作. 模块种类: 内置模块 第三方模块 自定义模块 import在查找模块的顺序:内置模块--- ...