关于Scrapy爬虫项目运行和调试的小技巧（下篇）

前几天给大家分享了关于Scrapy爬虫项目运行和调试的小技巧上篇，没来得及上车的小伙伴可以戳超链接看一下。今天小编继续沿着上篇的思路往下延伸，给大家分享更为实用的Scrapy项目调试技巧。

三、设置网站robots.txt规则为False

一般的，我们在运用Scrapy框架抓取数据之前，需要提前到settings.py文件中，将“ROBOTSTXT_OBEY = True”改为ROBOTSTXT_OBEY = False。

在未改动之后settings.py文件中默认爬虫是遵守网站的robots.txt规则的，如下图所示。

如果遵守robots.txt规则的话，那么爬取的结果会自动过滤掉很多我们想要的目标信息，因此有必要将该参数设置为False，如下图所示。

设置好robots.txt规则之后，我们便可以抓到更多网页的信息。

四、利用Scrapy shell进行调试

通常我们要运行Scrapy爬虫程序的时候会在命令行中输入“scrapy crawl crawler_name”，细心的小伙伴应该知道上篇文章中创建的main.py文件也是可以提高调试效率的，不过这两种方法都是需要从头到尾运行Scrapy爬虫项目，每次都需要请求一次URL，效率十分低。运行过Scrapy爬虫项目的小伙伴都知道Scrapy运行的时候相对较慢，有时候因为网速不稳定，根部就无法动弹。针对每次都需要运行Scrapy爬虫的问题，这里介绍Scrapy shell调试方法给大家，可以事半功倍噢。

Scrapy给我们提供了一种shell模式，让我们可以在shell脚本之下获取整个URL对应的网页源码。在命令行中进行运行，其语法命令是“scrapy shell URL”，URL是指你需要抓取的网页网址或者链接，如下图所示。

该命令代表的意思是对该URL进行调试，当命令执行之后，我们就已经获取到了该URL所对应的网页内容，之后我们就可以在该shell下进行调试，再也不用每次都执行Scrapy爬虫程序，发起URL请求了。

通过shell脚本这种方式可以极大的提高调试的效率，具体的调试方法同爬虫主体文件中的表达式语法一致。举个栗子，如下图所示。

将两个Xpath表达式所对应的选择器放到scrapy shell调试的脚本下，我们可以很清楚的看到提取的目标信息，而且省去了每次运行Scrapy爬虫程序的重复步骤，提高了开发效率。这种方式在Scrapy爬虫过程中十分常用，而且也十分的实用，希望小伙伴们都可以掌握，并且积极主动的为自己所用。

关于Scrapy爬虫项目运行和调试的部分小技巧先分享到这里，尤其是Debug调试和Scrapy shell调试极为常用，希望小伙伴们可以多多利用起来，让其为自己的项目服务，可以事半功倍噢~~

关于Scrapy爬虫项目运行和调试的小技巧（下篇）的更多相关文章

关于Scrapy爬虫项目运行和调试的小技巧（上篇）
扫除运行Scrapy爬虫程序的bug之后,现在便可以开始进行编写爬虫逻辑了.在正式开始爬虫编写之前,在这里介绍四种小技巧,可以方便我们操纵和调试爬虫. 一.建立main.py文件,直接在Pycharm ...
在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
Scrapy(爬虫)基本运行机制
Scrapy(爬虫)基本运行机制
gdb调试运行时的程序小技巧
使用gdb调试运行时的程序小技巧标签: 未分类 gdb pstack | 发表时间:2012-10-15 04:32 | 作者:士豪分享到: 出处:http://rdc.taobao.com/bl ...
【Scrapy(四)】scrapy 分页爬取以及xapth使用小技巧
scrapy 分页爬取以及xapth使用小技巧这里以爬取www.javaquan.com为例: 1.构建出下一页的url: 很显然通过dom树,可以发现下一页所在的a标签 2.使用scrapy的 ...
python3 scrapy爬虫项目的诞生
前提安装好scrapy模块最好 requests和bs4模块都安装好可以概括为五个步骤步骤一:新建一个项目无论你用windows也好,linux也罢,在cmd或者终端切换到目标文件夹,然后输入 ...
Scrapy 爬虫项目框架
1. Scrapy 简介 2. Scrapy 项目开发介绍 3. Scrapy 项目代码示例 3.1 setting.py:爬虫基本配置 3.2 items.py:定义您想抓取的数据 3.3 spid ...
Python+Selenium进行UI自动化测试项目中，常用的小技巧4：日志打印，longging模块（控制台和文件同时输出）
在前段时间,为了给项目中加入日志功能,就想到了 logging 模块,百度logging一大推,都是各种复制的,并没有找到自己想要的结果:我的目的很简单,就是:在把日志写入文件的同时在控制台输出,更加 ...
谷歌(Chrome)浏览器调试JavaScript小技巧
谷歌浏览器不仅仅可以用来上网,对于开发人员来说,它更像是一款强大的开发辅助工具. 工欲善其事必先利其器,接下来笔者给大家分享一些Chrome的使用方法. 假如读者了解如何在Chrome中添加JavaS ...

随机推荐

SQL like查询条件中的通配符处理
1. SQL like对时间查询的处理方法 SQL数据表中有savetime(smalldatetime类型)字段,表中有两条记录,savetime值为:2005-3-8 12:12:00和2005- ...
HTML大纲
ZBrush中Pinch捏挤笔刷介绍
随着版本的升级ZBrush®中给我们提供了越来越多的笔刷,对于这款软件来说,笔刷的使用是第一要素,也会一直伴随我们创作.虽然Zbrush中有那么多的笔刷,但是很多朋友会根据自己的习惯来使用,这个并不是 ...
Kattis - Babelfish
Babelfish You have just moved from Waterloo to a big city. The people here speak an incomprehensible ...
MySQL 关闭 binlog 日志
[关闭binlog日志] 1.vim /etc/my.cnf 注释如下内容: #log-bin=mysql-bin #binlog_format=mixed #server-id = 1 #expir ...
CentOS 7.5安装pycharm
环境安装环境: windows 10 Pro CentOS Linux release 7.6.1810 (Core) VMWare Workstation 15 Pro 安装图形化界面包首先更新 ...
Python笔记27----时间解析
1.将时间字符串解析成真正的时间 time.strptime http://www.runoob.com/python/att-time-strptime.html 代码: import time s ...
React高级指南
高级指南 1.深入JSX: 从本质上讲,JSX 只是为 React.createElement(component, props, ...children) 函数提供的语法糖. 因为 JSX 被编译为 ...
为什么要重写toString（）方法
因为在System.out.println(类的对象名)时,类的对象名是个引用,如果不重写,就输出引用地址. 其实实际是这样的System.out.println(类的对象名.toString()), ...
maven这些工具负责创建项目，然后maven负责打包好war包扔进tomcat容器，tomcat容器接受的只是jar包
maven这些工具负责创建项目,然后maven负责打包好war包扔进tomcat容器,tomcat容器接受的只是jar包 2.tomcat不管你什么编译的,也不管你开发工具是什么.Tomcat只接受w ...

关于Scrapy爬虫项目运行和调试的小技巧（下篇）

关于Scrapy爬虫项目运行和调试的小技巧（下篇）的更多相关文章

随机推荐

热门专题