Scrapy 教程(四)-命令

scrapy 没有界面，需要命令行来操作。

非常简单，总共也就十四五个命令，分为全局命令和项目命令。

全局命令

在哪都能用

常用命令

scrapy startproject name    创建项目/工程

scrapy genspider taobao taobao.com    创建爬虫

不太常用

查看爬虫配置/参数

scrapy settings --get  DOWNLOAD_DELAY    下载延迟

scrapy settings --get  BOT_NAME    爬虫名字
## 在项目运行时，输出项目设定值，否则输出 scrapy 的默认值，所以他既是全局命令，也是项目命令

启动爬虫

scrapy runspider scrapy_cn.py        执行爬虫脚本

scrapy crawl  spider    [这个也是启动爬虫，是项目命令，需要创建工程]

下载源码

# 看看有没有异步之类的

scrapy fetch https://hao.360.com/?llqxqd

scrapy fetch https://hao.360.com/?llqxqd >E:/3.html    下载并保存源码(WINDOWS)

scrapy view https://hao.360.com/?llqxqd    下载并直接用浏览器打开

shell 工具

scrapy shell https://hao.360.com/?llqxqd

版本查看

scrapy version

scrapy bench 用于 benchmark 测试，测试 scrapy 在硬件上的效率。

项目命令

在项目目录才能用

scrapy crawl  spider         启动爬虫（需要进入app目录）

scrapy check                   检测爬虫

scrapy list                       显示有多少爬虫（以name为准）

命令行参数

为了增强scrapy的灵活性，在命令行中可以设置参数，这使得构建好的爬虫能够执行不同的任务。

实例代码

def start_requests(self):

        url = 'http://lab.scrapyd.cn/'

        tag = getattr(self, 'tag', None)  # 获取tag值，也就是爬取时传过来的参数

        if tag is not None:  　　　　　　　　# 判断是否存在tag，若存在，重新构造url

            url = url + 'tag/' + tag  　　 # 构造url若tag=爱情，url= "http://lab.scrapyd.cn/tag/爱情"

        yield scrapy.Request(url, self.parse)

命令行参数设置

scrapy crawl argsSpider -a tag=爱情

还有很多其他参数，不太常用，具体请百度。

Scrapy 教程(四)-命令的更多相关文章

手把手教从零开始在GitHub上使用Hexo搭建博客教程(四)-使用Travis自动部署Hexo(2)
前言前面一篇文章介绍了Travis自动部署Hexo的常规使用教程,也是个人比较推荐的方法. 前文最后也提到了在Windows系统中可能会有一些小问题,为了在Windows系统中也可以实现使用Trav ...
TFS(Team Foundation Server)敏捷使用教程(四)：工作项跟踪（1）
工作项跟踪(1) 可跟踪性是软件过程的重要能力,TFS主要是以工作项来实现过程的可跟踪性.曾有人问:"你们实际项目里的工作项是怎么样的?能不能让我们看看?"我也一直很好奇别的公司T ...
Laravel教程四：数据库和Eloquent
Laravel教程四:数据库和Eloquent 此文章为原创文章,未经同意,禁止转载. Eloquent Database 上一篇写了一些Laravel Blade的基本用法和给视图传递变量的几种方 ...
Scrapy的shell命令（转）
scrapy python MrZONT 2015年08月29日发布 ...
webpack4 系列教程(四): 单页面解决方案--代码分割和懒加载
本节课讲解webpack4打包单页应用过程中的代码分割和代码懒加载.不同于多页面应用的提取公共代码,单页面的代码分割和懒加载不是通过webpack配置来实现的,而是通过webpack的写法和内置函数实 ...
【转帖】Systemd 入门教程：命令篇
Systemd 入门教程:命令篇 Copy From http://www.ruanyifeng.com/blog/2016/03/systemd-tutorial-commands.html 感觉 ...
Miniconda安装scrapy教程
一.背景说明前两天想重新研究下Scrapy,当时的环境是PyCharm社区版+Python 3.7.使用pip安装一直报错 “distutils.errors.DistutilsPlatformEr ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
Scrapy教程
Scrapy教程原文地址https://doc.scrapy.org/en/latest/intro/tutorial.html 此教程我们假设你已经装好了Scrapy,如果没有请查看安装指南.. ...

随机推荐

less中的for循环
.loop(@count) when (@counter > 0) { .loop((@counter - 1)); // 递归调用自身 width: (10px * @count ...
linux常用的命令一：系统工作命令
系统工作命令: 帮助命令:man -h \ man --help(tips:‘--’长格式后用完整的选项名称,‘-’短格式后用单个字母缩写) echo命令:格式:echo [字符串|$变量] date ...
js-头部的下拉框出现与隐藏，注意加上stop??
效果: 主要代码:
java中System类
System作为系统类,在JDK的java.lang包中,可见它也是一种java的核心语言特性.System类的构造器由private修饰,不允许被实例化.因此,类中的方法也都是static修饰的静态 ...
【知识】location.search获取中文时候会被编码成一串字符
[转码] 例如:case.html?id='这个是页面的标题' 当想要使用location.search获取?id='这个是页面的标题'的时候,包含的中文会被编码成一串字符串. 所以我们需要进行解码, ...
Jackson和fastjson简单用法及性能对比
背景: Java处理JSON数据有三个比较流行的类库FastJSON.Gson和Jackson.fastjson是阿里做的国有开源Java工具包,jackson是spring mvc内置的json转换 ...
pycharm如何添加固定代码块
1. file -- settings -- 搜索框输入live,找到 Live Templates 2. 选择你要添加到哪个语言中去,打开python组,并点击右上角 “+”,选择 1.Live T ...
sqli-labs（23）
基于get的过滤了的注入 0X1测试闭合 /?id=' http://127.0.0.1/sql1/Less-23/?id=1%27%27 0X02 然后就是组合拳的操作了未报错那么应该是’闭合 ...
[HDU4336]:Card Collector（概率DP）
题目传送门题目描述夏川的生日就要到了.作为夏川形式上的男朋友,季堂打算给夏川买一些生日礼物.商店里一共有种礼物.夏川每得到一种礼物,就会获得相应喜悦值$W_i$(每种礼物的喜悦值不能重复获得).每 ...
惠普服务器DL360G6安装ESXi主机后遗忘密码用u盘重置密码
惠普服务器DL360G6安装ESXi主机后遗忘密码重置密码先用rufus制作U盘启动盘,启动盘一定要用惠普专用hpe的esxi版本,否则安装会报错, 下载https://www.iplaysoft. ...

Scrapy 教程(四)-命令

全局命令

项目命令

命令行参数

Scrapy 教程(四)-命令的更多相关文章

随机推荐

热门专题