Scrapy基本命令

全局命令，不用在项目中运行
fetch：爬取网页，不依赖爬虫项目直接爬网页信息，并显示爬取过程
scrapy命令格式：scrapy 命令名 --参数，可能通过--控制，例如：scrapy fetch -h fetch相关的使用方式
spider命令：
进行文件所在目录后，通过scrapy runspider 文件名(对文件进行运行)
shell命令：
启动scrapy交互终端，主要是在开发调试的时候用到，不启动scrapy的情况下对网站进行相应的调试，可以写相应的python代码进行测试
例如：scrapy shell http://www.baidu.com --nolog(不显示爬取的log信息)
startproject命令：
创建爬虫项目,scrapy startproject 项目名
version命令：
查看对应的版本信息
view命令：
下载某个网页并用浏览器查看的功能，例如：scrapy view http://news.163.com

项目命令
bench测试本地硬件性能的命令

项目目录介绍：
1.scrapy.cfg是爬虫项目的配置文件
first文件加是爬虫项目的核心目录。
first爬虫项目的目录结构
a.__init__.py:初始化文件
b.items.py:目标文件,要爬取的信息在该文件中设定要爬取的内容
c.piplines.py:爬取文件后的后续信息文件处理
d.settings.py:爬虫的设置文件，例如将爬虫伪装成浏览器或用户代理
e.middlewares.py
spiders是爬虫文件夹，里面可以有多个爬虫文件

创建爬虫文件命令：scrapy genspider(基于模板创建爬虫文件) -l(查看当前由那些模板)
显示由4个爬虫模板
1.basic是基本的爬虫模板
2.crawl是自动爬虫模板。例如：scrapy genspider [options] name domain。options可以选择自己需要的参数, 若留空, 则默认使用basic模板生成spider
3.csvvfeed是基于该模板处理csv文件
4.xmlfeed是基于该模板处理xml文件

基于basic创建一个爬虫的基本格式：scrapy genspider -t(创建用-t) 输入对应的模板输入爬虫文件名允许的域名。例如scrapy genspider -t basic weisuen baidu.com

check命令：主要用于测试。scrapy check 爬虫名例如：scrapy check weisuen

crawl启动运行某个爬虫文件 scrapy crawl 控制参数(可以不添加)爬虫名例如：scrapy crawl weisuen

list命令：scrapy list 展示当前项目中可以使用的爬虫文件例如：scrapy list

edit命令：直接通过编辑器打开某一个爬虫文件。在windows下无法运行，在linux可以运行，scrapy edit

parse命令：获取指定的url网址并且可以进行相应的处理和分析。例如：scrapy parse http://www.baidu.com

command指令即可完成，在项目文件下的命令行输入。例如：scrapy crawl AnJuKe -o items.csv

Xpath调试：
命令行输入：scrapy shell "爬取的URL"
[s] Available Scrapy objects:
[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s] crawler <scrapy.crawler.Crawler object at 0x0000000005529A58>
[s] item {}
[s] request <GET https://beijing.anjuke.com/sale/>
[s] response <200 https://beijing.anjuke.com/sale/>
[s] settings <scrapy.settings.Settings object at 0x0000000005529898>
[s] spider <DefaultSpider 'default' at 0x57b0320>
[s] Useful shortcuts:
[s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default
, redirects are followed)
[s] fetch(req) Fetch a scrapy.Request and update local object
s
[s] shelp() Shell help (print this help)
[s] view(response) View response in a browser
In [1]:

response.xpath调试，为了判断我们的xpath是否正确，例如：response.xpath('//div/div/a[@class="laisuzhou"]/span/text()').extract()
再可以输入：view.(response)

Scrapy基本命令的更多相关文章

2.Scrapy基本命令介绍
1.安装scrapy框架 a.安装wheel pip install wheel -i https://pypi.douban.com/simple/ b.安装twisted pip install ...
scrapy 基本命令
创建scrapy项目 scrapy startproject project_name 创建爬虫文件 scrapy genspider [-t template] <name> <d ...
Python-S9-Day125-Web微信&爬虫框架之scrapy
01 今日内容概要 02 内容回顾:爬虫 03 内容回顾:网络和并发编程 04 Web微信之获取联系人列表 05 Web微信之发送消息 06 为什么request.POST拿不到数据 07 到底使用j ...
09 Scrapy框架在爬虫中的使用
一.简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.它集成高性能异步下载,队列,分布式,解析,持久化等. Scrapy 是基于twisted框架开发而来,twisted是一个 ...
scrapy 原理，结构，基本命令，item，spider，selector简述
原理,结构,基本命令,item,spider,selector简述原理 (1)结构 (2)运行流程实操 (1) scrapy命令: 注意先把python安装目录的scripts文件夹添加到环境变量 ...
scrapy 的基本命令
scrapy stratproject projectname ##创建一个项目 scrapy genspider myspidername fider ##创建一个spider文件 scrapy ...
Scrapy进阶知识点总结（一）——基本命令与基本类(spider,request,response)
一.常见命令 scrapy全局命令可以在任何地方用,项目命令只能在项目路径下用全局命令: 项目命令: startproject crawl genspider check settings list ...
Scrapy框架: 基本命令
1.创建爬虫项目 scrapy startproject [项目名称] 2.创建爬虫文件 scrapy genspider +文件名+网址 3.运行(crawl) scrapy crawl 爬虫名称 ...
Python scrapy框架
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...

随机推荐

BIOS备忘录之通过Windbg来追踪ASL code的运行
通过Windbg来追踪ASL code的运行: 目标机的配置: 第一步: 在BIOS Setup下面 disable secure boot(不然下面debug on 命令会失败):关闭防火墙. 第二 ...
memset与malloc性能测试（转）
前一段跟同事聊项目组已有的一些工具,同事讲里面有太多的malloc与memset,对性能的影响比较大,因此今天就在自己的机器上测试了这两个函数,不多说,上数据.测试环境:2.2GHZ.2G内存mems ...
Python中的对象行为与特殊方法(二)类型检查与抽象基类
类型检查创建类的实例时,该实例的类型为类本身: class Foo(object): pass f = Foo() 要测试实例是否属于某个类,可以使用type()内置函数: >>> ...
【Python023/024--递归】
一.递归--汉诺塔 1.有三个轴(x,y,z),64个盘子,把所有盘子从X轴移动到Z轴,要求移动到Z轴的盘子从上到下排序思路: 问题一:将X上的63个盘子借助Z移动到Y上,拆解为: a.将前62个盘 ...
Ant build.xml详解
Ant的概念可能有些读者并不连接什么是Ant以及入可使用它,但只要使用通过Linux系统得读者,应该知道make这个命令.当编译Linux内核及一些软件的源程序时,经常要用这个命令.Make命令其实 ...
How to Use GNOME Shell Extensions
如果没有安装Tweaks请先安装,命令如下: sudo apt install gnome-tweak-tool 1. Use gnome-shell-extensions package [easi ...
算法总结（转自CS-Notes）
转载地址: 注意要点: 1.希尔排序:实际是将元素按步距h分为几组,每组元素没有关系,是组里每个元素跨步距h得到的一组元素是有序的,那么剩下的问题就是组内有序,再处理好组间边界即可.实际解决的方式是不 ...
卸载linux系统上自带的mysql
步骤: 1.打开centos命令提示符,切换为root用户 2.输入rpm -qa|grep -i mysql命令以检查系统含有的mysql插件,回车,若没有则说明无自带mysql,系统很干净.若有显 ...
LuoguP2680 运输计划
题目地址题目链接题解二分答案,那么大于答案的路径都需要有一条公共边,maxlen-val>=二分出来的x.val是边权. 考虑树剖,对每条大于答案的路径都+1(线段树里),枚举边,如果(线 ...
.net Core 2.1 后 Session保存，新页面获取不到值
https://blog.csdn.net/kuui_chiu/article/details/81060051 https://blog.csdn.net/niunan/article/detail ...

Scrapy基本命令

Scrapy基本命令的更多相关文章

随机推荐

热门专题