今日内容：

scrapy各组件

Components：

1、引擎(EGINE)
引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。

2、调度器(SCHEDULER)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。

3、下载器(DOWLOADER)
用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的。

4、爬虫(SPIDERS)
SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求。

5、项目管道(ITEM PIPLINES)
在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作。

6、下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
你可用该中间件做以下几件事：
　　(1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
　　(2) change received response before passing it to a spider;
　　(3) send a new Request instead of passing received response to a spider;
　　(4) pass response to a spider without fetching a web page;
　　(5) silently drop some requests.

7、爬虫中间件(Spider Middlewares)
位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

1、进入终端cmd：

        -scrapy

2、创建scrapy项目

    1.创建文件夹存放scrapy项目

        -D:\Scrapy_project\

    2.cmd终端输入命令

    -scrapy starproject Spider_Project

    会在D:\Scrapy_project\下生成文件夹

        -Spider_Project ：Scrapy项目文件

    3.创建好后会提示

        -cd Spider_Project     #切换到scrapy项目目录下

                          #爬虫程序名称   #目标网站域名

        -scrapy genspider  baidu          www.baidu.com     #创建爬虫程序

3.启动scrapy项目，执行爬虫程序

    # 找到爬虫程序文件执行

    scrapy runspider 爬虫程序.py

    # 切换到爬虫程序执行目录下

        -cd D:\Scrapy_project\Spider_Project\Spider_Project\spiders

        -scrapy runspider baidu.py

from scrapy.cmdline import execute

# 写终端命令

# scrapy crawl baidu

# 执行baidu爬虫程序

# execute(['scrapy', 'crawl', 'baidu'])

# 创建爬取链家网程序

# execute(['scrapy', 'genspider', 'lianjia', 'lianjia.com'])

# --nolog     去除日志

execute('scrapy crawl --nolog lianjia'.split(' '))

'''

Scrapy在Pycharm中使用

1.创建scrapy项目

在settings.py文件中有

    -ROBOTSTXT_OBEY = True     #默认遵循robot协议

修改为：

    -ROBOTSTXT_OBEY = False

'''

python_09的更多相关文章

python_09 文件处理流程，文件操作方法
文件处理流程 1.打开文件,得到文件句柄并赋值给一个变量 2.通过句柄对文件进行操作 3.关闭文件 f=open('test.txt',encoding='gbk') data = f.read() ...

随机推荐

微信小程序——获取formid
小程序对模板消息推送做了相应的限制:如果用户主动触发小程序表单提交1次,小程序可在7天内向用户主动推送1条模版消息,如果用户通过小程序完成支付,小程序可在7天内向用户主动推送3条模版消息.(formi ...
Amazon S3数据存储
从官网下载aws 的unity插件,并做了简单修改(主要用修改PostObject),问题: (一)获取Pool ID 通过服务-Cognito-管理/新建用户池,可以新建或者获取Pool ID (二 ...
SpringCloud之整合Zipkin+Sleuth(十四)
1.添加依赖在项目的pom.xml文件中添加下面依赖  <dependency> <groupId>org.springframew ...
[UWP]使用GetAlphaMask和ContainerVisual制作长阴影(Long Shadow)
1. 什么是长阴影前几年扁平化设计(Flat Design)十分流行,后来在扁平化的基础上又流行起了长阴影(Long Shadow).长阴影其实就是扩展了对象的投影,感觉是一种光线照射下的影子,通常 ...
我是如何在一周内拿到4份offer的？
前言大概一个月没写博客了吧,这段时间事情比较多(家里有事,请了一段时间假,正好利用剩余几天时间面了几次试),也没抽出来时间写博客,还好所有的事情已经处理完了,今天闲来无事就整理一下这几次面试过程中遇 ...
Linux 编译与交叉编译
在Linux环境中,所处平台不同,执行文件也就不同,同一执行文件不能在不同平台下使用如在Ubnutu下是用gcc编译一个.c文件 gcc main.c -o main.out -o 可以指定输出文 ...
python基础-列表List及内置方法
数据类型之列表-List 用途:用于存一个或多个不同类型的值定义:通过中括号存值,每个值之间通过逗号进行分隔 l1 = [1,'a',3,'b'] 特性:有序.可变.存多个值的数据类型常用方法: ...
vi文本编辑器命令
基本上 vi 共分为三种模式,分别是『一般模式』.『编辑模式』与『指令列命令模式』. 这三种模式的作用分别是: 一般模式:以 vi 打开一个档案就直接进入一般模式了(这是默认的模式).在这个模式中, ...
C语言博客作业006
问题答案这个作业属于那个课程 C语言程序设计1 这个作业要求在哪里 https://edu.cnblogs.com/campus/zswxy/CST2019-2/ 我在这个课程的目的是学习并掌握 ...
MIT线性代数：15.子空间的投影

python_09

今日内容：

scrapy各组件

python_09的更多相关文章

随机推荐

热门专题