Scrapy框架--使用cookie

雷子-LL 2024-10-11 02:43:13 原文

CookieMiddleware

class scrapy.downloadermiddlewares.cookies.CookieMiddlewar

该中间件使得爬取需要cookie(例如使用session)的网站成为了可能。其追踪了web server发送的cookie，并在之后的request中发送回去，就如浏览器所做的那样.

以下设置可以用来配置cookie中间件：

COOKIES_ENABLED
COOKIES_DEBUG

单spider多cookie session

Scrapy通过使用 cookiejar Request meta key来支持单spider追踪多cookie session。默认情况下其使用一个cookie jar(session)，不过您可以传递一个标示符来使用多个。

注意这个标识符（即下面代码中的'i'）,这里并不是说使用的cookie就是‘i’,而是第i个cookie！！'cookiejar'是meta的特殊关键字，不能以单纯的dict来看待。

cookie是追踪session的，会在request的过程中发生变化，比如在start_requests的时候模拟登陆，cookie就会记录登录信息，后续使用该cookie的request就

能继续沿用其中的cookie。

例如：

for i, url in enumerate(urls):

    yield scrapy.Request("http://www.example.com", meta={'cookiejar': i},

        callback=self.parse_page)

需要注意的是 cookiejar meta key不是”黏性的(sticky)”。您需要在之后的request请求中接着传递。

def parse_page(self, response):

    # do some processing

    return scrapy.Request("http://www.example.com/otherpage",

        meta={'cookiejar': response.meta['cookiejar']},

        callback=self.parse_other_page)

COOKIES_ENABLED

默认： True

是否启用cookiesmiddleware。如果关闭，cookies将不会发送给web server。

COOKIES_DEBUG

默认： False

如果启用，Scrapy将记录所有在request(cookie 请求头)发送的cookies及response接收到的cookies（set-cookie接收头）

下面是启用COOKIES_DEBUG的记录样例:

2011-04-06 14:35:10-0300 [scrapy] INFO: Spider opened

2011-04-06 14:35:10-0300 [scrapy] DEBUG: Sending cookies to: <GET http://www.diningcity.com/netherlands/index.html>

        Cookie: clientlanguage_nl=en_EN

2011-04-06 14:35:14-0300 [scrapy] DEBUG: Received cookies from: <200 http://www.diningcity.com/netherlands/index.html>

        Set-Cookie: JSESSIONID=B~FA4DC0C496C8762AE4F1A620EAB34F38; Path=/

        Set-Cookie: ip_isocode=US

        Set-Cookie: clientlanguage_nl=en_EN; Expires=Thu, 07-Apr-2011 21:21:34 GMT; Path=/

2011-04-06 14:49:50-0300 [scrapy] DEBUG: Crawled (200) <GET http://www.diningcity.com/netherlands/index.html> (referer: None)

[...]

（翻译加个人理解，若有问题请指正，谢谢）

官方文档：https://doc.scrapy.org/en/1.3/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.cookies

Scrapy框架--使用cookie的更多相关文章

scrapy框架携带cookie访问淘宝购物车
我们知道,有的网页必须要登录才能访问其内容.scrapy登录的实现一般就三种方式. 1.在第一次请求中直接携带用户名和密码. 2.必须要访问一次目标地址,服务器返回一些参数,例如验证码,一些特定的加密 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
解读Scrapy框架
Scrapy框架基础:Twsited Scrapy内部基于事件循环的机制实现爬虫的并发.原来: url_list = ['http://www.baidu.com','http://www.baidu ...
Scrapy 框架手动发送请求 POST 请求的发送
手动发送请求 import scrapy from choutiSpider.items import ChoutispiderItem class ChoutiSpider(scrapy.Spide ...
scrapy框架使用教程
scrapy框架真的是很强大.非常值得学习一下.本身py就追求简洁,所以本身代码量很少却能写出很强大的功能.对比java来说.不过py的语法有些操蛋,比如没有智能提示.动态语言的通病.我也刚学习不到1 ...
python 全栈开发，Day138(scrapy框架的下载中间件,settings配置)
昨日内容拾遗打开昨天写的DianShang项目,查看items.py class AmazonItem(scrapy.Item): name = scrapy.Field() # 商品名 price ...
python 全栈开发，Day137(爬虫系列之第4章-scrapy框架)
一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
爬虫之牛掰的scrapy框架
一. Scrapy简介及安装 http://python.jobbole.com/86405/ Scrapy的详细介绍 1.简介 2.安装 1.window上安装: 先 ...

随机推荐

团队作业10——事后分析（Beta版本）
团队作业10--事后分析(Beta版本) 目录一.设想与目标二.计划三.资源四.变更管理五.设计与实现六.测试与发布七.总结八.图片和贡献分分配一.设想和目标 1.我们的软件要解决什 ...
201521123105 第8周Java学习总结
1.本周学习总结 1.1思维导图 2. 书面作业本次作业题集集合 1.List中指定元素的删除(题目4-1) 1.1 实验总结 1.删除元素的时候从最后一个元素开始,避免删除元素后位置发生变化而导致 ...
201521123037 《Java程序设计》第7周学习总结
1. 本周学习总结以你喜欢的方式(思维导图或其他)归纳总结集合相关内容. 2. 书面作业 1. ArrayList代码分析 1.1 解释ArrayList的contains源代码查看ArrayLi ...
201521123015 《Java程序设计》第3周学习总结
本周学习总结初学面向对象,会学习到很多碎片化的概念与知识.尝试学会使用思维导图将这些碎片化的概念.知识组织起来.请使用纸笔或者下面的工具画出本周学习到的知识点. 书面作业 Q1.代码阅读 publi ...
Java课程设计 - 学生基本信息管理
团队名称.团队成员介绍(需要有照片) 团队名称:此艺兴非彼艺兴团队成员: 王兴:女,积极上进曾艺佳:女,积极上进项目git地址 StudentManage项目项目git提交记录截图(要体现出每 ...
201521123029《Java程序设计》第十二周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 书面作业将Student对象(属性:int id, String name,int age,doubl ...
JavaSE（十）之Collection总结
前面几篇把集合中的知识大概都详细的说了一遍,但是我觉得还是要总结一下,这样的话,可以更好的理解集合. 一.Collection接口首先我们要一张图来说明: Collection接口,它是集合的顶层接 ...
this的四种绑定形式
一 , this的默认绑定当一个函数没有明确的调用对象的时候,也就是单纯作为独立函数调用的时候,将对函数的this使用默认绑定:绑定到全局的window对象. 一个例子 function fire ...
100%解决ios上audio不能自动播放的问题
由于ios的安全机制问题,不允许audio和video自动播放,所以想要使audio标签自动播放那是实现不了的,即使给play()也是播放不了. 解决方法: 首先,创建audio标签:<audi ...
【黑马18期Java毕业生】黑马程序员Java全套资料+视频+工具
Java学习路线图引言: 黑马程序员:深知广大爱好Java的人学习是多么困难,没视频没资源,上网花钱还老被骗. 为此我们历时一个月整理这套Java学习路线图,不管你是不懂电脑的小 ...