python3下scrapy爬虫(第六卷:利用cookie模拟登陆抓取个人中心页面）

之前我们爬取的都是那些无需登录就要可以使用的网站但是当我们想爬取自己或他人的个人中心时就需要做登录，一般进入登录页面有两种，一个是独立页面登陆，另一个是弹窗，我们先不管验证码登陆的问题，现在试一下直接登陆的爬取：

爬虫是模拟人的行为来请求网页读取数据的现在我们划分一下过程，从登陆到获取：

先看一下我们到个人中心的过程：

登陆界面->输入账号密码->进入个人中心

1 进入登陆页面可以说是第一次请求此时会产生相应的COOKIE值，因为你只要先进入到页面才可以进行密码输入等行为

cookiejar:1表示开启COOKIE记录

现在看下回调函数：

2 进入登陆页面后需要进行输入数据行为，方式为POST请求，传输的数据在NETWORK里找一下字段，一般都是NUMBER，USERNAME什么的作为POST携带的数据

看下结果

3 之前请求的是登陆页面用的是GET请求，现在需要做一步登陆的过程就变成了POST请求，也就是第二步请求，同样的是在parse函数里执行了

4 meta={'cookiejar':True}表示使用授权后的cookie访问需要登录查看的页面

5 获取请求后的COOKIE，响应COOKIE，然后进行获取个人中心：

看下结果：

python3下scrapy爬虫(第六卷:利用cookie模拟登陆抓取个人中心页面）的更多相关文章

python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）
上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrap ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
python3下scrapy爬虫(第五卷:初步抓取网页内容之scrapy全面应用）
现在爬取http://category.dangdang.com/pg1-cid4008149.html网址上的商品价格,名称,评价数量先准备下下数据:商品名,商品链接,评价数量第一步:在item ...
python3下scrapy爬虫(第八卷:循环爬取网页多页数据）
之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律,现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里(因为刚才写 ...
python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）
说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就 ...
python3下scrapy爬虫(第七卷:编辑器内执行scrapy）
之前我们都是在终端切入到scrapy的路境内执行爬虫的,你要多敲多少行的字节,所以这次我们谈谈如何在编辑器里执行,这个你可以用在爬虫中,当你使用PYTHONWEB开发时尽量不要在编辑器内启动端口服务那 ...
python3下scrapy爬虫(第十卷:scrapy数据存储进mysql）
上一卷中我将爬取的数据文件直接写入文本文件中,现在我将数据存储到mysql中,我依然用的是pymysql,这个很麻烦建表需要在外面建这次代码只需要改变pipyline就行来现在看下结果: 对比发 ...
使用ApiPost测试接口时需要先登录怎么办？利用Cookie模拟登陆！
ApiPost简介: ApiPost是一个支持团队协作,并可直接生成文档的API调试.管理工具.它支持模拟POST.GET.PUT等常见请求,是后台接口开发者或前端.接口测试人员不可多得的工具 . 下 ...
Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...

随机推荐

微信小程序官方示例官方weui-wxss下载于安装详解
1.小程序示例源码:https://github.com/wechat-miniprogram/miniprogram-demo 2.微信 weui下载地址:https://github.com/we ...
keras中的一些小tips（一）
写这篇博客的原因主要是为了总结下在深度学习中我们常会遇到的一些问题,以及不知道如何解决,我准备把这个部分作为一个系列,为了让大家少走一些坑,对于本博客有什么错误,欢迎大家指出,下面切入正题吧. 1. ...
www.wolframalpha.com
单个查询 http://www.wolframalpha.com/input/?source=nav&i=simplify+radical+sqrt(567) notebook https:/ ...
[原]C++新标准之std::ratio
原总结 ratio 概览类定义预定义ratio 应用示例代码参考资料概览 std::ratio定义在<ratio>文件中,提供了编译期的比例计算功能.为std::chrono ...
sklearn KMeans聚类算法（总结）
基本原理 Kmeans是无监督学习的代表,没有所谓的Y.主要目的是分类,分类的依据就是样本之间的距离.比如要分为K类.步骤是: 随机选取K个点. 计算每个点到K个质心的距离,分成K个簇. 计算K个簇样 ...
图论模型--dijstra算法和floyd算法
matlab代码实现:https://blog.csdn.net/weixin_40108753/article/details/81237585 python代码实现:
blocking（非阻塞）回调函数
回调函数不会造成阻塞 function loop() { setTimeout(loop, 0) } loop 死循环 while(true)
arg min，arg max, e.g ,i.e
数学中常见的arg min,arg max 是什么意思 arg 是变元(即自变量argument)的英文缩写 arg min 就是使后面这个式子到达最小值时的变量的取值 arg max 就是使后面这个 ...
Utf8BomRemover
// // Source code recreated from a .class file by IntelliJ IDEA // (powered by Fernflower decompiler ...
G. Petya and Graph（经典项目与项目消耗问题）（网络流）
题:https://codeforces.com/contest/1082/problem/G 题意:给定有边权和点权的图,问你选一些边,然sum边-sum点最大(点权被多次用为公共点只会减一次) 分 ...

python3下scrapy爬虫(第六卷:利用cookie模拟登陆抓取个人中心页面）

python3下scrapy爬虫(第六卷:利用cookie模拟登陆抓取个人中心页面）的更多相关文章

随机推荐

热门专题