Python 爬虫之模拟登录
最近应朋友要求,帮忙爬取了小红书创作平台的数据,感觉整个过程很有意思,因此记录一下。在这之前自己没怎么爬过需要账户登录的网站数据,所以刚开始去看小红书的登录认证时一头雾水,等到一步步走下来,最终成功,思路通了感觉其实还是很简单。
解决思路
一开始我就只有这么一个网址小红书创作平台,和登录账号、密码,然后经过数次试错分析,最终拿出了解决方案。要爬取这个平台的数据,最核心的就是使用 python 模拟浏览器登录进去。探索过程:
1、在登陆界面点击用密码登录,输入账号密码验证码,通过 chrome 调试工具查看请求的 header 会发现,登录时是通过 POST 方式,请求的实际地址是:http://post.xiaohongshu.com/web_api/sns/v1/homerus/user/login_with_passwd,登录需要的参数有五个,分别是账号、密码、token、captcha(图片验证码)、zone 值,其中 zone 是指你所在的国家的区号,例如中国为+86,因此值为 86。那么这里处理比较困难的就是 token 和 captcha
2、token 哪里来的?是什么值?captcha 是图片验证码,怎么处理?我发现进行在登陆界面点击用密码登录这个操作时,实际进行了一次 GET 请求,请求的地址http://post.xiaohongshu.com/api/homerus/login/captcha,并且返回了两个数据:一个是 token,还有一个是验证码图片链接。怎么样?有没有很开心,需要什么就来什么。
3、因为每次登录 token 和 captcha 都会刷新,因此代码里面不能写死。那么对于 captcha 我的处理方式就是把图片下载下来,手动在程序中输入验证码作为参数;那 token 呢?token 我已经获取了啊,直接作为参数即可!
因此解决该模拟登录过程一共三步:
一、通过 get 请求登陆界面获取 token 和图片验证码;
二、token 直接作为参数,验证码手动输入,加上账号、密码、区号作为post 请求登录的参数;
三、登陆成功后的 response header 里有我们需要的 cookie,将其取出拼到新的 request header 里,请求要爬取数据的页面,成功获取数据!
实现过程
具体代码实现就是按照上述思路的,我进行了注释,不再多做说明。
''' 第一步 ''' cookie = cookielib.CookieJar() handler = urllib2.HTTPCookieProcessor(cookie) opener = urllib2.build_opener(handler) r=requests.get('http://post.xiaohongshu.com/api/homerus/login/captcha') token = json.loads(r.text)['data']['token'] # get请求到的token #print token img_url=json.loads(r.text)['data']['url'] picture = opener.open(img_url).read() local = open('F:/code.jpg', 'wb') # 保存验证码到本地 local.write(picture) local.close() ''' 第二步 ''' secret_code = raw_input('输入验证码: ') login_data = { 'phone': '136****0000', 'passwd': 'XXXXXXXXXXXX', 'token': token, # 获取的token 'captcha': secret_code, # 手动输入的验证码 ' } headers = {'content-type': 'application/json'} # payload请求方式 res = requests.post('http://post.xiaohongshu.com/web_api/sns/v1/homerus/user/login_with_passwd' ,data=json.dumps(login_data),headers=headers) # 模拟登录 header={ ''' 第三步 ''' 'Accept': 'application / json, text / plain', 'Connection': 'keep - alive', 'Cookie': res.headers['Set-Cookie'].replace(' Path=/','')+'xhs_spid.6d29=21fa0111a09b6c3c' '1516671392.1.15166716811516671392.6d3c3921-2e47-4cbe-b695-698499ac4636; xhs_spses.6d29=*', # 登录成功的cookie拼装在header 'Referer': 'http: // post.xiaohongshu.com /', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } resp = requests.get('http://post.xiaohongshu.com/web_api/sns/v1/homerus/note/list?page=1&page_size=200',headers=header) data = json.loads(resp.text)
最终,我成功获取到如下所示的数据集。
网上有很多模拟登录微博豆瓣等网站的教程和代码,但小红书这个平台貌似不太受用,这个思路对于很多需要登陆才能查看数据的网站都应该有帮助,因此分享在这里供参考。
Python学习交流群:238757010
作者:Nekyo
原文链接:https://my.oschina.net/nekyo/blog/1612055
Python 爬虫之模拟登录的更多相关文章
- Python爬虫之模拟登录微信wechat
不知何时,微信已经成为我们不可缺少的一部分了,我们的社交圈.关注的新闻或是公众号.还有个人信息或是隐私都被绑定在了一起.既然它这么重要,如果我们可以利用爬虫模拟登录,是不是就意味着我们可以获取这些信息 ...
- Python爬虫-百度模拟登录(二)
上一篇-Python爬虫-百度模拟登录(一) 接上一篇的继续 参数 codestring codestring jxG9506c1811b44e2fd0220153643013f7e6b1898075 ...
- Python爬虫-百度模拟登录(一)
千呼万唤屎出来呀,百度模拟登录终于要呈现在大家眼前了,最近比较忙,晚上又得早点休息,这篇文章写了好几天才完成.这个成功以后,我打算试试百度网盘的其他接口实现.看看能不能把服务器文件上传到网盘,好歹也有 ...
- 测试开发Python培训:模拟登录新浪微博-技术篇
测试开发Python培训:模拟登录新浪微博-技术篇 一般一个初学者项目的起点就是登陆功能的自动化,而面临的项目不同实现的技术难度是不一样的,poptest在做测试开发培训中更加关注技术难点,掌握技 ...
- Python爬虫常用之登录(二) 浏览器模拟登录
浏览器模拟登录的主要技术点在于: 1.如何使用python的浏览器操作工具selenium 2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些 一.使用selen ...
- Python post请求模拟登录淘宝并爬取商品列表
一.前言 大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录.一共是三篇博客,记录了我爬取淘宝网的经历.期间也有朋友向我 ...
- Java爬虫——人人网模拟登录
人人网登录地址:http://www.renren.com/ 此处登录没有考虑验证码验证码. 首先对登录方法进行分析 有两种方法. 一)在Elements中分析源码 发现登录点击后的事件是http:/ ...
- python爬虫scrapy之登录知乎
下面我们看看用scrapy模拟登录的基本写法: 注意:我们经常调试代码的时候基本都用chrome浏览器,但是我就因为用了谷歌浏览器(它总是登录的时候不提示我用验证码,误导我以为登录时不需要验证码,其实 ...
- Python爬虫常用之登录(一) 思想
爬虫主要目的是获取数据,常见的数据可以直接访问网页或者抓包获取,然后再解析即可. 一些较为隐私的数据则不会让游客身份的访问者随便看到,这个时候便需要登录获取. 一般获取数据需要的是登录后的cookie ...
随机推荐
- 解决 php7下 igbinary_unserialize_ref: invalid reference 的bug
最近组内升级了PHP7,某个接口偶发502,看了下php的错误日志如下: igbinary_unserialize_ref: invalid reference >= Memcached::ge ...
- jQuery中异步请求
1.load方法 使用load()方法通过Ajax请求加载服务器中的数据,并把返回的数据放置到指定的元素中,它的调用格式为: $(selector).load(URL,data,callback); ...
- xss实现钓鱼操作
自己写一个和原网站后台登录地址一模一样的钓鱼页面 JS加载一个iframe 100%覆盖原网页 提示登录超时重新登录 因为是iframe加载 url地址不变 钓鱼成功后 再跳转回/admin/inde ...
- 在Windows 10中更改网络连接优先级
查看接口列表 (也可使用 如下) 选择网络连接,然后单击右侧的箭头以更改网络连接优先级. 可以参考之前的部分 链接在此 更改单个wi-fi连接顺序可以使用如下
- Dubbo实践(四)设计模式
Dubbo框架在初始化和通信过程中使用了多种设计模式,可灵活控制类加载.权限控制等功能. 工厂模式 Provider在export服务时,会调用ServiceConfig的export方法.Servi ...
- Genymotion集成到Eclipse
在Eclipse中使用Genymotion Google的ADT中自带的模拟器速度太慢,可以使用Genymotion代替.关于Genymotion的安装方法,可以直接访问官网,需要注册账号,因为创建模 ...
- EF Core中外键关系的DeleteBehavior介绍(转自MSDN)
Delete behaviors Delete behaviors are defined in the DeleteBehavior enumerator type and can be passe ...
- C编程规范, 演示样例代码。
/*************************************************************** *Copyright (c) 2014,TianYuan *All r ...
- centos6.4 安装code::blocks
今天下午闲着没事尝试在自己的PC中的CentOS上装一个Code::Blocks,因为是Linux菜鸟折腾了一下午才基本算搞定但依然有疑惑: 在网上各种谷哥度娘最后才发现还是官方的文档最靠谱:看这里. ...
- rman基础知识理解(一)
rman用于对数据库的备份和恢复. 他的命令主要分成两大类:独立命令和批处理命令: 独立命令只能在rman的提示符下执行,主要的命令有: CONNECT CONFIGURE CREATE CATALO ...