python requests 模拟登陆网站，抓取数据

抓取页面数据的时候，有时候我们需要登陆才可以获取页面资源，那么我们需要登陆以后才可以跳转到对应的资源页面，那么我们需要通过模拟登陆，登陆成功以后再次去抓取对应的数据。

首先我们需要通过手动方式来登陆一下，查看一下如何请求登陆

通过下图我们看到真正处理请求的页面是login.php,登陆成功以后跳转到index.php页面，下面我们来模拟一下。

代码实现

LOGIN_URL = 'http://yingxiao.chewumi.com/login.php'  #请求的URL地址

DATA = {"username":'accountID',"passwd":'passwd'}   #登录系统的账号密码,也是我们请求数据

HEADERS = {

            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' #模拟登陆的浏览器

           }

RES = requests.post(LOGIN_URL,data=DATA,headers=HEADERS)  #模拟登陆操作

print (RES.text) #打印返回的文本信息

下来我们请求其他的页面看一下效果

RES1 = requests.get("http://yingxiao.chewumi.com/show.php?id=64621190")

print(RES1.text)

此时我们登陆成功再次请求其他的页面的时候，发现无法请求到对应的页面，意味到刚才的模拟登陆只对当前的操作起作用，那么如何使用下面的请求继续有效。实际过程中我们知道session过期，我们需要重新登陆，那么我们第一次登陆成功session，只对当前有效，所以我们再次登录就登陆失败，那么我们需要在session有效期内，把session保存，然后再次去请求其他的页面。

def Get_Session(URL,DATA,HEADERS):

    '''保存登录参数'''

    ROOM_SESSION  = requests.Session()

    ROOM_SESSION.post(URL,data=DATA,headers=HEADERS)

    return ROOM_SESSION

SESSION =Get_Session(LOGIN_URL,DATA,HEADERS)

# 保存session后再次请求对应的地址

RES2 = SESSION.get("http://yingxiao.chewumi.com/show.php?id=64621190")

print(RES2.text)

此时我们看到已经可以请求到对应的页面了。

python requests 模拟登陆网站，抓取数据的更多相关文章

Scrapy模拟登陆豆瓣抓取数据
scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件进入到douban 然后创建爬虫文件 scrapy genspider dou douban. ...
Java模拟登陆新浪微博抓取数据【转载】
package com.shiyimm.crawler.weibo; import java.io.FileNotFoundException; import java.io.FileReader; ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站
Python如何实现模拟登陆爬取Python实现模拟登陆的方式简单来说有三种:一.采用post请求提交表单的方式实现.二.利用浏览器登陆网站记录登陆成功后的cookies,采用get的请求方式,传入c ...
PHP Curl模拟登录并抓取数据
使用PHP的Curl扩展库可以模拟实现登录,并抓取一些需要用户账号登录以后才能查看的数据.具体实现的流程如下(个人总结): 1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: ...
PHP获取cookie、Token、模拟登录、抓取数据、解析生成json
本文介绍使用PHP获取cookie,获取Token.以及模拟登录.然后抓取数据.最后解析生成json的的过程. 0. 设置Cookie路径 set_time_limit(0); //使用的cookie ...
利用python脚本（xpath）抓取数据
有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from ...
python+requests模拟登陆学校选课系统
最近学校让我们选课,每天都有不同的课需要选....然后突发奇想试试用python爬学校选课系统的课程信息先把自己的浏览器缓存清空,然后在登陆界面按f12 如图: 可以看到登陆时候是需要验证码的,验证 ...
Python爬虫之使用正则表达式抓取数据
目录匹配标签匹配title标签 a标签 table标签匹配标签里面的属性匹配a标签里面的URL 匹配img标签里的 src 相关文章:Linux中的正则表达式 Python中的正则表达式实例 ...

随机推荐

String 类的实现（2）深度拷贝详解
我们已经知道了浅拷贝存在的问题,即多次析构同一空间.这个问题是类的成员函数引起的,就是前面浅拷贝里相当于编译器自动合成的函数,确切的说,浅拷贝里的问题是由隐士拷贝构造函数和隐士赋值运算符引起的. 拷贝 ...
MongoDB基础教程系列--第三篇 MongoDB基本操作（二）
1.集合操作 1.1.创建集合 MongoDB 用 db.createCollection(name, options) 方法创建集合. 格式 db.createCollection(name, op ...
创建你的第一个webdriver python代码
前言今天我们开始我们的第一个python webdriver自动化测试脚本.并就测试脚本进行一一解释说明. webdriver python代码本示例代码演示了使用Ie浏览器访问百度进行搜索测试. ...
ARM中断处理过程
以s3c2440 ARM9核为例: 一:s3c2440 ARM处理器特性: 1.S3C2440支持个中断源,含子中断源: 2.ARM9采用五级流水线方式: 3.支持外部中断和内部中断: 二.s3c2 ...
JavaScript--------------------jQuery中.bind() .live() .delegate() .on()的区别和三种方式写光棒事件动画
bind(type,[data],fn) 为每个匹配元素的特定事件绑定事件处理函数. $("a").bind("click",function(){alert( ...
（function($){….}）（jQuery）一种js插件写法
我们先看第一个括号里边的内容:function($){….},这不就是一个匿名的函数吗?但是它的形参比较奇怪,是$,这里主要是为了不与其它的库冲突. 这样我们就比较容易理解第一个括号内的内容就是定义了 ...
JS取消浏览器文本选中的方法
一 .问题的出现今天在使用Easy-UI 的messager.alert()方法时候出现浏览器文本被选中,不知道其中是什么原因,如下图所示. 二 .解决思路我最后的思路时在弹出消息框的同时,取消浏 ...
[转载]前端构建工具gulpjs的使用介绍及技巧
转载地址:http://www.cnblogs.com/2050/p/4198792.html gulpjs是一个前端构建工具,与gruntjs相比,gulpjs无需写一大堆繁杂的配置参数,API也非 ...
T-SQL编程语句
书接上回一起学习下SQL中的表连接一般情况下咱们会使用鼠标去进行表连接操作,那针对于像我比较懒的并且眼盲的,不喜欢来回切换,咱们就用到了点T-SQL表连接语句一般情况咱们从两个表中查出来相似的内 ...
Python-一些实用的函数
一,返回值为bool类型的函数 1.any()函数 any(iterable)->bool 当迭代器中有一个是Ture,则返回Ture:若interable=NUll,则返回False. > ...

python requests 模拟登陆网站，抓取数据

python requests 模拟登陆网站，抓取数据的更多相关文章

随机推荐

热门专题