python+requests模拟登陆学校选课系统

最近学校让我们选课，每天都有不同的课需要选。。。。然后突发奇想试试用python爬学校选课系统的课程信息

先把自己的浏览器缓存清空，然后在登陆界面按f12 如图：

可以看到登陆时候是需要验证码的，验证码图标打算用方法把它存在桌面，手动输入验证码。

或者可以买一个自动输入验证码的平台1快钱可以帮自动识别100到200次验证码，如果这样做

大概过程就是：

1.找到自动输入验证码的平台

2.阅读该平台的API或者手册

3.用编程语言把验证码图片保存到自己电脑后根据平台格式要求打包，通过url发送过去

4.用返回的数字输入到验证码窗口

这次我就简单做一个需要自己手动输入验证码的模拟登陆脚本算了

回到正题

由于我清除了缓存，所以现在相当于第一次登陆，然后我没有登陆而是直接点了f5刷新，浏览器捕捉到的这个请求

可以看到这个是get请求并且请求头是两个Cookie。

Cookie就是我这台电脑我唯一标识符，当我下次访问这个网页时候它会用这个东西来进一步做一下操作，比如：进一步验证我的身份或者可以利用Cookie无需账号密码直接登陆

这里有两个cookie测试看看需用哪个下面我再清一次缓存

首先上面有两个cookie下面没。下面是我这边发送给学校的http请求，当我再刷新一次时候

可以看到下面箭头发送给学校的http请求中多了一个cookie而且是最开始的set-cookie中的第二个，接着我再刷新一次

可以看到发给学校的cookie变成了上次的set-cooki。

那么可以看到图中的 http://xk.qhnu.edu.cn/xsxk/logout.xk 这个网址是用于生成和发送cookie码的

那么如果我们不用浏览器登陆改成用代码登陆那么cookie应该是有用的，毕竟是用来标识我这台电脑的。

虽然不知道这个cookie码有没有用先获取下来再说吧

这里需要用到python的request库

电脑安装好python后（在官网可以下载python并安装）

在配置好环境变量后可以输入win+r键后输入cmd 调出cmd命令窗口

然后输入 pip install requests 后会自动安装requests库

接下来我们需要在桌面新建文件并把后缀名改成 .py

源代码如下：

 import requests

 get_cookie_url='http://xk.qhnu.edu.cn/xsxk/logout.xk'

 r = requests.get(get_cookie_url)

 cookie=r.cookies.get_dict()

 print(cookie)# 输出cookie

这里调用了requests的get方法，因为刚才看图片上的这个网址用的就是get请求

把结果保存在r里，然后用

.cookies.get_dict()得到cookie值

测试结果如下：

可以看到拿到了cookie码

：前面的是cookie ID 后面是cookie的值

登陆

接下来使用抓包工具Wireshark 监听经过这个网页的流量，也可以用刚才的f12看

输入账号密码和验证码后点击登陆抓取到以下数据

登陆的时候时候给 http://xk.qhnu.edu.cn/xsxk/loadData.xk（没有截图到，可以自己抓包看到）这个网址发送了数据并且发送头包含cookie等信息

并且发送给这个网页用的方法是get（没有截图到，可以自己抓包看到）

发送的数据变量有

method

username

password

verifcode

那么后面三个就应该是账号密码验证码了

通过上面提供的信息，我们可以伪造一个发给这个网址的请求

代码如下

check_header={

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',

    'Host': 'xk.qhnu.edu.cn',

}

params={

    'method':'checkLogin',

    'username':自己的学号,

    'password':自己的账号,

}

check_url='http://xk.qhnu.edu.cn/xsxk/loadData.xk'

r = requests.get(check_url,params=params,cookies=cookie)

#cookie由之前的代码获得

但是可以看到我们缺少了一个verifcode变量用来存放所输入的正确验证码值，因为我还要想办法把验证码的图片保存到桌面，方便看到。

这里我用谷歌浏览器f12的定位功能定位到验证码图片，并且显示了相对应的html代码

从图中可以看到这个验证码是由src中的网址生成的，而且d=后面是一串数字，当我再刷新时候这串数字也发生变化

看这串数字不难发现它是一串格林尼治时间，也就是说我们要获得验证码就需要访问src中的网页，并且这个网址需要传递

一串数字，这串数字是格林尼治时间。我猜是为了做随机生成的吧

那么我们用get方法来访问这个网址并且将访问的数据保存到桌面

代码：

 import time

 jpg_url = 'http://xk.qhnu.edu.cn/xsxk/servlet/ImageServlet?d='+str(int(time.time())*1000)

 content = requests.get(jpg_url,cookies=cookie).content

 with open('demo.jpg', 'wb') as fp:

     fp.write(content)

运行后桌面生成了验证码的图片

在获取这个验证码之前我用抓包工具看了一下往这个地址发送的数据中又包括了cookie，所以我加上cookie了

在不加cookie的话就算获取到了验证码图片在进行模拟登陆时候根据桌面上的图登陆总是验证码错误

在折腾了一段时间后发现验证码的生成会和我的cookie相关联，也就是说，验证码的生成不仅用到格林尼治时间还用到我的cooki

并将验证码与我的cookie绑定，一一对应

然后通过

while(True):

    code = input('请输入验证码：')

    datacode= str(code)

    params['verifyCode']=datacode

    r = requests.get(check_url,params=params,cookies=cookie)

    if re.search('true',r.text):

        print ('验证码正确......')

        break

    else:

        print ('验证码错误，请重新输入......')

date['verifyCode']=datacode

将验证码加入到前面的date中，发送给/xsxk/loadData.xk，在发送成功后查看返回信息发现验会有true字符串或者false，那么我就可以利用这个来验证我是不是正确

这样用到的re库需要导入

回到刚才的登陆

继续看抓包的数据，发现了post方法，一般来说post方法是真正的登陆窗口

post方法前面的 get /xsxk/loadDate...... 就是我们前面实现的get，现应该实现post真正的登陆了

在查看post发送的数据中包含了头信息，其中包括cookie 和账号密码所以我们用requests的post方法继续伪造请求

在post结束后学校服务器会返回一个302 found的http状态码这表示浏览器将我的数据发送后，会重新跳转到另外一个网页

不过requests是可以自动跳转的，不需要担心

代码

log_header={    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

    'Origin':'http://xk.qhnu.edu.cn',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',

    'Referer':'http://xk.qhnu.edu.cn/xsxk/logout.xk',

    'Accept-Encoding':'gzip, deflate',

    'Accept-Language':'zh-CN,zh;q=0.9',

    'Host': 'xk.qhnu.edu.cn',

    'Cache-Control': 'max-age=0',

    'Upgrade-Insecure-Requests': ''

}

date={

'username':自己的学号,

'password':自己的密码,

}

log_url='http://xk.qhnu.edu.cn/xsxk/login.xk'

r=requests.post(log_url,data=date,headers=log_header,cookies=cookie)

#传递的参数cooki由之前的代码获得

其中的 date和log_header都是通过抓包看到的这个网页需要哪些数据。

代码写好后运行并且抓包发现与用网页登陆抓取的包大致相同，通过多次修改可以总结如下

通过用网页登陆抓包发现登陆学校的网址有一下步骤

1.在清空缓存，刷新时（即第一次登陆时），会先向xsxk/logout.xk发送cookie

2.在get验证码的所需要的数据中通过抓包发现需要用到第一步的cookie

3.在登陆前需要向xsxk/loadData.xk发送自己的账号密码和验证码和cookie

4.登陆时用的是post方法，并且还需要将自己的账号密码和之前的验证码和cookie发送一次如果没有完成第三步那么无论怎么登陆都失败

完整代码如下

import time

import requests

import re

from bs4 import BeautifulSoup #获取解析网页的库

username=input("账号")

password=input("密码")

get_cookie_url='http://xk.qhnu.edu.cn/xsxk/logout.xk'

jpg_url = 'http://xk.qhnu.edu.cn/xsxk/servlet/ImageServlet?d='+str(int(time.time())*1000)

check_url='http://xk.qhnu.edu.cn/xsxk/loadData.xk'

log_url='http://xk.qhnu.edu.cn/xsxk/login.xk'

get_cookie_header={

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'

}

check_header={

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',

    'Host': 'xk.qhnu.edu.cn',

}

params={

    'method':'checkLogin',

    'username':username,

    'password':password,

}

log_header={

    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

    'Origin':'http://xk.qhnu.edu.cn',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',

    'Referer':'http://xk.qhnu.edu.cn/xsxk/logout.xk',

    'Accept-Encoding':'gzip, deflate',

    'Accept-Language':'zh-CN,zh;q=0.9',

    'Host': 'xk.qhnu.edu.cn',

    'Cache-Control': 'max-age=0',

    'Upgrade-Insecure-Requests': ''

}

date={

'username':username,

'password':password,

}

r = requests.get(get_cookie_url)

cookie=r.cookies.get_dict()

#print(cookie) 输出cookie

content = requests.get(jpg_url,cookies=cookie).content

with open('demo.jpg', 'wb') as fp:

    fp.write(content)

while(True):

    code = input('请输入验证码：')

    datacode= str(code)

    params['verifyCode']=datacode

    r = requests.get(check_url,params=params,cookies=cookie)

    if re.search('true',r.text):

        print ('验证码正确......')

        break

    else:

        print ('验证码错误，请重新输入......')

date['verifyCode']=datacode

r=requests.post(log_url,data=date,headers=log_header,cookies=cookie)

#print(r.text)获得网址的源代码

html=BeautifulSoup(r.text,'lxml')

tagList=html.find('b')

print('#############################################################')

print('进入选课系统成功：')

print(tagList.get_text())

print('#############################################################')

在这里用了另外一个库用于解析所获取的登陆后网页源代码

总的来说就是先用浏览器和抓包工具，浏览器多次登陆，用抓包工具和浏览器的f12查看登陆前经历了哪些步骤，哪些网页，每个网页分别发送了哪些数据，用的是get方法还是post方法

在知道后，用代码将所需要的数据写出来并保存后用requests库的get方法post方法模拟发送数据给学校服务器。最后获得登陆后的网页源代码

不过。。。我在获得源代码后发现html中的iframe标签显示的是选课的内容，但是我用于分析网页代码的库是BeautifulSoup

它不支持分析iframe内容。。。白忙活了那么久。

通过在网上查找信息发现selenium这个库支持分析iframe标签的内容

所以接下来就去学习用这个库去获取学习的选课信息并且自动选课

下次就放用selenium做爬虫的过程

python+requests模拟登陆学校选课系统的更多相关文章

python requests 模拟登陆网站，抓取数据
抓取页面数据的时候,有时候我们需要登陆才可以获取页面资源,那么我们需要登陆以后才可以跳转到对应的资源页面,那么我们需要通过模拟登陆,登陆成功以后再次去抓取对应的数据. 首先我们需要通过手动方式来登陆一 ...
python requests模拟登陆正方教务管理系统，并爬取成绩
最近模拟带账号登陆,查看了一些他人的博客,发现正方教务已经更新了,所以只能自己探索了. 登陆: 通过抓包,发现需要提交的值需要值lt,这是个啥,其实他在访问登陆页面时就产生了 session=req ...
python第三十五天-----作业完成--学校选课系统
选课系统:角色:学校.学员.课程.讲师要求:1. 创建北京.上海 2 所学校2. 创建linux , python , go 3个课程 , linux\py 在北京开, go 在上海开3. 课程包含, ...
【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站
Python如何实现模拟登陆爬取Python实现模拟登陆的方式简单来说有三种:一.采用post请求提交表单的方式实现.二.利用浏览器登陆网站记录登陆成功后的cookies,采用get的请求方式,传入c ...
python爬虫模拟登陆
python爬虫模拟登陆学习了:https://www.cnblogs.com/chenxiaohan/p/7654667.html 用的这个学习了:https://www.cnblogs.co ...
Python脚本模拟登陆DVWA
目录 requests模拟登陆 Selenium自动化测试登陆环境:python3.7 windows requests模拟登陆我们登陆DVWA的时候,看似只有一步:访问网站,输入用户名和密码,登 ...
Python requests模拟登录
Python requests模拟登录 #!/usr/bin/env python # encoding: UTF-8 import json import requests # 跟urllib,ur ...
Python实现模拟登陆
大家经常会用Python进行数据挖掘的说,但是有些网站是需要登陆才能看到内容的,那怎么用Python实现模拟登陆呢?其实网路上关于这方面的描述很多,不过前些日子遇到了一个需要cookie才能登陆的网站 ...
Requests模拟登陆
requests模拟登陆知乎网站实例 # -*- coding: utf-8 -*- __author__ = 'CQ' import requests try: import cookielib ...

随机推荐

Kontln的属性形式Getter和Setter
package loaderman.demo class Person { val name: String get() = "name" var v: Int = 0 var v ...
Scrapy - 小说爬虫
实例解析 - 小说爬虫页面分析共有三级页面一级页面大目录二级页面章节目录三级界面章节内容爬取准备一级界面 http://www.daomubiji.com/ 二级页面xpath 直 ...
十个Python爬虫武器库示例，十个爬虫框架，十种实现爬虫的方法！
一般比价小型的爬虫需求,我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步加载问题.相对比较大型的需求才使用框架,主要是便于管理以及扩展等. 1.Scr ...
oracle相关知识点
oracle数据库,实例名和数据库是一一对应的,oracle服务端可以启动多个实例,对应于多个数据库. 数据库可以通过sqlplus / as sysdba 进入默认SID的实例, 查看当前的实例名: ...
安装完 MySQL 后必须调整的 10 项配置(转)
当我们被人雇来监测MySQL性能时,人们希望我们能够检视一下MySQL配置然后给出一些提高建议.许多人在事后都非常惊讶,因为我们建议他们仅仅改动几个设置,即使是这里有好几百个配置项.这篇文章的目的在于 ...
每次开机后需要重新连接wifi才能上网
这几天打开电脑后,每次都要重新连接wifi才能上网, 网上查到如下解决方法: 打开网络和共享中心->右键无线网络->配置->电源管理->允许计算机关闭此设备以节约电源(勾选去掉 ...
swift 第一课基础知识-1
1. 基本的打印: print("这是学习 swift 的第一课") var varA = print("a 的值是 \(varA)") //注:字符串打印参数 ...
django的邮件email功能
注意测试的时候python manage.py test -p "test_tasks.py" -v 3,默认使用的EMAIL_BACKEND配置为:'django.core.m ...
分析UIS-RNN源代码的代码规范和风格
结合工程实践选题相关的一套源代码,根据其编程语言或项目特点,分析其在源代码目录结构.文件名/类名/函数名/变量名等命名.接口定义规范和单元测试组织形式等方面的做法和特点: 列举哪些做法符合代码规范和风 ...
JS遍历数组，实现数组去重（重复的元素只保留一个）
1.遍历数组法它是最简单的数组去重方法(indexOf方法) 实现思路:新建一个数组,遍历去要重的数组,当值不在新数组的时候(indexOf为-1)就加入该新数组中: var arr=[2,8,5, ...

python+requests模拟登陆 学校选课系统

回到正题

登陆

python+requests模拟登陆 学校选课系统的更多相关文章

随机推荐

热门专题

python+requests模拟登陆学校选课系统

python+requests模拟登陆学校选课系统的更多相关文章