使用urllib和http.cookiejar获取python老男孩学员成绩
打开http://crm.oldboyedu.com/crm/grade/single/ 鼠标右键查看源代码,可以看到我们需要post的name。如下:
这里需要在post试提交token和search_str的值,这里的token应该使用时效性的。可以一次获取,短时间内多次使用。
在没有使用cookie时提交数据报错:
这里需要加上cookie本地存储。
具体代码如下:
#!/usr/bin/env python3
__author__ = 'DSOWASP'
#encoding:UTF-8
import urllib
import urllib.parse
import http.cookiejar
import urllib.request
import prettytable
import collections # urllib.request.urlopen(url) 返回 http.client.HTTPResponse 对象 # 设置一个cookie处理器,它负责从服务器下载cookie到本地,并且在发送请求时带上本地的cookie
cj = http.cookiejar.LWPCookieJar()
cookies_support = urllib.request.HTTPCookieProcessor(cj)
opener = urllib.request.build_opener(cookies_support,urllib.request.HTTPHandler)
urllib.request.install_opener(opener) # get
#打开登录主页面(他的目的是从页面下载cookie,这样我们在再送post数据时就有cookie了,否则发送不成功)
# 获取网站内容
url = "http://crm.oldboyedu.com/crm/grade/single/"
h = urllib.request.urlopen(url) # 获取csrfmiddlewaretoken
data = h.read().decode('UTF-8')
for i in data.split('\n'):
# <form class="col-xs-12 col-sm-10 col-sm-offset-1" method="post" action="/crm/grade/single/"><input type='hidden' name='csrfmiddlewaretoken' value='QKNMJKS49GvbVBdBzADwFT2HuHxIUUcP' />
if "csrfmiddlewaretoken" in i:
i = i.strip().split('value')
m = i[1].split('\'')
token = m[1] #构造header,一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。
# header_dict={'User-Agent':\
# 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'} # qq列表,为了隐私,这里已将qq号删除
qq_list = [
'xxxxx','yyyyy',...
]
# 学号列表
xuehao_list = [
'1','2','3','4','5',
'6','7','8','9','10','11','13','14','15',
'16','17','18','19','20','21','22','23',
'24','25','26','27','28','29','30','31',
'32','33','34','35','36','37','38','39'
] chengji_list = collections.OrderedDict() #构造Post数据,他也是从抓大的包里分析得出的。 for qq in qq_list:
post = {}
post['search_str'] = qq
post['csrfmiddlewaretoken'] = token
# 成绩列表默认为空
chengji_list[qq] = []
#需要给Post数据编码
post_data = urllib.parse.urlencode(post).encode(encoding="utf-8")
# post
# req = urllib.request.Request(url,data=post_data,headers=header_dict)
req = urllib.request.Request(url,data=post_data)
data2 = urllib.request.urlopen(req)
# print(type(data2)) # <class 'http.client.HTTPResponse'>
data = data2.read()
data = data.decode('UTF-8')
data = data.split('\n')
# p_chegnji 如果遇到'<td>'则为True,下一行则就成绩。
p_chengji = False
for i in data:
i = i.strip()
if len(i) != 0:
if p_chengji == True:
chengji_list[qq].append(i)
p_chengji = False
# 获取成绩的的代码需要根据实际网页放回的源码而定。可以右键查看源代码来分析一种较好的方法获取到想要的值。
if '<td>' == i:
p_chengji = True
# 上课天数或网页上已展示的成绩列数
l = len(chengji_list[qq_list[0]])
# 打印模块头部
PrettyTlist = ['学号','QQ']
# 根据已展示的天数来扩充打印模块头部
for i in range(l):
i = i + 1
PrettyTlist.append('Day%d'%i)
# 添加打印模块头部'总分'
PrettyTlist.append('总分')
# 实例化打印头部
a = prettytable.PrettyTable(PrettyTlist) # 总成绩列表,qq:总成绩
sumc_chengji_list = {}
for xueyuan,grade in chengji_list.items():
if grade != []:
sumc = 0
for i in grade:
if i == 'A+':
sumc += 100
elif i == 'A':
sumc += 90
elif i == 'B+':
sumc += 85
elif i == 'B':
sumc += 80
elif i == 'B-':
sumc += 70
elif i == 'C+':
sumc += 60
elif i == 'C':
sumc += 50
elif i == 'C-':
sumc += 40
else:
sumc += 0
else:
# 如果查不到学员的成绩
sumc = 0
for i in range(l):
chengji_list[xueyuan].append('N/A')
chengji_list[xueyuan].append(sumc)
sumc_chengji_list[xueyuan]=sumc
# [(qq,总成绩),()]
# sorted,把items()的值给lamdba,asd[0] 为qq号,asd[1]为总成绩,key表示排序的列,resverse 为True表示降序 # sorted(dic,value,reverse)
# dic为比较函数,value 为排序的对象(这里指键或键值),
# reverse:注明升序还是降序,True--降序,False--升序(默认) sort_chengji_list = sorted(sumc_chengji_list.items(),key = lambda asd:asd[1],reverse = True) # 生成打印列表
for xueyuan,grade in sort_chengji_list:
add_row = [xuehao_list[qq_list.index(xueyuan)],xueyuan]
for i in chengji_list[xueyuan]:
add_row.append(i)
a.add_row(add_row)
print(a)
输出结果:
使用urllib和http.cookiejar获取python老男孩学员成绩的更多相关文章
- urllib的实现---timeout,获取http响应码,重定向,proxy的设置
1.Timeout设置超时 只能修改Socket设置全局Timeout #! /usr/bin/env python3 import socket import urllib.request # ti ...
- php使用CURL不依赖COOKIEJAR获取COOKIE的方法
本文实例讲述了php使用CURL不依赖COOKIEJAR获取COOKIE的方法.分享给大家供大家参考.具体分析如下: PHP中CURL类是一个非常牛逼的工具类,具体怎么牛逼就不啰嗦了. 对于COOKI ...
- 获取python的版本
import sys # Syntax sugar. _ver = sys.version_info # 获取python版本 #: Python 2.x? is_py2 = (_ver[0] == ...
- python作业学员管理系统(第十二周)
作业需求: 用户角色,讲师\学员, 用户登陆后根据角色不同,能做的事情不同,分别如下 讲师视图 管理班级,可创建班级,根据学员qq号把学员加入班级 可创建指定班级的上课纪录,注意一节上课纪录对应多条学 ...
- Day_11【集合】扩展案例1_遍历打印学生信息,获取学生成绩的最高分,获取成绩最高的学员,获取学生成绩的平均值,获取不及格的学员数量
分析以下需求,并用代码实现: 1.按照以下描述完成类的定义 学生类 属性: 姓名name 年龄age 成绩score 行为: 吃饭eat() study(String content)(content ...
- Python——urllib函数网络文件获取
*/ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:text.cpp * 作者:常轩 * 微信公众号:Worldhe ...
- 智联招聘获取python岗位的数据
import requests from lxml import html import time import pandas as pd from sqlalchemy import create_ ...
- b站滑动验证码图片的获取-python
本文仅是获取验证码图片,python+selenium实现 图片的处理,算出偏移位置网上都有现成的:而由于b站的更新,图片的获取则与之前完全不同,不能直接从html中拿到 过程比较曲折所以记录一下,可 ...
- 获取Python安装目录
>>> import sys>>> path=sys.executable>>> print (path)C:\Users\jumz-G\AppD ...
随机推荐
- 设计模式09: Decorator 装饰模式(结构型模式)
Decorator 装饰模式(结构型模式) 子类复子类,子类何其多加入我们需要为游戏中开发一种坦克,除了不同型号的坦克外,我们还希望在不同场合中为其增加以下一种多种功能:比如红外线夜视功能,比如水路两 ...
- win8 附件数据库失败解决方案《1》
sql server 2005附加数据库错误:尝试打开或创建物理文件 无法打开物理文件 "E:\works\database\northwnd\northwnd.mdf".操作系统 ...
- C# DataGridView控件动态添加新行
C# DataGridView控件动态添加新行 DataGridView控件在实际应用中非常实用,特别需要表格显示数据时.可以静态绑定数据源,这样就自动为DataGridView控件添加相应的行.假如 ...
- React + Python 七月小说网 功能设计(二)
概述 在通过对世面上的各种小说网站简单了解之后(PS:好多盗版网站真的好丑哦.),去除花里胡哨的功能,保留实用功能. 初步制定了以下几个功能需求,当然,所有需求功能都是我自己设计.自己评审,大不了到时 ...
- c# 读取txt文档和写入文档的方法
StreamReader sr = new StreamReader(path); //path是要读取的文件的完整路径 String str_read = sr.ReadToEnd(); //从开始 ...
- MultiDataTrigger
MultiDataTrigger是多条件数据触发器 和MltiTrigger是同样的,只不过前者是数据,后者是属性. 这个是基本的使用语法 <MultiDataTrigger> <M ...
- 进阶Kotlin-常见关键字
常见Kotlin 的关键字 一些常见的语法,我没有写注释. 前面基础的kotlin语法已经弄完了. 现在是高阶kotlin的语法啊. 包括,面向对象,lambad等. 其中面向对象的三大特点:封装 ...
- 【转】VS2010中无System.Data.OracleClient引用的问题
源地址:http://blog.csdn.net/pinchw/article/details/30465749
- 【bzoj4036】[HAOI2015]按位或 fmt+期望
Description 刚开始你有一个数字0,每一秒钟你会随机选择一个[0,2^n-1]的数字,与你手上的数字进行或(c++,c的|,pascal 的or)操作.选择数字i的概率是p[i].保证0&l ...
- loj #2509. 「AHOI / HNOI2018」排列
#2509. 「AHOI / HNOI2018」排列 题目描述 给定 nnn 个整数 a1,a2,…,an(0≤ai≤n),以及 nnn 个整数 w1,w2,…,wn.称 a1,a2,…,an 的 ...