用Python爬虫爬取广州大学教务系统的成绩(内网访问)
用Python爬虫爬取广州大学教务系统的成绩(内网访问)
在进行爬取前,首先要了解:
1、什么是CSS选择器?
每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是“选择器”。
“选择器”指明了{}中的“样式”的作用对象,也就是“样式”作用于网页中的哪些元素。
可参考:
http://www.w3school.com.cn/cssref/css_selectors.asp
http://www.ruanyifeng.com/blog/2009/03/css_selectors.html
2、常用的三种网页抓取方法(例子可能不可用,只要看方法就可以了)
正则表达式:
# -*- coding: utf-8 -*- import urllib2
import re def scrape(html):
area = re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_fw["\']>(.*?)</td>', html)[0]
return area if __name__ == '__main__':
html = urllib2.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
print scrape(html)
流行的BeautifulSoup模块:
# -*- coding: utf-8 -*- import urllib2
from bs4 import BeautifulSoup def scrape(html):
soup = BeautifulSoup(html)
tr = soup.find(attrs={'id':'places_area__row'}) # locate the area row
# 'class' is a special python attribute so instead 'class_' is used
td = tr.find(attrs={'class':'w2p_fw'}) # locate the area tag
area = td.text # extract the area contents from this tag
return area if __name__ == '__main__':
html = urllib2.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
print scrape(html)
强大的lxml模块:
# -*- coding: utf-8 -*- import urllib2
import lxml.html def scrape(html):
tree = lxml.html.fromstring(html)
td = tree.cssselect('tr#places_neighbours__row > td.w2p_fw')[0]
area = td.text_content()
return area if __name__ == '__main__':
html = urllib2.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
print scrape(html)
本文选用第三种网页抓取的方法:lxml(性能快,使用难度简单,只是安装难度相对困难而已,建议直接安装anaconda)
3、什么是cookie?
在 Internet 中,Cookie 实际上是指小量信息,是由 Web 服务器创建的,将信息存储在用户计算机上的文件。一般网络用户习惯用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 Session 跟踪而存储在用户本地终端上的数据,而这些数据通常会经过加密处理。
通常情况下,当用户结束浏览器会话时,系统将终止所有的 Cookie。当 Web 服务器创建了Cookies 后,只要在其有效期内,当用户访问同一个 Web 服务器时,浏览器首先要检查本地的Cookies,并将其原样发送给 Web 服务器。这种状态信息称作“Persistent Client State HTTP Cookie” ,简称为 Cookies。
具体含义:
“Cookie”是小量信息,由网络服务器发送出来以存储在网络浏览器上,从而下次这位独一无二的访客又回到该网络服务器时,可从该浏览器读回此信息。这是很有用的,让浏览器记住这位访客的特定信息,如上次访问的位置、花费的时间或用户首选项(如样式表)。Cookie 是个存储在浏览器目录的文本文件,当浏览器运行时,存储在 RAM 中。一旦你从该网站或网络服务器退出,Cookie 也可存储在计算机的硬驱上。当访客结束其浏览器对话时,即终止的所有 Cookie。
主要用途:
服务器可以利用Cookies包含信息的任意性来筛选并经常性维护这些信息,以判断在HTTP传输中的状态。Cookies最典型的应用是判定注册用户是否已经登录网站,用户可能会得到提示,是否在下一次进入此网站时保留用户信息以便简化登录手续,这些都是Cookies的功用。另一个重要应用场合是“购物车”之类处理。用户可能会在一段时间内在同一家网站的不同页面中选择不同的商品,这些信息都会写入Cookies,以便在最后付款时提取信息。
4、csv文件
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
可以看成是我们常见的excel文件,只不过是用逗号分隔每一个单元格而已。
完整代码如下:
# -*- coding: utf-8 -*- import urllib
import urllib2
import cookielib
import lxml.html
import csv # 用户名、密码
LOGIN_USERNAME = ''
LOGIN_PASSWORD = '******' LOGIN_URL1 = 'https://cas.gzhu.edu.cn/cas_server/login'
LOGIN_URL2 = 'http://202.192.18.189/login_gzdx.aspx' def parse_form(html):
'''
获取表单提交所需的所有隐藏域
:param html: html代码
:return: 该页面的表单提交所需的所有隐藏域
'''
tree = lxml.html.fromstring(html)
data = {}
for e in tree.cssselect('form input'):
if e.get('name'):
data[e.get('name')] = e.get('value').encode('utf-8')
return data def getRecordsHTML():
'''
发送POST请求提交表单
使用cookie登录数字广大
再次使用cookie登录"http://202.192.18.189/login_gzdx.aspx"
然后再次发送POST请求提交表单查询成绩
:return:查询成绩的html
'''
mcj = cookielib.MozillaCookieJar('mcj.txt')
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(mcj))
html = opener.open(LOGIN_URL1).read()
data = parse_form(html)
data['username'] = LOGIN_USERNAME
data['password'] = LOGIN_PASSWORD
encoded_data = urllib.urlencode(data)
request = urllib2.Request(LOGIN_URL1, encoded_data)
response = opener.open(request)
print(response.geturl()) request = urllib2.Request(LOGIN_URL2, encoded_data)
response = opener.open(request)
print(response.geturl()) html = opener.open(response.geturl()).read()
tree = lxml.html.fromstring(html)
path = tree.cssselect('#headDiv > ul > li:nth-child(6) > ul > li:nth-child(1) > a')[0].get('href')
URL3 = 'http://202.192.18.185/' + \
urllib.quote(path.encode('gbk'), safe='?=&')
print(URL3) html = opener.open(URL3).read()
data = parse_form(html)
newData = {
'__VIEWSTATE': data['__VIEWSTATE'],
'__VIEWSTATEGENERATOR': data['__VIEWSTATEGENERATOR'],
'Button2': data['Button2']
}
# print('data=', newData) encoded_data = urllib.urlencode(newData)
request = urllib2.Request(URL3, encoded_data)
response = opener.open(request)
mcj.save(ignore_discard=True, ignore_expires=True)
html = response.read()
return html def main():
'''
提取并保存成绩到“在校学习成绩.csv”文件中
'''
writer = csv.writer(open('在校学习成绩.csv', 'w'))
tree = lxml.html.fromstring(getRecordsHTML())
row = [] for i in xrange(1, 100):
for j in xrange(15):
try:
row.append(tree.cssselect('#Datagrid1 > tr:nth-child(%s) > td' % i)[j].text_content().encode('utf-8'))
except Exception as e:
break
writer.writerow(row)
row = [] if __name__ == '__main__':
main()
运行结果:
生成的csv文件如下:
因为上面的代码已经将cookie信息保存下来了,下次访问我们就可以用下面的代码:
# -*- coding: utf-8 -*- import urllib
import urllib2
import cookielib
import lxml.html
import csv def parse_form(html):
'''
获取表单提交所需的所有隐藏域
:param html: html代码
:return: 该页面的表单提交所需的所有隐藏域
'''
tree = lxml.html.fromstring(html)
data = {}
for e in tree.cssselect('form input'):
if e.get('name'):
data[e.get('name')] = e.get('value').encode('utf-8')
return data def getRecordsHTML():
mcj = cookielib.MozillaCookieJar()
mcj.load('mcj.txt', ignore_discard=True, ignore_expires=True)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(mcj))
URL3 = 'http://202.192.18.185/xscj_gc.aspx?xh=1406100037'
html = opener.open(URL3).read()
data = parse_form(html)
newData = {
'__VIEWSTATE': data['__VIEWSTATE'],
'__VIEWSTATEGENERATOR': data['__VIEWSTATEGENERATOR'],
'Button2': data['Button2']
} encoded_data = urllib.urlencode(newData)
request = urllib2.Request(URL3, encoded_data)
response = opener.open(request)
html = response.read()
return html def main():
writer = csv.writer(open('在校学习成绩2.csv', 'w'))
tree = lxml.html.fromstring(getRecordsHTML())
row = [] for i in xrange(1, 100):
for j in xrange(15):
try:
row.append(tree.cssselect('#Datagrid1 > tr:nth-child(%s) > td' % i)[j].text_content().encode('utf-8'))
except Exception as e:
break
writer.writerow(row)
row = [] if __name__ == '__main__':
main()
本文地址:http://www.cnblogs.com/jacen789/p/8058897.html
更新版本的爬虫:https://github.com/Jacen789/GzhuGradesCrawler
用Python爬虫爬取广州大学教务系统的成绩(内网访问)的更多相关文章
- Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
- 使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...
- Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
- python爬虫爬取内容中,-xa0,-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
- Python爬虫爬取全书网小说,程序源码+程序详细分析
Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...
- python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
- 一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: # -*- cod ...
- python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
- python爬虫---爬取王者荣耀全部皮肤图片
代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...
随机推荐
- FreeRTOSConfig 配置文件详解
以下转载自安富莱电子: http://forum.armfly.com/forum.php 本章节为大家讲解 FreeRTOS 的配置文件 FreeRTOSConfig.h 中每个选项的作用.初学的话 ...
- Groovy学习()Groovy是啥?
Groovy是啥? groovy是英文中的一个单词,有marvelous.wonderful和excellen的意思. groovy是轻量级的,动态的,面向对象的,并且运行在JVM上的. groovy ...
- PHP uxf framework 在模版中加入url标签
1. 确保不修改discuz代码: 2. 继承discuz template类,重载parse_template 方法:由于discuz在模版引擎这一块没有考虑扩展性,对标签的解析全部写在一个方法中, ...
- Eclipse上配置btm
1.新建一个空的工程btm-szny,jdk版本1.6 2.在工程中导入CVS中的代码如下图
- UCOS2系统内核讲述(二)_初始化调用函数
Ⅰ.写在前面 学习本文之前可以参看我前面的文章: UCOS2_STM32F1移植详细过程(汇总文章) UCOS2系统内核讲述(一)_总体描述 还是按照上一篇文章的思维(从外到内),本文(结合源代码)进 ...
- H2 Database 支持数据类型
整数(INT) -2147483648 到 2147483647 java.lang.Integer 布尔型(BOOLEAN) TRUE 和 FALSE java.lang.Boolean 微整数(T ...
- 介绍编译的less的几种IDE工具
介绍编译的less的两种IDE工具 现在css预编译越来越普及了,著名的有less.sass.stylus等等等等.功能上基本上都是大同小异.这些个玩意儿主要表达的意思就是:“像编程一样的编写你的cs ...
- Entity Framework(六):数据迁移
在前面的几篇文章中,简单的介绍了如何使用Entity Framework的Code First模式创建数据库,但是,在前面的几篇文章中,我们都是通过使用数据库初始化策略来做,也就是每次先删除数据库然后 ...
- php -- 设计模式 之 单例模式
实现单例的条件:三私一公 三私:私有化构造方法:不让外部创建对象 私有化克隆方法:不让外部克隆对象 私有静态属性:保存已经产生的对象 一公:公共静态方法:在类内部创建对象 实例: <?php / ...
- 【BZOJ】1657: [Usaco2006 Mar]Mooo 奶牛的歌声(单调栈)
http://www.lydsy.com/JudgeOnline/problem.php?id=1657 这一题一开始我想到了nlog^2n的做法...显然可做,但是麻烦.(就是二分+rmq) 然后我 ...