Python2爬取学生名单】的更多相关文章

背景: 学校的网站可以根据学号查学生姓名和成绩(三年后的补充:借助sql注入漏洞跳过密码,但是该网站现在已经被弃用了),所以我希望通过Python的爬虫得到年级所有同学的学号与姓名对应表. 实现: 首先需要算出所有学生的学号以方便查询.接下来要把学号和考试场次包装成待会要填入的信息,这可以用urllib模块里的函数urlencode完成.之后要访问网站,先用urllib2模块里的Request函数获得访问令牌(其实我也不知道是什么)(三年后的补充:Request函数构造了一个HTTP请求,后面u…
工作中,再次需要python,发现python用得好 ,真的可以节省很多人力,先说我的需求,需要做一个类似像支付宝添加收货地址时,选择地区的功能,需要详细到街道信息,也就是4级联动,如右图.首先需要的就是级联的数据,许是百度能力太差,找不到想要的,或者想要的需要积分才能下载,没有积分,只能干巴巴看着,好无奈,想起国家统计局有这个,以前在那里下载过,是一个表格,现在也忘记放哪里了,在它的官网找了好久,都没找到,后来是如何找到这个链接的也忘记了:http://www.stats.gov.cn/tjs…
例如我在爬取学生在线的时候,发现爬取不到特定的通知,例如<中粮福临门助学基金申请公告>,通过分析发现原来通知的链接被过滤掉了,下面对过滤url的配置文件regex-urlfilter.txt进行分析,以后如果需要修改可以根据自己的情况对该配置文件进行修改: 说明:配置文件中以"#"开头的行为注释,以"-" 开头的表示符合正则表达式就过滤掉,以"+"开头的表示符合正则表达式则保留.正则表达式中"^"表示字符串的开头,…
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影中文名的采集可以查看:http://www.cnblogs.com/carpenterworm/p/6026274.html 电影链接采集:…
本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接,爬取教育部公布的正规高校名单. 思路: 1.首先以上面的地址开始链接,抓取到下面省份对应的链接. 2.在解析具体的省份源代码,获取数据.虽然山东和河南的网页结构和其他不同,我们也不做特殊处理,直接不做抓取即可:将抓取到的数据存储到mongodb数据库 3.对高校数据做数据分析及数据可视化. 抓取数据 1.定义数据结构 class daxueItem(scrapy.Item): # define the…
1.爬取页面 http://www.quanshu.net/book/9/9055/ 2.用到模块urllib(网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整url),MySQLdb(导入MySQL) 数据库 3.for 循环遍历列表 取得盗墓笔记章节title 和 titleurl 4.try except 异常处理 5.python 代码 #-*-coding: utf-8 -*- import urllib import re import urlpa…
2018-7-5 20:22:57 还有有一丢丢成就感!以后可以爬取简单网站了!比如妹子图片,只是现在不知道咋下载! 正则还是刚看,要多去用正则!正则很强大的东西! #!/usr/bin/env python #!--*--coding:utf-8 --*-- #!@Time :2018/7/5 18:08 #!@Author TrueNewBee #coding=utf-8 #爬取猫眼电影 #2018-7-5 17:37:30 #http://maoyan.com/board/4?offset…
先对中国天气网的实时天气数据进行了研究,数据在http://www.weather.com.cn/weather1d/101010100.shtml中,可以通过城市代码进行爬取,但实况数据是用JS动态生成的,不能直接爬. 然后研究了浙江天气网http://zj.weather.com.cn/xztq/index.shtml,通过源代码发现数据都可以从另一个有规律的网址里得到,网址为http://www.zjmb.gov.cn/jxhyb/detailzjsk.jsp?sn={sn}&day=0&a…
昨天在简书上写了用Scrapy抓取简书30日热门文章,对scrapy是刚接触,跨页面抓取以及在pipelines里调用settings,连接mysql等还不是很熟悉,今天依旧以单独的py文件区去抓取数据.同时简书上排版不是很熟悉,markdown今天刚下载还没来得及调试,以后会同步更新 简书文章:http://www.jianshu.com/p/eadfdb4b5a9d 一.下面是将爬取到的数据写到Mysql数据库代码: 插入数据库titletime字段需要将字符型转化为datetime型 用t…
爬取网页中通知标题的内容展示: this is  1  page!<精算学综合>科目考试参考大纲2016年上半年研究生开题报告评议审核结果公示[答辩]2016下半年研究生论文答辩及学位评定工作安排通知[答辩]2016下半年答辩申请者填报研究生综合管理信息系统的通知[资审]2016年下半年同等学力申请硕士学位资格审查工作办理安排2016上半年同等学力人员师生互选结果公示关于2016年硕博连读研究生选拔结果的公示关于研究生院假期值班安排的通知后八周研究生调停课情况统计2016年度(第一批)研究生学…