Python之爬虫-中国大学排名
Python之爬虫-中国大学排名
#!/usr/bin/env python
# coding: utf-8
import bs4
import requests
from bs4 import BeautifulSoup
# 通过传入网址信息创建一个获取网页文本的函数
def getHTMLText(url):
# 判断获取网页文本过程中是否有错误
try:
# 打开网址获取文本,并且把延迟设置成30s
r = requests.get(url, timeout=30)
# 获取状态码
r.raise_for_status()
# 设置文件编码
r.encoding = r.apparent_encoding
# 如果成功返回网页文本
return r.text
except:
# 获取网页文本有错误则返回空文本
return ""
# 通过传入空列表和网页文本信息创建一个在大学列表中加入大学信息的函数
def fillUnivList(ulist, html):
# 用BeautifulSoup将网页文本以’html.parser‘煮成一锅粥
soup = BeautifulSoup(html, "html.parser")
# 通过网页源代码我们可以发现我们需要的信息都在tbody标签内,因此我们循环找出’tbody‘标签及其子标签的内容
for tr in soup.find('tbody').children:
# 通过bs4.element.Tag判断是否为tr标签
if isinstance(tr, bs4.element.Tag):
# 对于tr标签的我们拿到tr标签里的td标签
tds = tr('td')
# [<td>1</td>, <td><div align="left">清华大学</div></td>, <td>北京</td>, <td>95.3</td>...
# 我们通过筛选出我们需要的td标签中的文本并将其用列表的方式加入我们传入的列表ulist中
ulist.append([tds[0].string, tds[1].string,
tds[2].string, tds[3].string])
# 通过传入学校列表信息创建一个打印大学列表的函数
def printUnivList(ulist,province):
# 打印标题
print("中国最好大学排名2018({}地区)".center(45, '-').format(province))
# 设置一个format格式化的模板
# 注意:这里的{4}是因为utf8格式的英文和中文字节数不同,python会自动用英文来填
tplt = "{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}"
# 充空白位置,我们用chr(12288)将其修改成用中文填充空白位置
# 打印第一行
print(tplt.format("排名", "学校名称", "地区", "总分", chr(12288)))
if province == '安徽':
print(tplt.format(1, '安徽师范大学花津校区', '安徽', 99.9, chr(12288)))
# 循环取出列表中的每一所大学的信息,取出的大学信息是列表的形式(可以控制range(len(ulist))的长度来控制想要打印的学校的数量)
for i in range(len(ulist)):
# 将每一所大学的信息以列表的形式赋值给u
u = ulist[i]
# u[2]是地区,判断是否为安徽地区(可以自己更改地区信息,如果删除该判断,打印所有学校信息,也可以更改判断条件)
if u[2] == province:
# 如果为安徽地区,我们打印属于安徽地区的每一所大学的信息
print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))
# 创建一个运行函数
def main(province='安徽'):
# 创建一个空列表,为填充大学信息列表做准备
uinfo = []
# 定义一个想要爬取的网页
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
# 传入想要爬取的网页获取该网页文本信息
html = getHTMLText(url)
# 给填充大学信息函数传值
fillUnivList(uinfo, html)
# 给打印大学信息函数传值
printUnivList(uinfo,province=province)
main()
# main(province='北京')
Python之爬虫-中国大学排名的更多相关文章
- python网络爬虫-中国大学排名定向爬虫
爬虫定向爬取中国大学排名信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup import bs4 #从网络上获取大学 ...
- python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学 目标:爬取最好大学网前50名大学 代码如下: import requests from bs4 import Beautiful ...
- python爬虫学习心得:中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享 首先直接搬代码: import requests from bs4 import BeautifulSoup ...
- 【python】下载中国大学MOOC的视频
[python]下载中国大学MOOC的视频 脚本目标: 输入课程id和cookie下载整个课程的视频文件,方便复习时候看 网站的反爬机制分析: 分析数据包的目的:找到获取m3u8文件的路径 1. 从第 ...
- Python 中国大学排名定向爬虫
代码来自于中国大学Mooc北京理工大学Pythont教学团队:https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=d ...
- python爬虫入门---第二篇:获取2019年中国大学排名
我们需要爬取的网站:最好大学网 我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中 ...
- Python 爬虫-获得大学排名
2017-07-29 23:20:24 主要技术路线:requests+bs4+格式化输出 import requests from bs4 import BeautifulSoup url = 'h ...
- Python网络爬虫与信息提取
1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
- 第三次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 第一周 Requests库的爬 ...
随机推荐
- 51nod 1244 莫比乌斯函数之和 【莫比乌斯函数+杜教筛】
和bzoj 3944比较像,但是时间卡的更死 设\( f(n)=\sum_{d|n}\mu(d) g(n)=\sum_{i=1}^{n}f(i) s(n)=\sum_{i=1}^{n}\mu(i) \ ...
- 8. VIM 系列 - 利用 VIM 8.1 版本编译项目和GDB调试
目录 term 模式 termdebug 模式 VIM版本安装请参考: 0. VIM 系列 - 源码升级最新版本vim term 模式 输入:term 打开此模式,效果如下 这个模式有编辑文本窗口和s ...
- Windows7运行无法记录历史命令问题解决
Windows7运行无法记录历史命令,每次都需要手动敲命令,解决方法如下: 1.任务栏中右键,选择"属性"菜单: 2.在弹出框中的"[开始]菜单"选项卡的隐私区 ...
- vue watch监听对象及对应值的变化
data:{ a:1, b:{ value:1, type:1, } }, watch:{ a(val, oldVal){//普通的watch监听 console.log("a: " ...
- CentOS 6.5使用:[3]使用xftp传递文件
先检查CentOS系统是否安装了FTP服务 [root@centos ~]# rpm -qa | grep vsftpd 如果有内容输出,那么恭喜你,你的系统已经安装了ftp服务 如果没有那么按照 ...
- Dock
搭建本地 Registry - 每天5分钟玩转 Docker 容器技术(20) 小结: dock 版本号 分为 3位,比如1.1.2 就分为1, 1.1,1.1,2 这个几个版本 这种 tag 方案使 ...
- 1270 数组的最大代价 dp
http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1270&judgeId=194704 一开始贪心,以为就两种情况, ...
- 多功能Markdown编辑器MarkdownPad 2的下载、安装和初步使用步骤(图文详解)(博主推荐)
不多说,直接上干货! MarkdownPad 是什么? 一.MarkdownPad 2的下载 http://markdownpad.com/download/markdownpad2-setup. ...
- CSS3实现边框线条动画特效
<div class="box-line"></div> CSS代码 .box-line, .box-line::before, .box-line::af ...
- TCP/UDP套接字 java socket编程实例
网络协议七层结构: 什么是Socket? socket(套接字)是两个程序之间通过双向信道进行数据交换的端,可以理解为接口.使用socket编程也称为网络编程,socket只是接口并不是网络通信协议. ...