增补博客第八篇 python 中国大学排名数据分析与可视化

【题目描述】以软科中国最好大学排名为分析对象，基于requests库和bs4库编写爬虫程序，对2015年至2019年间的中国大学排名数据进行爬取：

（1）按照排名先后顺序输出不同年份的前10位大学信息，并要求对输出结果的排版进行优化；

（2）结合matplotlib库，对2015-2019年间前10位大学的排名信息进行可视化展示。

（3附加）编写一个查询程序，根据从键盘输入的大学名称和年份，输出该大学相应的排名信息。如果所爬取的数据中不包含该大学或该年份信息，则输出相应的提示信息，并让用户选择重新输入还是结束查询；

【练习要求】请给出源代码程序和运行测试结果，源代码程序要求添加必要的注释。

import requests

from bs4 import BeautifulSoup

import matplotlib.pyplot as plt

from sympy.physics.control.control_plots import matplotlib

plt.rcParams['font.sans-serif']=['SimHei']    # 用来设置字体样式以正常显示中文标签

plt.rcParams['axes.unicode_minus']=False    # 默认是使用Unicode负号，设置正常显示字符，如正常显示负号

# 设置请求头部信息

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"

}

def get_ranking(year):

    url = f'https://www.shanghairanking.cn/rankings/bcur/{year}.html'

    # 发送HTTP请求以获取网页内容

    response = requests.get(url, headers=headers)

    # 检查请求是否成功

    if response.status_code == 200:

        # 使用BeautifulSoup解析HTML内容

        soup = BeautifulSoup(response.content, 'html.parser')

        # 找到包含大学信息的表格

        table = soup.find('table', class_='rk-table')

        # 提取前10所大学的信息

        universities = table.find_all('tr', {'data-v-90b0d2ac': True})[1:11]  # 排除表头行

        # 存储排名数据的列表

        ranking_data = []

        for university in universities:

            rank_element = university.find('td', {'data-v-90b0d2ac': True})

            # 检查排名元素是否存在

            if rank_element:

                rank = rank_element.text.strip()

                name = university.find('a').text.strip()

                # 将排名数据存储到列表中

                ranking_data.append({"排名": rank, "名称": name})

        return ranking_data

    else:

        print("请求失败。状态码：", response.status_code)

def main():

    # 1. 获取并输出前10位大学信息

    for year in range(2015, 2020):

        ranking_data = get_ranking(year)

        if ranking_data:

            print(f"{year}年前10所大学：")

            for data in ranking_data:

                print(f"{data['排名']}. {data['名称']}")

            print()

            # 创建一个表格的figure

            fig, ax = plt.subplots()

            # 隐藏坐标轴

            ax.axis('off')

            # 创建表格

            table = ax.table(cellText=[list(data.values()) for data in ranking_data], colLabels=list(ranking_data[0].keys()), loc='center')

            # 调整表格字体大小

            table.auto_set_font_size(False)

            table.set_fontsize(12)

            # 调整单元格高度

            table.scale(1, 1.5)

            # 显示表格

            plt.title(f"{year}年，中国软科排名前十的大学", pad=20)

            plt.show()

        else:

            print(f"未能获取{year}年的大学排名数据。")

def get_specific_ranking(university, year):  # Renamed the function

    # 构建URL

    url = f'https://www.shanghairanking.cn/rankings/bcur/{year}.html'

    # 发送HTTP请求

    response = requests.get(url)

    # 检查响应状态码

    if response.status_code == 200:

        # 使用BeautifulSoup解析HTML内容

        soup = BeautifulSoup(response.content, 'html.parser')

        # 找到包含大学信息的表格

        table = soup.find('table', class_='rk-table')

        # 提取前30所大学的信息

        universities = table.find_all('tr', {'data-v-90b0d2ac': True})[1:31]  # 排除表头行

        # 存储排名数据的列表

        ranking_data = []

        for university_row in universities:

            name_element = university_row.find('a')

            # 检查大学名称元素是否存在

            if name_element:

                name = name_element.text.strip()

                # 检查大学名称是否与输入的大学名称匹配

                if name == university:

                    rank_element = university_row.find('td', {'data-v-90b0d2ac': True})

                    if rank_element:

                        rank = rank_element.text.strip()

                        print(f"{year} 年 {university} 排名是 {rank}")

                        return rank

        # 如果未找到匹配的大学名称，打印消息

        print(f"找不到 {university} 在 {year} 年的排名信息。")

    else:

        print("请求失败。状态码：", response.status_code)

if __name__ == "__main__":

    main()

    while True:

        university = input("请输入大学名称（输入 '退出' 结束查询）：")

        if university.lower() == '退出':

            break

        year = input("请输入年份：")

        print(get_specific_ranking(university, year))

增补博客第八篇 python 中国大学排名数据分析与可视化的更多相关文章

Python 中国大学排名定向爬虫
代码来自于中国大学Mooc北京理工大学Pythont教学团队:https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=d ...
一鼓作气博客--第八篇 note8
0.,222] list[33] except IndexError as e : print('index error ') except ValueError as e : print('valu ...
Scrum 冲刺博客第八篇
一.当天站立式会议照片一张二.每个人的工作 (有work item 的ID),并将其记录在码云项目管理中昨天已完成的工作对界面进行美化今天计划完成的工作连接数据库实现排行榜的基本功能工作中 ...
[转]有哪些值得关注的技术博客（Java篇）
有哪些值得关注的技术博客(Java篇) 大部分程序员在自学的道路上不知道走了多少坑,这个视频那个网站搞得自己晕头转向.对我个人来说我平常在学习的过程中喜欢看一些教程式的博客.这些博客的特点: 1. ...
Django 系列博客（八）
Django 系列博客(八) 前言本篇博客介绍 Django 中的模板层,模板都是Django 使用相关函数渲染后传输给前端在显式的,为了想要渲染出我们想要的数据,需要学习模板语法,相关过滤器.标签 ...
基于 abp vNext 和 .NET Core 开发博客项目 - 终结篇之发布项目
系列文章基于 abp vNext 和 .NET Core 开发博客项目 - 使用 abp cli 搭建项目基于 abp vNext 和 .NET Core 开发博客项目 - 给项目瘦身,让它跑起来 ...
年度十佳 DevOps 博客文章(前篇)
如果说 15 年你还没有将 DevOps 真正应用起来,16 年再不实践也未免太落伍了.国内 ITOM 领军企业 OneAPM 工程师为您翻译整理了,2015 年十佳 DevOps 文章,究竟是不是深 ...
# Do—Now——团队冲刺博客_总结篇
Do-Now--团队冲刺博客_总结篇目录博客链接作者 1. 第一篇(领航篇) @仇夏 2. 第二篇 @侯泽洋 3. 第三篇 @仇夏 4. 第四篇 @周亚杰 5. 第五篇 @唐才铭 6. 第六篇 ...
为了确认是您本人在申请搬家，请在原博客发表一篇标题为《将博客搬至CSDN》的文章，并将文章地址填写在上方的"搬家通知地址"中
为了确认是您本人在申请搬家,请在原博客发表一篇标题为<将博客搬至CSDN>的文章,并将文章地址填写在上方的"搬家通知地址"中
thinkphp5项目--个人博客（八）
thinkphp5项目--个人博客(八) 项目地址 fry404006308/personalBlog: personalBloghttps://github.com/fry404006308/per ...

随机推荐

饿了么EMonitor演进史
简介: 可观测性作为技术体系的核心环节之一,跟随饿了么技术的飞速发展,不断自我革新. 序言时间回到2008年,还在上海交通大学上学的张旭豪.康嘉等人在上海创办了饿了么,从校园外卖场景出发,饿了么一步 ...
Quick BI产品核心功能大图（六）开放集成
简介:企业想要拥有领先的数据分析能力,自研往往需要投入巨大的人力和财力. Quick BI作为唯一一个连续两年入选Gartner魔力象限的中国BI产品,具备强大的全链路开放集成能力,可以轻松的与企业 ...
[FAQ] jQuery prop 与 attr 的区别
.prop() 获取匹配的元素集中第一个元素的属性(property)值或设置每一个匹配元素的一个或多个属性. 当设置 selectedIndex, tagName, nodeName, node ...
dotnet 使用 Newtonsoft.Json 输出枚举首字符小写
本文告诉大家如何使用 Newtonsoft.Json 输出枚举首字符小写实现方法是加上 JsonConverterAttribute 特性,传入 StringEnumConverter 转换器,再加 ...
C语言结构体的内存分配
一.结构体内存分配原则原则一:结构体中元素按照定义顺序存放到内存中,但并不是紧密排列.从结构体存储的首地址开始 ,每一个元素存入内存中时,它都会认为内存是以自己的宽度来划分空间的,因此元素存放的位置 ...
Swift File Manager 三种文件路径查找方法对比
目录 1. 引言 2. 三种文件路径查找方法 2. 1 NSSearchPathForDirectoriesInDomains(_:_:_:) 2.2 urls(for:in:) 2.3 url(fo ...
SQL函数详解SUM\COUNT\AVG......
朋友们,个人公众号:SQL数据库运维移动端的学习分享,各种数据库基础知识,一起进步,共同学习,期待你的加入. 函数的类型 1.聚合函数:对一组值执行计算,并返回单个值,也被称为组函数.聚合函数经常与 ...
Kettle下载和安装
一.Kettle简介 Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义.Kettle是一款国 ...
jquery中.html(),.text()和.val()的差异总结
.html(),.text(),.val()三种方法都是用来读取选定元素的内容: .html()是用来读取元素的html内容(包括html标签): .text()用来读取元素的纯文本内容,包括其后代元 ...
C数据结构：KMP算法详解（呕心沥血）
KMP算法作者心声了解暴力求解(必需会) KMP算法详解记住我这段话(你会爱上它的)← : ①前后缀及其用处 ②求出前后缀的next数组求出next数组的代码开始实现KMP算法结尾附上源 ...

增补博客 第八篇 python 中国大学排名数据分析与可视化

增补博客 第八篇 python 中国大学排名数据分析与可视化的更多相关文章

随机推荐

热门专题

增补博客第八篇 python 中国大学排名数据分析与可视化

增补博客第八篇 python 中国大学排名数据分析与可视化的更多相关文章