基于Python的某大学某学院新生高考成绩分析

# coding=gbk

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体

mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

# 读入数据

data = pd.read_excel("score.xls")

# 各省份数据分析

score_province = data.groupby("shengfen")

# 求取各省份高考成绩均值

score_province_mean = score_province.agg({"tdcj": "mean"})

score_province_mean = pd.DataFrame(score_province_mean)

score_province_mean = score_province_mean.sort_values(by="tdcj", ascending=False)

score_province_mean

# 提取出省份以及平均分

provinces = score_province_mean.index.tolist()

scores = score_province_mean["tdcj"].tolist()

# 开始画图

# 根据不同省的不同试卷规定柱子的颜色

TestPaper1 =  ['河南省', '河北省', '山西省', '江西省', '湖北省', '湖南省', '安徽省', '福建省', '山东省', '广东省'] #全国一卷

TestPaper2 = ['甘肃省', '青海省', '内蒙古', '黑龙江省', '辽宁省', '宁夏', '新疆省', '西藏', '陕西省', '重庆市']# 全国二卷

TestPaper3 = ['云南省', '广西省', '贵州省', '四川省'] #全国三卷

color = []

# gold 全国一卷

# lightgreen 全国二卷

# skyblue 全国三卷

# plum 自主命题

for i in provinces:

    if i in TestPaper1:

        color.append("gold")

    elif i in TestPaper2:

        color.append("lightgreen")

    elif i in TestPaper3:

        color.append("skyblue")

    else:

        color.append("plum")

# 开始作图

fig = plt.figure(figsize=(20,6))    # 设置画布大小

plt.grid(linestyle="-.", axis='y', alpha=0.4)

for a,b in zip(provinces,scores):

    plt.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

plt.xlabel("省份", fontsize=15)

plt.ylabel("高考分数", fontsize=15)

plt.bar(provinces,scores,color=color)

<BarContainer object of 27 artists>

# 将相同试卷的省份拿出来进行对比作图

TestPaper1 =  ['河南省', '河北省', '山西省', '江西省', '湖北省', '湖南省', '安徽省', '福建省', '山东省', '广东省'] #全国一卷

TestPaper2 = ['甘肃省', '青海省', '内蒙古', '黑龙江省', '辽宁省', '宁夏', '陕西省', '重庆市']# 全国二卷

TestPaper3 = ['云南省', '广西省', '贵州省', '四川省'] #全国三卷

scores1 = [scores[provinces.index(i)] for i in TestPaper1]

scores2 = [scores[provinces.index(i)] for i in TestPaper2]

scores3 = [scores[provinces.index(i)] for i in TestPaper3]

# 创建子图

fig = plt.figure(figsize=(20,6))

ax1 = fig.add_subplot(1,3,1)

ax2 = fig.add_subplot(1,3,2)

ax3 = fig.add_subplot(1,3,3)

ax1.grid(linestyle="-.", axis='y', alpha=0.4)

for a,b in zip(TestPaper1,scores1):

    ax1.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

ax1.set_xlabel("省份", fontsize=15)

ax1.set_ylabel("全国1卷", fontsize=15)

ax2.grid(linestyle="-.", axis='y', alpha=0.4)

for a,b in zip(TestPaper2,scores2):

    ax2.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

ax2.set_xlabel("省份", fontsize=15)

ax2.set_ylabel("全国2卷", fontsize=15)

ax3.grid(linestyle="-.", axis='y', alpha=0.4)

for a,b in zip(TestPaper3,scores3):

    ax3.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

ax3.set_xlabel("省份", fontsize=15)

ax3.set_ylabel("全国3卷", fontsize=15)

ax1.bar(TestPaper1,scores1, color="gold")

ax2.bar(TestPaper2,scores2, color="lightgreen")

ax3.bar(TestPaper3,scores3, color="skyblue")

<BarContainer object of 4 artists>

# 查看各省人数

numbers = score_province.count()

numbers = pd.DataFrame(numbers)

numbers = numbers["lqxy"]

# 提取出省份以及各省人数

provinces = numbers.index.tolist()

num_stu = numbers.tolist()

# 开始画图

fig = plt.figure(figsize=(20,6))    # 设置画布大小

plt.grid(linestyle="-.", axis='y', alpha=0.4)

for a,b in zip(provinces,num_stu):

    plt.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

plt.xlabel("省份")

plt.ylabel("人数")

plt.bar(provinces,num_stu, color="slategray")

<BarContainer object of 27 artists>

## 下面开始统计各省男女平均分数对比

sex_province_score = data.groupby(["shengfen", "xbmc"])["tdcj"].mean()

male = []

female = []

drop_list = []

for i in provinces:

    try:

        male.append(sex_province_score[i,"男"])

    except:

        male.append(0)

        drop_list.append(provinces.index(i))

    try:

        female.append(sex_province_score[i,"女"])

    except:

        female.append(0)

        drop_list.append(provinces.index(i))

male = np.delete(male, drop_list).tolist()

female = np.delete(female, drop_list).tolist()

provinces = np.delete(provinces, drop_list).tolist()

# 开始作图

fig = plt.figure(figsize=(25,10))

plt.grid(linestyle="-.", axis='y', alpha=0.35)

bar_width = 0.35  # 条形宽度

index_male = np.arange(len(provinces))  # 男生条形图的横坐标

index_female = index_male + bar_width  # 女生条形图的横坐标

# 使用两次 bar 函数画出两组条形图

plt.bar(index_male, male, width=bar_width, color='b', label='男性')

plt.bar(index_female, female, width=bar_width, color='r', label='女性')

for a,b in zip(index_male, male):

    plt.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

for a,b in zip(index_female,female):

    plt.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

plt.legend()  # 显示图例

plt.xticks(index_male + bar_width/2, provinces)  # 设置xticks index_male + bar_width/2 为横坐标轴刻度的位置

plt.ylabel('高考平均分', fontsize=15)  # 纵坐标轴标题

plt.xlabel('省份', fontsize=15)  # 纵坐标轴标题

plt.title('各省份高考男女平均分对比')  # 图形标题

plt.show()

##下面开始统计城市应届与农村应届平均分数对比 以及 城市应届与农村应届男女平均分数对比

## 数据预处理

for index, row in data.iterrows():

     if "农" in data.loc[index, "kslbmc"]:

        data.loc[index, "kslbmc"] = "农村"

     elif "城" in data.loc[index, "kslbmc"]:

        data.loc[index, "kslbmc"] = "城市"

     else:

        data.drop(index=index, inplace=True)

city_village_data = data.groupby("kslbmc")

city_village_data = city_village_data["tdcj"]

city_village_data_max = pd.DataFrame(city_village_data.max())

city_village_data = pd.DataFrame(city_village_data.mean())

# 提取数据,以供作图

place = city_village_data.index.tolist()

score = city_village_data["tdcj"].tolist()

max_score = city_village_data_max["tdcj"].tolist()

# 开始作图

fig = plt.figure(figsize=(13,6))    # 设置画布大小

ax1 = fig.add_subplot(1,2,1)

ax2 = fig.add_subplot(1,2,2)

ax1.grid(linestyle="-.", axis='y', alpha=0.4)

ax2.grid(linestyle="-.", axis='y', alpha=0.4)

for a,b in zip(place,score):

    ax1.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

for a,b in zip(place,max_score):

    ax2.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

ax1.set_xlabel("应届学生", fontsize=15)

ax1.set_ylabel("高考平均分分数", fontsize=15)

ax1.set_title('全学院城市应届农村应届学生平均分对比')  # 图形标题

ax2.set_title('全学院城市应届农村应届学生最高分对比')  # 图形标题

ax1.bar(place,score)

ax2.bar(place, max_score)

<BarContainer object of 2 artists>

## 单独计算一下山东省城市应届农村应届平均分对比

temp= data.groupby("shengfen")

for i in temp:

    if i[0] == "山东省":

        ShanDong_data = i[1]

        break

ShanDong_data = ShanDong_data.groupby("kslbmc")

ShanDong_data = ShanDong_data["tdcj"]

ShanDong_data_max = pd.DataFrame(ShanDong_data.max())

print(ShanDong_data_max)

ShanDong_data = pd.DataFrame(ShanDong_data.mean())

# 提取数据,以供作图

place = ShanDong_data.index.tolist()

score = ShanDong_data["tdcj"].tolist()

max_score = ShanDong_data_max["tdcj"].tolist()

# 开始作图

fig = plt.figure(figsize=(13,6))    # 设置画布大小

ax1 = fig.add_subplot(1,2,1)

ax2 = fig.add_subplot(1,2,2)

ax1.grid(linestyle="-.", axis='y', alpha=0.4)

ax2.grid(linestyle="-.", axis='y', alpha=0.4)

for a,b in zip(place,score):

    ax1.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

for a,b in zip(place,max_score):

    ax2.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

ax1.set_xlabel("应届学生", fontsize=15)

ax1.set_ylabel("高考平均分分数", fontsize=15)

ax1.set_title('全学院山东省城市应届农村应届学生平均分对比')  # 图形标题

ax2.set_title('全学院山东省城市应届农村应届学生最高分对比')  # 图形标题

ax1.bar(place,score)

ax2.bar(place, max_score)

              tdcj

kslbmc

农村      616.000000

城市      608.128223

<BarContainer object of 2 artists>

# 查看一下山东省农村应届与城市应届学生男女平均分数

# 数据预处理

for index, row in data.iterrows():

     if "女" in data.loc[index, "xbmc"]:

        data.loc[index, "xbmc"] = "女"

     elif "男" in data.loc[index, "xbmc"]:

        data.loc[index, "xbmc"] = "男"

     else:

        data.drop(index=index, inplace=True)

sex_cv_score = data.groupby(["kslbmc", "xbmc"])["tdcj"].mean()

print(sex_cv_score)

place = ["农村", "城市"]

male = []

female = []

for i in place:

    female.append(sex_cv_score[i,"女"])

    male.append(sex_cv_score[i,"男"])

# 开始作图

fig = plt.figure(figsize=(10,6))

plt.grid(linestyle="-.", axis='y', alpha=0.35)

bar_width = 0.35  # 条形宽度

index_male = np.arange(len(place))  # 男生条形图的横坐标

index_female = index_male + bar_width  # 女生条形图的横坐标

# 使用两次 bar 函数画出两组条形图

plt.bar(index_male, male, width=bar_width, color='b', label='男性')

plt.bar(index_female, female, width=bar_width, color='r', label='女性')

for a,b in zip(index_male, male):

    plt.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

for a,b in zip(index_female,female):

    plt.text(a, b-0.3,'%.0f'%b, ha = 'center',va = 'bottom',fontsize=15)

plt.legend()  # 显示图例

plt.xticks(index_male + bar_width/2, place)  # 设置xticks index_male + bar_width/2 为横坐标轴刻度的位置

plt.ylabel('高考平均分', fontsize=15)  # 纵坐标轴标题

plt.xlabel('应届地', fontsize=15)  # 纵坐标轴标题

plt.title('应届地高考男女平均分对比')  # 图形标题

plt.show()

kslbmc  xbmc

农村      女       566.241910

        男       572.030391

城市      女       553.481005

        男       557.798552

Name: tdcj, dtype: float64

基于Python的某大学某学院新生高考成绩分析的更多相关文章

基于Python项目的Redis缓存消耗内存数据简单分析（附详细操作步骤）
目录 1 准备工作 2 具体实施 1 准备工作什么是Redis? Redis:一个高性能的key-value数据库.支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使 ...
基于python、jupyter-notebook 的金融领域用户交易行为分析
说明:本文重在说明交易数据统计.分析方法,所有数据均为生成的数据时间原因代码未定义成函数统计指标:1.用户单日交易行为数据 2.按小时为计算单位,统计用户行为数据(旨在求得一天24小时中每个小时的 ...
基于Python玩转人工智能最火框架 TensorFlow应用实践✍✍✍
基于Python玩转人工智能最火框架 TensorFlow应用实践随着 TensorFlow 在研究及产品中的应用日益广泛,很多开发者及研究者都希望能深入学习这一深度学习框架.而在昨天机器之心发起 ...
【Machine Learning】决策树案例：基于python的商品购买能力预测系统
决策树在商品购买能力预测案例中的算法实现作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本 ...
基于Python+Django的Kubernetes集群管理平台
➠更多技术干货请戳:听云博客时至今日,接触kubernetes也有一段时间了,而我们的大部分业务也已经稳定地运行在不同规模的kubernetes集群上,不得不说,无论是从应用部署.迭代,还是从资源调 ...
关于《selenium2自动测试实战--基于Python语言》
关于本书的类型: 首先在我看来技术书分为两类,一类是“思想”,一类是“操作手册”. 对于思想类的书,一般作者有很多年经验积累,这类书需要细读与品位.高手读了会深有体会,豁然开朗.新手读了不止所云,甚至 ...
psutil一个基于python的跨平台系统信息跟踪模块
受益于这个模块的帮助,在这里我推荐一手. https://pythonhosted.org/psutil/#processes psutil是一个基于python的跨平台系统信息监视模块.在pytho ...
一次完整的自动化登录测试-基于python+selenium进行cnblog的自动化登录测试
Web登录测试是很常见的测试!手动测试大家再熟悉不过了,那如何进行自动化登录测试呢!本文作者就用python+selenium结合unittest单元测试框架来进行一次简单但比较完整的cnblog自动 ...
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台 By 子敬叔叔最近在学习麦好的<机器学习实践指南案例应用解析第二版>,在安装学习环境的时候 ...

随机推荐

【LeetCode】5. Longest Palindromic Substring 最长回文子串
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 公众号:负雪明烛本文关键词:最长回文子串,题解,leetcode, 力扣,python ...
【嵌入式】arduino常用函数
IO函数设置引脚 pinMode(0-13,INPUT/OUTPUT/INPUT_PULLUP) 设置输出 digitalWrite(0-13,HIGH/LOW) 读取引脚 digitalRead( ...
Improved Variational Inference with Inverse Autoregressive Flow
目录概主要内容代码 Kingma D., Salimans T., Jozefowicz R., Chen X., Sutskever I. and Welling M. Improved Va ...
[数学]高数部分-Part VII 微分方程
Part VII 微分方程回到总目录 Part VII 微分方程微分方程的概念一阶微分方程求解-变量可分离型一阶微分方程求解-齐次型一阶微分方程求解-一阶线性型二阶常系数齐次D.E.求解: ...
JDK Httpclient 使用和性能测试
Httpclient 使用和性能测试上篇,通过简介和架构图,我们对HttpClient有了初步的了解. 本篇我们展示HttpClient的简单使用,同时为了说明httpclient的使用性能,我们将 ...
Java程序设计基础笔记 • 【第2章变量与数据类型】
全部章节 >>>> 本章目录 2.1 变量 2.1.1 变量的概念 2.1.2 变量的使用 2.1.3 实践练习 2.2 数据类型 2.2.1 数据类型的种类 2.2.2 ...
AWS 15年（2）：云原生兴起
AWS创立云计算15年来,没有一个行业不跟云计算相关,没有任何一个颠覆性创新缺少云计算的参与,云已经是不可逆的滚滚洪流. AWS这15年,是云原生服务从无到有再到基本成熟的15年,是云原生应用兴起的1 ...
C# .net 使用rabbitmq消息队列——EasyNetQ插件介绍
EasyNetQ 是一个简洁而适用的RabbitMQ .NET类库,本质上是一个在RabbitMQ.Client之上提供服务的组件集合.
Linux 使用 split 命令分割文件
使用方法: $ split --help 用法:split [选项]... [输入 [前缀]] 将输入内容拆分为固定大小的片段并输出到"前缀aa"."前缀ab" ...
Pytest_用例分组（6）
用例分组 pytest进行分组测试的方法是使用装饰器 @pytest.mark.标记名称,被标记为相同名称的用例可以看做为同一个组. 分组用例的运行方式是在执行命令中追加 -m "标记名称& ...

基于Python的某大学某学院新生高考成绩分析

基于Python的某大学某学院新生高考成绩分析的更多相关文章

随机推荐

热门专题