Pandas学习(三)——NBA球员薪资分析
欢迎加入python学习交流群 667279387
学习笔记汇总
Pandas学习(一)–数据的导入
pandas学习(二)–双色球数据分析
pandas学习(三)–NAB球员薪资分析
pandas学习(四)–数据的归一化
pandas学习(五)–pandas学习视频
本篇文章主要利用NBA球员的薪资数据处理来进一步学习pandas这个数据处理工具。
1、获取数据并保存
本文从网站:下载网站 来获取2017-2018年各位NBA球员的薪资情况,代码如下:
import pandas as pd
data = pd.DataFrame()
url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
url_list.append(url)
for url in url_list:
data = data.append(pd.read_html(url), ignore_index=True)
data = data[[x.startswith('$') for x in data[3]]]
data.to_csv('NAB_salaries.csv',header=['RK','NAME','TEAM','SALARY'], index=False)
获取到的数据薪资前面10的数据如下
RK NAME TEAM SALARY
0 1 Stephen Curry, PG Golden State Warriors $34,382,550
1 2 LeBron James, SF Cleveland Cavaliers $33,285,709
2 3 Paul Millsap, PF Denver Nuggets $31,269,231
3 4 Gordon Hayward, SF Boston Celtics $29,727,900
4 5 Blake Griffin, PF LA Clippers $29,512,900
5 6 Kyle Lowry, PG Toronto Raptors $28,703,704
6 7 Mike Conley, PG Memphis Grizzlies $28,530,608
7 8 Russell Westbrook, PG Oklahoma City Thunder $28,530,608
8 9 James Harden, SG Houston Rockets $28,299,399
9 10 DeMar DeRozan, SG Toronto Raptors $27,739,975
2、分析数据
2.1、统计一个球队的所有球员薪资总和
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'], converters={'SALARY': money2int, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int)
salary = salary.groupby(['TEAM'], as_index=False).sum()
salary_sorted = salary.sort_values('SALARY',ascending=False)
salary_sorted.index = salary_sorted['TEAM']
salary_sorted.plot(kind='bar', align='center', title='球队队员工资共和($)')
plt.xlabel('球队名')
plt.ylabel('队员工资共和')
plt.show()
TEAM SALARY
1 Blazers 134302107
4 Cavaliers 132016201
28 Warriors 128211882
11 Jazz 122981295
10 Hornets 121972410
从统计数据可以看出Blazers(波特兰开拓者队)支付球员薪水花费最大。
2.1、统计多个球队的所有球员薪资分布情况
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
get_name = lambda x: x.split(',')[0]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'],
converters={'SALARY': money2int, 'NAME': get_name, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int)
data = pd.DataFrame({"Cavaliers": salary[salary['TEAM'] == 'Cavaliers']['SALARY'],
"Warriors": salary[salary['TEAM'] == 'Warriors']['SALARY'],
"Rockets": salary[salary['TEAM'] == 'Rockets']['SALARY'],
"Lakers": salary[salary['TEAM'] == 'Lakers']['SALARY']})
#合并后面的数据有比较多的NAN数据,但是画图的时候会自动忽略。
#没有找到更好的合并方法,因为球队的队员人数不同,
#如果相同的话,可以转成list再合成dataframe就不会有NAN数据了。
plt.ylabel("球员薪资(单位:$)")
plt.xlabel("球队名")
data.boxplot()
plt.show()
本例子中选取了骑士、湖人、火箭、勇士队来进行分析,作出了
四个球队的所有队员薪资分布的箱图。从图中可以看出湖人队的薪资比较平均,勇士队的薪资跨度比较大。
2.3 统计不同类型球员工资
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'],
converters={'SALARY': money2int, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int)
#原始数据的NAME列是类似(Stephen Curry, PG),
#以下3行代码主要是为了实现将NAME一列拆分两列变为Stephen Curry一列,PG为一列
salary.insert(1, 'POSITION', salary['NAME'])
salary['NAME'] = salary['NAME'].map(lambda x: x.split(',')[0])
salary['POSITION'] = salary['POSITION'].map(lambda x: x.split(',')[1])
# C:Center 中锋
# PF: Power Forward 大前锋
# SF: Small Forward 小前锋
# SG: Shooting Guard 得分后卫
# PG: Point Guard 组织后卫
#print(salary.groupby('POSITION').sum()) #统计各个类型的薪水
#print(salary.groupby('POSITION').describe())#各个类型的数理统计结果
print(salary.groupby('POSITION').mean())
下面是各个类型的平均工资,可以看出SF的平均薪水最高
C 7808847
F 2770083
G 1685802
PF 6278746
PG 7112007
SF 7886812
SG 6589922
还有很多东西可以从这个数据当中去挖掘,每次实现一个功能,都进一步熟悉了pandas~为后续深入数据分析学习做好了准备~
欢迎python爱好者加入:学习交流群 667279387
Pandas学习(三)——NBA球员薪资分析的更多相关文章
- Pandas学习(一)——数据的导入
欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...
- pandas学习(四)--数据的归一化
欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...
- Pandas学习(二)——双色球开奖数据分析
学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据的归一化 pandas学习(五)–pa ...
- python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
- 【转】Pandas学习笔记(三)修改&添加值
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
- Python pandas学习总结
本来打算学习pandas模块,并写一个博客记录一下自己的学习,但是不知道怎么了,最近好像有点急功近利,就想把别人的东西复制过来,当心沉下来,自己自觉地将原本写满的pandas学习笔记删除了,这次打算写 ...
- numpy pandas 学习
一. 数组要比列表效率高很多 numpy高效的处理数据,提供数组的支持,python默认没有数组.pandas.scipy.matplotlib都依赖numpy. pandas主要用于数据挖掘,探索, ...
- Pandas 学习手册中文第二版·翻译完成
原文:Learning pandas 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 面试求职交流群 72418 ...
- 4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言 之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
随机推荐
- IPv6笔记-地址结构与分类
1.地址基础 IPv6地址由被划分为8个16位块的128位组成. 然后将每个块转换为由冒号符号分隔的4位十六进制数字. 2001::3238:00E1:0063:0000:0000:FEFB 每一块多 ...
- Windows键盘无法调起
Windows 键盘无法调起 经常使用触摸屏幕的小伙伴肯定都遇到过屏幕键盘怎么也唤不起来(在桌面模式下,非平板模式).以下收集了一些常见的解决方案: 注:本文基于 Windows 10 v1903,其 ...
- servlet三大组件
servlet大致可以分为三个:简单servlet.过滤servlet.监听servlet servlet: servlet的创建 创建一个类并实现Servlet接口. 重写service方法. 在服 ...
- T-SQL Part V: Locks
写SQL最常见的问题就是Dead Lock了.本篇简单介绍入门级别的Lock使用和排查. 首先来看MSDN上的官方文档(https://technet.microsoft.com/en-us/libr ...
- 这份最新Python面试精选问题你会几道?
相信很多小伙伴学python以后都想进大厂,但是进大厂前你得了解些大厂面试题,可以在面试前复习下,以下是精选的5道python面试题: 第一. Python 的特点和优点是什么? Python 可以作 ...
- C#查看已下载文件大小和扩展名
FileInfo fi = new FileInfo(fullfile);//fullfile文件路径 ong Size = fi.Length;//查看已下载文件的大小 C# 获取文件名及扩展名 s ...
- nyoj 17-单调递增最长子序列 && poj 2533(动态规划,演算法)
17-单调递增最长子序列 内存限制:64MB 时间限制:3000ms Special Judge: No accepted:21 submit:49 题目描述: 求一个字符串的最长递增子序列的长度 如 ...
- nyoj 244-16进制的简单运算 (scanf("%x%c%x", &a, &b, &c); printf("%o", a ± b))
244-16进制的简单运算 内存限制:64MB 时间限制:1000ms 特判: No 通过数:12 提交数:13 难度:1 题目描述: 现在给你一个16进制的加减法的表达式,要求用8进制输出表达式的结 ...
- 领扣(LeetCode)最长公共前缀 个人题解
编写一个函数来查找字符串数组中的最长公共前缀. 如果不存在公共前缀,返回空字符串 "". 示例 1: 输入: ["flower","flow" ...
- 利用Python学习线性代数 -- 1.1 线性方程组
利用Python学习线性代数 -- 1.1 线性方程组 本节实现的主要功能函数,在源码文件linear_system中,后续章节将作为基本功能调用. 线性方程 线性方程组由一个或多个线性方程组成,如 ...