Python分析盘点2019全球流行音乐:是哪些歌曲榜单占领了我们?
写在前面:圣诞刚过,弥留者节日气息的大家是否还在继续学习呐~在匆忙之际也不忘给自己找几首好听的歌曲放松一下,缠绕着音乐一起来看看关于2019年流行音乐趋势是如何用Python分析的吧!
昨天下午没事儿,随便听了下音乐,结果搜到了一份数据比较好玩,所以拿了来做个数据分享案例。
这份数据是由国外比较火的音乐软件spotify提供的,很有代表意义。
不过涉及到的指标都比较专业,我不是太懂,只能根据自己的理解去做分析,有懂音乐的朋友可以提出专业的看法。
这次的数据分析工具是Python,当然如果你Python不是很熟,用tableau也是可以的,做出的图还会更好看。
一、数据准备
1、导入数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts import Bar,WordCloud,Pie,Line
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
df=pd.read_excel(r'C:\Users\Administrator\Desktop\top50.xlsx')
df.head()
这些代码都是不需要思考的,只要打开Python做数据分析,你首先就写好,或者直接复制就行,我都是把常用代码保存好,要用的时候就调出来用,这样省时间。
列的名称都是英语,我借助了百度做了下翻译:
- Track.Name-曲目;
- Artist.Name-歌手;
- Genre - 类型
- Beats Per Minute (BPM) - 每分钟节拍,也就是节奏.
- Energy - 能量 - 分数越高,代表能量就越大;
- Danceability - 舞蹈性-分数越高,代表你越容易因歌而舞;
- Loudness (dB) - 分贝-值越大,说明歌曲越响亮,反之则低沉;
- Liveness -现场性-值越大,歌曲越有可能是现场录音的;
- Valence - 情绪-值越大,情绪越激昂,反之越消沉;
- lentgh-时长;
- Acousticness -音质;.
- Speechiness -语言-值越大,说明口语化程度越高;
- Popularity -火热程度。
2、数据列的名称更改
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts import Bar,WordCloud,Pie,Line
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
df=pd.read_excel(r'C:\Users\Administrator\Desktop\top50.xlsx')
df=df.rename(columns={'Track.Name':'曲名', 'Artist.Name':'歌手', 'Genre':'类型', 'Beats.Per.Minute':'节奏', 'Energy':'能量',
'Danceability':'舞蹈性', 'Loudness..dB..':'分贝','Liveness':'现场感', 'Length.':'时长','Speechiness':'语言', 'Popularity':'火热程度'})
df.head(10)
看英语的总是不习惯,所以我们可以把英语的列名改为中文。
二、数据分析
1、2019全球最流行的音乐类型排行
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts import Bar,WordCloud,Pie,Line
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
df=pd.read_excel(r'C:\Users\Administrator\Desktop\top50.xlsx')
df=df.rename(columns={'Track.Name':'曲名', 'Artist.Name':'歌手', 'Genre':'类型', 'Beats.Per.Minute':'音调', 'Energy':'能量',
'Danceability':'舞蹈性', 'Loudness..dB..':'分贝','Liveness':'现场感', 'Length.':'时长','Speechiness':'语言', 'Popularity':'火热程度'})
df=df.groupby('类型')['曲名'].count().reset_index()
df=df.sort_values(by='曲名',ascending=False).reset_index() cloud=WordCloud(title='2019最流行的音乐类型',width=800,height=420)
cloud.add(name='音乐类型',attr=df['类型'],value=df['曲名'],word_size_range=(12,60))
cloud.render('2019全球最流行的音乐类型.html')
cloud
从词云图可以看到,2019年全球最火的还是流行音乐(pop&dance pop)。鉴于其他类型的音乐我都不认识,所以下面的分析,我会直接对pop&dance pop作为主要对象,把他们归为一类。
2、2019年全球流行音乐排行
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts import Bar,WordCloud,Pie,Line
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
df=pd.read_excel(r'C:\Users\Administrator\Desktop\top50.xlsx')
df=df.rename(columns={'Track.Name':'曲名', 'Artist.Name':'歌手', 'Genre':'类型', 'Beats.Per.Minute':'音调', 'Energy':'能量',
'Danceability':'舞蹈性', 'Loudness..dB..':'分贝','Liveness':'现场感', 'Length.':'时长','Speechiness':'语言', 'Popularity':'火热程度'}) df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1)
df
通过上述代码,我已经把dance pop的类型全部换成pop。
#接上面的代码
df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1)
df.pivot_table(df,index='曲名').sort_values(by='火热程度',ascending=False).reset_index()
How Do You Sleep?
这是全球最流行的15首流行歌曲。
结合前面的图我们可以知道:这些流行歌曲的口语化程度低,歌词普遍比较优美,有意境;同时时长恰当,多在3分钟左右......
3、根据流行程度对歌曲进行分类颁奖
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts import Bar,WordCloud,Pie,Line
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
df=pd.read_excel(r'C:\Users\Administrator\Desktop\top50.xlsx')
df=df.rename(columns={'Track.Name':'曲名', 'Artist.Name':'歌手', 'Genre':'类型', 'Beats.Per.Minute':'音调', 'Energy':'能量',
'Danceability':'舞蹈性', 'Loudness..dB..':'分贝','Liveness':'现场感', 'Length.':'时长','Speechiness':'语言', 'Popularity':'火热程度'}) df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1)
df=df.pivot_table('火热程度',index='曲名').sort_values(by='火热程度',ascending=False).reset_index() def grade(火热程度):
if(火热程度>=90):
return '年度最热'
if(火热程度>=85):
return '年度火热'
else:
return '年度流行' df['授予荣誉'] = df.apply(lambda x :grade(x['火热程度']), axis=1)
df
我们知道,很多媒体都喜欢搞排行榜,而且喜欢给歌曲颁奖,这些颁奖一般会根据几个标准进行打分,算出综合排名。不过这个比较复杂,这里只根据流行程度颁奖,大于90分的就是年度最热;85-89的是年度火热;84以下的就是年度流行。这个实现代码很简单,做出分类,再给数据加一列,命名为“授予荣誉”即可。
#接上面的代码
plt.rcParams['font.sans-serif']=['SimHei']
plt.figure(figsize=(8,4))
sns.countplot(x="授予荣誉",data=df, order=['年度最热','年度火热','年度流行'],palette="muted")
plt.title('2019年全球流行音乐荣誉',loc='left',size=15)
plt.xlabel('授予荣誉',size=15)
plt.ylabel('数量',size=15)
plt.grid(False)
sns.despine(left=False )
这是对荣誉情况的统计,适用于数量比较大的情况。
4、2019全球最火流行歌手排行榜
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts import Bar,WordCloud,Pie,Line
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
df=pd.read_excel(r'C:\Users\Administrator\Desktop\top50.xlsx')
df=df.rename(columns={'Track.Name':'曲名', 'Artist.Name':'歌手', 'Genre':'类型', 'Beats.Per.Minute':'音调', 'Energy':'能量',
'Danceability':'舞蹈性', 'Loudness..dB..':'分贝','Liveness':'现场感', 'Length.':'时长','Speechiness':'语言', 'Popularity':'火热程度'}) df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1) df=df.pivot_table('火热程度',index='歌手',aggfunc='count').sort_values(by='火热程度',ascending=False).reset_index()
df=df.rename(columns={'火热程度':'上榜次数'})
df
这是全球最火的十大流行音乐歌手的排行。当然下面的图更直观:
#Python学习群 592539176
#接上面的代码
plt.rcParams['font.sans-serif']=['SimHei']
x=df['歌手']
y=df['上榜次数'] plt.figure(figsize=(12,4))
plt.bar(x,y,width=0.5,align='center')
plt.title('2019全球最火流行歌手排行榜',loc='left',size=15) for a,b in zip(x,y):
plt.text(a,b,b,ha='center',va='bottom',fontsize=12)#显示额度标签 plt.xlabel('歌手',size=15)
plt.ylabel('上榜次数',size=15)
plt.xticks(x,size=12,rotation=30)
plt.yticks(size=15,)
plt.grid(False)
sns.despine(left=False )
plt.show()
从上面的分析可以看到,Ed Sheeran这个人最厉害,15首最流行的歌,他一个人唱了四首,于是我百度了一下,想知道是何方神圣。最后发现就是这个人:
虽然长得确实其貌不扬,但是才华很棒,我听了一下,还蛮好听。
Beautiful People (feat. Khalid)
百度上说,这个人出生于1991年,今年刚结婚,英国的,2012年21岁的时候就在在第32届全英音乐奖中荣获英国最佳男艺人、英国最具突破艺人;2018年,获得第60届格莱美奖最佳流行歌手、最佳流行专辑奖。2019福布斯100名人榜排名第5位。
然而这么有名的人我竟然不认识,我好孤陋寡闻。
三、写在后面
数据分析其实是个很好玩的东西,平时的训练除了可以熟悉技能,其实还可以知道很多其他东西。
因为你每次做个案例,就相当于对某个领域做了一次了解,有时候还可以刷新自己的认知。
然后在做数据案例的时候,建议大家可以多找些自己感兴趣的数据源,悄悄告诉你,GitHub上有很多。这个网站真的很神奇,不仅有数据源,还可以案例分析,还有源代码,有些你只要复制下来就可以直接用,非常方便。
好了,今天的分享就到这里,下次我们继续。
Python分析盘点2019全球流行音乐:是哪些歌曲榜单占领了我们?的更多相关文章
- 我的 2019 年 Python 文章榜单
现在是 2020 年的第一天,我相信从昨天开始,各位的信息流里肯定充斥了各式各样的年度盘点/回顾/总结/记录之类的内容.虽然来得稍晚了,但我还是想给诸位送上这一篇文章. 我将在本文中列出自己于 201 ...
- 2020年Python文章盘点,我选出了个人TOP10
大家好,我是猫哥.2020年过得真快啊!总感觉这一年里还没有做成多少事,一眨眼就又到了写年度总结的时候了-- 去年1月1日的时候,我写了<我的 2019 年 Python 文章榜单>,简单 ...
- GAITC 2019全球人工智能技术大会(南京)
2019年5月25日至26日,由中国人工智能学会主办,以“交叉.融合.相生.共赢”为主题的2019GAITC将在南京全新亮相. 2019 全球人工智能技术大会(2019 GAITC)以“前端引领.深度 ...
- 用Python分析国庆旅游景点,告诉你哪些地方好玩、便宜、人又少
注:本人参考“裸睡的猪”公众号同名文章,学习使用. 一.目标 使用Python分析出国庆哪些旅游景点:好玩.便宜.人还少的地方,不然拍照都要抢着拍! 二.获取数据 爬取出行网站的旅游景点售票数据,反映 ...
- python 分析慢查询日志生成报告
python分析Mysql慢查询.通过Python调用开源分析工具pt-query-digest生成json结果,Python脚本解析json生成html报告. #!/usr/bin/env pyth ...
- Python分析数据难吗?某科技大学教授说,很难但有方法就简单
用python分析数据难吗?某科技大学的教授这样说,很难,但要讲方法,主要是因为并不是掌握了基础,就能用python来做数据分析的. 所谓python的基础,也就是刚入门的python学习者,学习的基 ...
- 五月天的线上演唱会你看了吗?用Python分析网友对这场线上演唱会的看法
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:CDA数据分析师 豆瓣9.4分!这场线上演唱会到底多好看? 首先让我 ...
- Python分析离散心率信号(下)
Python分析离散心率信号(下) 如何使用动态阈值,信号过滤和离群值检测来改善峰值检测. 一些理论和背景 到目前为止,一直在研究如何分析心率信号并从中提取最广泛使用的时域和频域度量.但是,使用的信号 ...
- Python分析离散心率信号(中)
Python分析离散心率信号(中) 一些理论和背景 心率信号不仅包含有关心脏的信息,还包含有关呼吸,短期血压调节,体温调节和荷尔蒙血压调节(长期)的信息.也(尽管不总是始终如一)与精神努力相关联,这并 ...
随机推荐
- jenkins部署到Tomcat下
一.首选要下载与安装jdk,因为需要在Java环境下面运行,安装好jdk后配置java环境变量(jdk环境变量的配置网上很多) 我本人安装的是jdk1.8 二.安装好jdk后,需要下载tomcat,这 ...
- response下载csv文件内容乱码问题
response下载csv文件内容乱码问题 解决办法:在输出流语句第一行输出 out.write(new byte[]{(byte)0xEF, (byte)0xBB, (byte)0xBF}); Se ...
- Python 多任务(线程) day2 (2)
同步 1.概念 :同步就是协同步调,按预定的先后次序运行 互斥锁 当多个线程几乎同时修改某一共享数据的时候,需要运行同步控制,最简单的同步机制是引入互斥锁.某个线程要更改共享数据时,先将其锁定,此时资 ...
- Linux gd库安装步骤说明
gd 库是 PHP 处理图形的扩展库,它提供了一系列用来处理图片的 API(应用程序编程接口),使用 gd 库可以处理图片或者生成图片.在网站上,gd 库通常用来生成缩略图,或者对图片加水印,或者生成 ...
- Python记之薄暮笔记
——————————————————————————————接下来请欣赏与众不同的表演. Python打印所有的字符串时,都用引号将其括起. 有一些独特而有用的字符串表示方式. 可使用三引号表示很长的 ...
- codeforce 427 C. Checkposts(tarjan 强连通分量)
题目链接:http://codeforces.com/contest/427/problem/C 题目大意是有n个junctions,这些junctions之间有m条道路,两两相连,现在在juncti ...
- noobSTL-1-配置器-0
noobSTL-1-配置器-0 0.前言 STL的配置器(allocator),也叫内存分配器,负责空间配置与管理,简单地说,就是负责管理内存的. 从实现的角度来看,配置器是一个实现了动态空间配置.空 ...
- Seekbar扩大点击区域
//扩大点击区域private void enlargeSeekBar() { mContentView.setOnTouchListener(new OnTouchListener() {//mCo ...
- monkey工具使用(未完待续)
monkey命令详解: 转自:http://blog.csdn.net/jlminghui/article/details/38238443 http://www.cnblogs.com/wfh198 ...
- 左偏树(p3377)
题目描述 如题,一开始有N个小根堆,每个堆包含且仅包含一个数.接下来需要支持两种操作: 操作1: 1 x y 将第x个数和第y个数所在的小根堆合并(若第x或第y个数已经被删除或第x和第y个数在用一个堆 ...