在上一部分《【python数据分析实战】电影票房数据分析(一)数据采集》 已经获取到了2011年至今的票房数据,并保存在了mysql中。

本文将在实操中讲解如何将mysql中的数据抽取出来并做成动态可视化。

图1 每年的月票房走势图

第一张图,我们要看一下每月的票房走势,毫无疑问要做成折线图,将近10年的票房数据放在一张图上展示。

数据抽取:

采集到的票房数据是按天统计的,并且我们只看正常上映的和点映的,其他如重映等场次均不在本次统计内。

因此我们先对mysql中的数据releaseInfo字段进行筛选,然后根据上映年份和月份进行分组聚合,得到10年内每月的票房数据。

用sql取到数据后,再将不同年份的数据分别放入list中,原始数据是以"万"为单位的str,这里我们折算为以"亿"为单位的float。

构造图像:

x轴数据为年份,

再分别将不同年份的票房数据添加到y轴中,

最后配置下图像的属性即可。

  1. config = {...} # db配置省略
  2. conn = pymysql.connect(**config)
  3. cursor = conn.cursor()
  4. sql = '''
  5. select substr(`date`,1,4) year,
  6. substr(`date`,5,2) month,
  7. round(sum(`boxInfo`),2) monthbox
  8. from movies_data
  9. where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' )
  10. group by year,month order by year,month
  11. '''
  12. cursor.execute(sql)
  13. data = cursor.fetchall()
  14. x_data = list(set([int(i[1]) for i in data]))
  15. x_data.sort()
  16. x_data = list(map(str, x_data))
  17. y_data1 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2011']
  18. y_data2 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2012']
  19. y_data3 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2013']
  20. y_data4 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2014']
  21. y_data5 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2015']
  22. y_data6 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2016']
  23. y_data7 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2017']
  24. y_data8 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2018']
  25. y_data9 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2019']
  26. cursor.close()
  27. conn.close()
  28. def line_base() -> Line:
  29. c = (
  30. Line(init_opts=opts.InitOpts(height="600px", width="1300px"))
  31. .add_xaxis(x_data)
  32. .add_yaxis("2011", y_data1)
  33. .add_yaxis("2012", y_data2)
  34. .add_yaxis("2013", y_data3)
  35. .add_yaxis("2014", y_data4)
  36. .add_yaxis("2015", y_data5)
  37. .add_yaxis("2016", y_data6)
  38. .add_yaxis("2017", y_data7)
  39. .add_yaxis("2018", y_data8)
  40. .add_yaxis("2019", y_data9)
  41. .set_global_opts(title_opts=opts.TitleOpts(title="月票房走势"),
  42. legend_opts=opts.LegendOpts(
  43. type_="scroll", pos_top="55%", pos_left="95%", orient="vertical"),
  44. xaxis_opts=opts.AxisOpts(
  45. axistick_opts=opts.AxisTickOpts(is_align_with_label=True), boundary_gap=False, ),)
  46. .set_series_opts(label_opts=opts.LabelOpts(is_show=False), # 不显示柱体上的标注(数值)
  47. markline_opts=opts.MarkLineOpts(
  48. data=[opts.MarkLineItem(type_="max", name="最大值"), ]), )
  49. .extend_axis(yaxis=opts.AxisOpts(name="票房(亿元)", position='left'), # 设置y轴标签显示格式,数据+"人"
  50. xaxis=opts.AxisOpts(name="月份"))
  51. )
  52. return c
  53. line_base().render("v1.html")

有本图可以看出:

1、近10年票房总数逐渐增长(当然这是废话)

2、11-13年每月票房波动很小,几乎没有明显的高峰档期,最近两年高峰档期最为明显,集中在春节、暑期和十一。

图2 年票房总值、上映影片总数及观影人次

第二张图,我们要看一下票房、上映影片数和观影人次 逐年的变化情况

数据抽取:

先筛选releaseInfo 为正常上映和首映的数据,

再按年份分组,也就是date字段的前4位,

  • 对当日票房字段进行sum聚合得到年度总票房;
  • 对movieId字段去重 并求得出现次数 即为上映的影片总数;
  • 场均人数 * 排片场次 是当日观影人次,再用sum求得年观影人次。

构造图像:

因为三类数据的x轴都是年份,所以可放在一张图上展示,为了观察更直观,将其中一项数据作成柱状图,另外两项做成折线图。

  • 1、先构造折线图图,将票房和影片数量添加为y轴数据,年份为x轴数据。
  • 2、因为票房和上映影片数 在做完单位换算后,值域基本相同,所以可以共用一个y轴,而观影人次则需要使用单独的y轴,

    所以要添加一个新的y轴,并分别指定这三项数据的y轴索引,即票房和上映影片数 使用默认的y轴索 引为0,而观影人次使用后添加的y轴,索引为1。
  • 3、再构造柱状图,y轴数据为观影人次,x轴数据依然为年份,并指定y轴索引为1
  • 4、最后,将柱状图和折线图重叠输出,再简单调整一下图像位置即可。
  1. config = {...} # db配置省略
  2. conn = pymysql.connect(**config)
  3. cursor = conn.cursor()
  4. sql2 = '''select substr(date,1,4),
  5. round(sum(boxInfo)/10000,2),
  6. count(DISTINCT movieId),
  7. round(sum(avgShowView*showInfo)/100000000,2)
  8. from movies_data
  9. where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' )
  10. GROUP by substr(date,1,4)'''
  11. cursor.execute(sql2)
  12. data2 = cursor.fetchall()
  13. x_data2 = [i[0] for i in data2]
  14. y_data2_1 = [i[1] for i in data2]
  15. y_data2_2 = [i[2] for i in data2]
  16. y_data2_3 = [i[3] for i in data2]
  17. cursor.close()
  18. conn.close()
  19. def bar_base() -> Line:
  20. c = (
  21. Line()
  22. .add_xaxis(x_data2)
  23. .add_yaxis("总票房", y_data2_1, yaxis_index=0)
  24. .add_yaxis("上映电影总数", y_data2_2, color='LimeGreen', yaxis_index=0, )
  25. .set_global_opts(title_opts=opts.TitleOpts(title="年票房总值、上映影片总数及观影总人次"),
  26. legend_opts=opts.LegendOpts(pos_left="40%"),
  27. )
  28. .extend_axis(
  29. yaxis=opts.AxisOpts(name="票房/数量(亿元/部)", position='left'))
  30. .extend_axis(
  31. yaxis=opts.AxisOpts(name="人次(亿)", type_="value", position="right", # 设置y轴的名称,类型,位置
  32. axisline_opts=opts.AxisLineOpts(linestyle_opts=opts.LineStyleOpts(color="#483D8B")), ))
  33. )
  34. bar = (
  35. Bar()
  36. .add_xaxis(x_data2)
  37. .add_yaxis("观影人次", y_data2_3, yaxis_index=2, category_gap="1%",
  38. label_opts=opts.LabelOpts(position="inside"))
  39. )
  40. c.overlap(bar)
  41. return Grid().add(c, opts.GridOpts(pos_left="10%",pos_top='20%'), is_control_axis_index=True) # 调整位置
  42. bar_base().render("v2.html")

本图可以看出:

(2019年数据下滑是因为统计时 2019年刚到10月下旬,还没有得到一年完整的数据。)

1、上映影片数增长幅度不大,票房和观影人次涨幅相近,因此票房逐年增长的最主要原因是观影人次的增长,年平均票价应该变化不大。

图3 单片总票房及日均票房

影片的上映期长短不一,这也影响了影片的票房情况,所以这张图我们要看一下单片总票房和日均票房的情况。

  1. config = {...} # db配置省略
  2. conn = pymysql.connect(**config)
  3. cursor = conn.cursor()
  4. sql2 = '''select a.*,b.releasemonth from
  5. (select movieid,
  6. moviename,
  7. round(sum(boxinfo)/10000,2) sumBox,
  8. count(movieid) releasedays,
  9. round(sum(boxinfo)/count(movieid)/10000,2) avgdaybox
  10. from movies_data
  11. where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' )
  12. group by movieid,moviename) a ,
  13. (select substr(date,5,2) releasemonth,movieId,movieName,releaseInfo from movies_data where releaseInfo='上映首日') b
  14. where a.movieid = b.movieid order by sumBox desc'''
  15. cursor.execute(sql2)
  16. data3 = cursor.fetchall()
  17. x_data3 = [i[1] for i in data3[:30]] # 名称
  18. y_data3_1 = [i[2] for i in data3[:30]] # 总票房
  19. y_data3_2 = [i[4] for i in data3[:30]] # 日均票房
  20. y_data3_3 = [int(i[5]) for i in data3[:30]] # 上映月份
  21. cursor.close()
  22. conn.close()
  23. def bar_base() -> Line:
  24. c = (
  25. Bar(init_opts=opts.InitOpts(height="600px", width="1500px"))
  26. .add_xaxis(x_data3)
  27. .add_yaxis("影片总票房", y_data3_1, yaxis_index=0)
  28. # .add_yaxis("影片日均票房", y_data3_2, yaxis_index=1, gap='-40%')
  29. .set_global_opts(title_opts=opts.TitleOpts(title="单片总票房及日均票房"),
  30. xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-45)),
  31. datazoom_opts=opts.DataZoomOpts(), )
  32. .set_series_opts(label_opts=opts.LabelOpts(is_show=False), # 不显示柱体上的标注(数值)
  33. markpoint_opts=opts.MarkPointOpts(
  34. data=[opts.MarkPointItem(type_="max", name="最大值"),
  35. opts.MarkPointItem(type_="min", name="最小值"), ]),)
  36. .extend_axis(
  37. yaxis=opts.AxisOpts(name="亿元", position='left'))
  38. .extend_axis(
  39. yaxis=opts.AxisOpts(name="亿元", type_="value", position="right", # 设置y轴的名称,类型,位置
  40. axisline_opts=opts.AxisLineOpts(linestyle_opts=opts.LineStyleOpts(color="#483D8B")), ))
  41. )
  42. bar = (
  43. Bar(init_opts=opts.InitOpts(height="600px", width="1500px"))
  44. .add_xaxis(x_data3)
  45. # .add_yaxis("影片总票房", y_data3_1, yaxis_index=0)
  46. .add_yaxis("影片日均票房", y_data3_2, yaxis_index=2, gap='-40%')
  47. .set_global_opts(title_opts=opts.TitleOpts(title="单片总票房及日均票房"),)
  48. .set_series_opts(label_opts=opts.LabelOpts(is_show=False), # 不显示柱体上的标注(数值)
  49. markpoint_opts=opts.MarkPointOpts(
  50. data=[opts.MarkPointItem(type_="max", name="最大值"),
  51. opts.MarkPointItem(type_="min", name="最小值"), ]),
  52. markline_opts=opts.MarkLineOpts(
  53. data=[opts.MarkLineItem(type_="average", name="平均值"), ]
  54. ),)
  55. )
  56. c.overlap(bar)
  57. return Grid().add(c, opts.GridOpts(pos_left="5%", pos_right="20%"), is_control_axis_index=True) # 调整位置
  58. bar_base().render("v3.html")

可以看出有的电影虽然总票房一般,但是日均票房很高,说明上映时间不长但却很火爆。

而对于总票房很高,但日均票房一般的影片,可能是由于上映时间较长,后期较低的上座率拉低了日均票房。

所以看一个影片的火爆程度,总票房只是一方面,在相同上映时间内的上座率变化趋势也很重要。

图4 单片票房及上映月份关系图

本图相当于图一的补充,主要是看一下高票房的影片和上映时间的关系


  1. def dayformat(i):
  2. mm = int(i[-2])
  3. dd = int(i[-1])
  4. mmdd = mm + dd/100*3.3
  5. return mmdd
  6. config = {...} # db配置省略
  7. conn = pymysql.connect(**config)
  8. cursor = conn.cursor()
  9. sql2 = '''select a.*,b.releaseyear,b.releasemonth,b.releaseday from
  10. (select movieid,
  11. moviename,
  12. round(sum(boxinfo)/10000,2) sumBox,
  13. count(movieid) releasedays,
  14. round(sum(boxinfo)/count(movieid)/10000,2) avgdaybox
  15. from movies_data
  16. where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' )
  17. group by movieid,moviename) a ,
  18. (select substr(date,1,4) releaseyear,
  19. substr(date,5,2) releasemonth,
  20. substr(date,7,2) releaseday,
  21. movieId,
  22. movieName,
  23. releaseInfo
  24. from movies_data where releaseInfo='上映首日') b
  25. where a.movieid = b.movieid order by sumBox desc'''
  26. cursor.execute(sql2)
  27. data4 = cursor.fetchall()
  28. x_data4 = [i for i in range(1, 13)]
  29. y_data4_1 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2011']
  30. y_data4_2 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2012']
  31. y_data4_3 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2013']
  32. y_data4_4 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2014']
  33. y_data4_5 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2015']
  34. y_data4_6 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2016']
  35. y_data4_7 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2017']
  36. y_data4_8 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2018']
  37. y_data4_9 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2019']
  38. cursor.close()
  39. conn.close()
  40. my_config = pygal.Config() # 创建Config实例
  41. my_config.show_y_guides = False # 隐藏水平虚线
  42. my_config.show_x_guides = True
  43. xy_chart = pygal.XY(stroke=False, config=my_config)
  44. xy_chart.title = '单片票房及上映月份关系图'
  45. xy_chart.add('2011', y_data4_1)
  46. xy_chart.add('2012', y_data4_2)
  47. xy_chart.add('2013', y_data4_3)
  48. xy_chart.add('2014', y_data4_4)
  49. xy_chart.add('2015', y_data4_5)
  50. xy_chart.add('2016', y_data4_6)
  51. xy_chart.add('2017', y_data4_7)
  52. xy_chart.add('2018', y_data4_8)
  53. xy_chart.add('2019', y_data4_9)
  54. xy_chart.render_to_file("v4.svg")

上一部分《【python数据分析实战】电影票房数据分析(一)数据采集》

【python数据分析实战】电影票房数据分析(二)数据可视化的更多相关文章

  1. Python数据分析实战:使用pyecharts进行数据可视化

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起 开始使用 基本套路就是先创建一个你需要的空图层,然后使用.s ...

  2. 【python数据分析实战】电影票房数据分析(一)数据采集

    目录 1.获取url 2.开始采集 3.存入mysql 本文是爬虫及可视化的练习项目,目标是爬取猫眼票房的全部数据并做可视化分析. 1.获取url 我们先打开猫眼票房http://piaofang.m ...

  3. python实现的电影票房数据可视化

    代码地址如下:http://www.demodashi.com/demo/14275.html 详细说明: Tushare是一个免费.开源的python财经数据接口包.主要实现对股票等金融数据从数据采 ...

  4. python pandas 豆瓣电影 top250 数据分析

    豆瓣电影top250数据分析 数据来源(豆瓣电影top250) 爬虫代码比较简单 数据较为真实,可以进行初步的数据分析 可以将前面的几篇文章中的介绍的数据预处理的方法进行实践 最后用matplotli ...

  5. Spark实战电影点评系统(二)

    二.通过DataFrame实战电影点评系统 DataFrameAPI是从Spark 1.3开始就有的,它是一种以RDD为基础的分布式无类型数据集,它的出现大幅度降低了普通Spark用户的学习门槛. D ...

  6. 详解Python Streamlit框架,用于构建精美数据可视化web app,练习做个垃圾分类app

    今天详解一个 Python 库 Streamlit,它可以为机器学习和数据分析构建 web app.它的优势是入门容易.纯 Python 编码.开发效率高.UI精美. 上图是用 Streamlit 构 ...

  7. python爬虫: 豆瓣电影top250数据分析

    转载博客 https://segmentfault.com/a/1190000005920679 根据自己的环境修改并配置mysql数据库 系统:Mac OS X 10.11 python 2.7 m ...

  8. [读书笔记] Python 数据分析 (八)画图和数据可视化

    ipython3 --pyplot pyplot: matplotlib 画图的交互使用环境

  9. SPSSAU数据分析思维培养系列4:数据可视化篇

    本文章为SPSSAU数据分析思维培养的第4期文章. 前3期内容分别讲述数据思维,分析方法和分析思路.本文讲述如何快速使用SPSSAU进行高质量作图,以及如何选择使用正确的图形. 本文分别从五个角度进行 ...

随机推荐

  1. [Leetcode] 第290题 单词模式

    一.题目描述 给定一种 pattern(模式) 和一个字符串 str ,判断 str 是否遵循相同的模式. 这里的遵循指完全匹配,例如, pattern 里的每个字母和字符串 str 中的每个非空单词 ...

  2. Qt 做一个类似微信滑动聊天界面的demo

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://www.cnblogs.com/lihuidashen/p/115889 ...

  3. Java 基础篇之编程基础

    基本数据类型 java 是强类型语言,在 java 中存储的数据都是有类型的,而且必须在编译时就确定其类型. 基本数据类型变量存储的是数据本身,而引用类型变量存的是数据的空间地址. 基本类型转换 自动 ...

  4. 完美激活Pycharm2019.2.3专业版

    完美激活Pycharm2019.2.3专业版 Pycharm官网自9月11更新到pycharm2019.2.2版本后,在短短的2周时间与9月25又带来新版本2019.2.3,不可说更新不快,侧面可以看 ...

  5. 2019-2020-1 20199303 《Linux内核原理分析》 第一周作业

    2019-2020-1 20199303 <Linux内核原理分析> 第一周作业 1. 环境准备 在众多的Linux发行版中,Ubuntu,小红帽还有类Unix系统的BSD系统,我选择了目 ...

  6. MongoDB的复制源oplog

    ​ 之前有说过MongoDB的复制是异步复制的,其实也就是通过oplog来实现的,他存放在local数据库中,我们来查询一下主节点的日志大小. ​ 除了主节点有oplog之外,其他节点也就有oplog ...

  7. node学习笔记(二)流和缓冲区

    内容 视频 第四章内容 菜鸟教程服务器 //复制文件 function de(x) { console.log(x); } var fs=require('fs'); fs.mkdir('stuff' ...

  8. Kubernetes 系列(二):Deployment 扩容

    (1)首先我们创建一个nginx的Deployment,采用官方的yaml: kubectl create -f https://kubernetes.io/docs/user-guide/nginx ...

  9. wdcp 开启某个Mysql数据库远程访问

    wdcp 开启某个Mysql数据库远程访问 登录wdcp后台-Mysql管理-phpmyadmin 输入Mysql的root密码登录进入 示例代码: update mysql.user set hos ...

  10. jq中attr()和prop() 属性的区别

    query1.6中新加了一个方法prop(),一直没用过它,官方解释只有一句话:获取在匹配的元素集中的第一个元素的属性值. 大家都知道有的浏览器只要写disabled,checked就可以了,而有的要 ...