《南方车站的聚会》由刁亦男执导,主要演员包括:胡歌、桂纶镁、廖凡、万茜等,该片于 2019 年 5 月 18 在戛纳电影节首映,2019 年 12 月 6 日在中国正式上映。故事灵感来自真实新闻事件,主要讲述盗窃团伙头目周泽农(胡歌饰),在重金悬赏下走上逃亡之路,艰难寻求自我救赎的故事。

影片上映了一周多,票房接近 2 亿,作为一部文艺片,这个表现应该算是属于中上水平了。下面打开豆瓣看一下评分情况,如下图所示:

![](https://img-blog.csdnimg.cn/20191215105336871.PNG#pic =600x)

从图中我们可以看到目前有 13 万多人评分,达到了 7.5 分,打 4 星和 3 星的居多,并非网上一些人所说的口碑两极分化(如果两级分化,应该是打 5 星 和 1 星的居多吧?!)。

页面向下拉到影评位置,如下图所示:

![](https://img-blog.csdnimg.cn/20191215112644309.PNG#pic =600x)

我们可以看到有 5 万多条影评,目前豆瓣对查看影评数据的限制是:未登录最多可以查看 200 条数据,登录用户最多可以查看 500 条数据,我们要做的是通过 Python 爬取豆瓣 500 条影评数据,然后进行数据分析。

首先获取影片列表 URL,具体操作为:点击上图中 全部 52846 条,进入影评列表首页,如下图所示:

![](https://img-blog.csdnimg.cn/20191215151128671.png#pic =600x)

但我们发现一个问题,该 URL 参数中并没有行号等信息(实现翻页需要),这个问题我们只需点击后页按钮即可看到,结果如图所示:

![](https://img-blog.csdnimg.cn/20191215212043505.png#pic =600x)

现在我们可以从 URL 中看到这些信息了,因 start 参数为变量,我们将上面 URL 修改为:https://movie.douban.com/subject/27668250/comments?start=%d&limit=20&sort=new_score&status=P 作为爬取开始 URL。

接着我们看一下如何实现登陆,首先打开登录页,如下图所示:

![](https://img-blog.csdnimg.cn/20191215124537659.PNG#pic =550x)

我们先在手机号/邮箱密码输入框处随意输入(不要输入正确的用户名和密码),再按 F12 键打开开发者工具,最后点击登录豆瓣按钮,结果如图所示:

![](https://img-blog.csdnimg.cn/20191215125137456.png#pic =600x)

我们点击上面图中所示 basic 项,点击后结果如图所示:

![](https://img-blog.csdnimg.cn/20191215130430210.png#pic =600x)

此时可以看到 Request URL(登录所需 URL) 和 Form Data 项,这两项是我们登录时需要的,当然我们还需 User-Agent,点击上面图中所示的 Request Headers 项即可看到,如图所示:

![](https://img-blog.csdnimg.cn/20191215131109642.png#pic =600x)

所需要的东西都找好了,接下来就是具体实现了,豆瓣登录和影评数据爬取的具体实现如下所示:

  1. import requests
  2. import time
  3. import random
  4. from lxml import etree
  5. import csv
  6. # 新建 csv 文件
  7. csvfile = open('南方车站的聚会.csv','w',encoding='utf-8',newline='')
  8. writer = csv.writer(csvfile)
  9. # 表头
  10. writer.writerow(['时间','星级','评论内容'])
  11. def spider():
  12. url = 'https://accounts.douban.com/j/mobile/login/basic'
  13. headers = {"User-Agent": 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}
  14. comment_url = 'https://movie.douban.com/subject/27668250/comments?start=%d&limit=20&sort=new_score&status=P'
  15. data = {
  16. 'ck': '',
  17. 'name': '自己的用户名',
  18. 'password': '自己的密码',
  19. 'remember': 'false',
  20. 'ticket': ''
  21. }
  22. session = requests.session()
  23. session.post(url=url, headers=headers, data=data)
  24. # 总共 500 条,每页 20 条
  25. for i in range(0, 500, 20):
  26. # 获取 HTML
  27. data = session.get(comment_url % i, headers=headers)
  28. print('第', i, '页', '状态码:', data.status_code)
  29. # 暂停 0-1 秒
  30. time.sleep(random.random())
  31. # 解析 HTML
  32. selector = etree.HTML(data.text)
  33. # 获取当前页所有评论
  34. comments = selector.xpath('//div[@class="comment"]')
  35. # 遍历所有评论
  36. for comment in comments:
  37. # 获取星级
  38. star = comment.xpath('.//h3/span[2]/span[2]/@class')[0][7]
  39. # 获取时间
  40. t = comment.xpath('.//h3/span[2]/span[3]/text()')
  41. # 获取评论内容
  42. content = comment.xpath('.//p/span/text()')[0].strip()
  43. # 排除时间为空的项
  44. if len(t) != 0:
  45. t = t[0].strip()
  46. writer.writerow([t, star, content])

接下来我们通过词云直观的来展示下整体评论情况,具体实现如下所示:

  1. import csv
  2. import jieba
  3. from wordcloud import WordCloud
  4. import numpy as np
  5. from PIL import Image
  6. # jieba 分词处理
  7. def jieba_():
  8. csv_list = csv.reader(open('南方车站的聚会.csv', 'r', encoding='utf-8'))
  9. print('csv_list',csv_list)
  10. comments = ''
  11. for i,line in enumerate(csv_list):
  12. if i != 0:
  13. comment = line[2]
  14. comments += comment
  15. print("comment-->",comments)
  16. # jieba 分词
  17. words = jieba.cut(comments)
  18. new_words = []
  19. # 要排除的词
  20. remove_words = ['以及', '在于', '一些', '一场', '只有',
  21. '不过', '东西', '场景', '所有', '这么',
  22. '但是', '全片', '之前', '一部', '一个',
  23. '作为', '虽然', '一切', '怎么', '表现',
  24. '人物', '没有', '不是', '一种', '个人'
  25. '如果', '之后', '出来', '开始', '就是',
  26. '电影', '还是', '不是', '武汉', '镜头']
  27. for word in words:
  28. if word not in remove_words:
  29. new_words.append(word)
  30. global word_cloud
  31. # 用逗号分隔词语
  32. word_cloud = ','.join(new_words)
  33. # 生成词云
  34. def world_cloud():
  35. # 背景图
  36. cloud_mask = np.array(Image.open('bg.jpg'))
  37. wc = WordCloud(
  38. # 背景图分割颜色
  39. background_color='white',
  40. # 背景图样
  41. mask=cloud_mask,
  42. # 显示最大词数
  43. max_words=600,
  44. # 显示中文
  45. font_path='./fonts/simhei.ttf',
  46. # 字的尺寸限制
  47. min_font_size=20,
  48. max_font_size=100,
  49. margin=5
  50. )
  51. global word_cloud
  52. x = wc.generate(word_cloud)
  53. # 生成词云图片
  54. image = x.to_image()
  55. # 展示词云图片
  56. image.show()
  57. # 保存词云图片
  58. wc.to_file('wc.png')

整体评论词云图

因为有人说了影片口碑两级分化,接下来我们看一下打 1 星和 5 星的词云效果如何,主要实现如下所示:

  1. for i,line in enumerate(csv_list):
  2. if i != 0:
  3. star = line[1]
  4. comment = line[2]
  5. # 一星评论用 1,五星评论用 5
  6. if star == '1':
  7. comments += comment

一星评论词云图

五星评论词云图



上面我们只使用了评论内容信息,还有时间和星级信息没有使用,最后我们可以用这两项数据分析下随着时间的变化影片星级的波动情况,以月为单位统计影片从首映(2019 年 5 月)到当前时间(2019 年 12月)的星级波动情况,具体实现如下所示:

  1. import csv
  2. from pyecharts.charts import Line
  3. import pyecharts.options as opts
  4. import numpy as np
  5. from datetime import datetime
  6. def score():
  7. csv_list = csv.reader(open('南方车站的聚会.csv', 'r', encoding='utf-8'))
  8. print('csv_list', csv_list)
  9. comments = ''
  10. ts = []
  11. ss = set()
  12. for i, line in enumerate(csv_list):
  13. if i != 0:
  14. t = line[0][0:7]
  15. s = line[1]
  16. ts.append(t+':'+s)
  17. ss.add(t)
  18. new_times = []
  19. new_starts = []
  20. new_ss = []
  21. for i in ss:
  22. new_ss.append(i)
  23. arr = np.array(new_ss)
  24. new_ss = arr[np.argsort([datetime.strptime(i, '%Y-%m') for i in np.array(new_ss)])].tolist()
  25. print('new_ss',new_ss)
  26. for i in new_ss:
  27. x = 0
  28. y = 0
  29. z = 0
  30. for j in ts:
  31. t = j.split(':')[0]
  32. s = int(j.split(':')[1])
  33. if i == t:
  34. x += s
  35. z += 1
  36. new_times.append(i)
  37. new_starts.append(round(x / z, 1))
  38. c = (
  39. Line()
  40. .add_xaxis(new_times)
  41. .add_yaxis('南方车站的聚会',new_starts)
  42. .set_global_opts(title_opts=opts.TitleOpts(title='豆瓣星级波动图'))
  43. ).render()

影片星级波动效果如下图所示:



根据影片星级的波动情况我们也能大致预测到影片评分的波动情况。

参考:

https://baike.baidu.com/item/%E5%8D%97%E6%96%B9%E8%BD%A6%E7%AB%99%E7%9A%84%E8%81%9A%E4%BC%9A/22547693?fr=aladdin

Python 分析电影《南方车站的聚会》的更多相关文章

  1. 利用python实现电影推荐

    "协同过滤"是推荐系统中的常用技术,按照分析维度的不同可实现"基于用户"和"基于产品"的推荐. 以下是利用python实现电影推荐的具体方法 ...

  2. 转利用python实现电影推荐

    “协同过滤”是推荐系统中的常用技术,按照分析维度的不同可实现“基于用户”和“基于产品”的推荐. 以下是利用python实现电影推荐的具体方法,其中数据集源于<集体编程智慧>一书,后续的编程 ...

  3. python一键电影搜索与下载

    代码地址如下:http://www.demodashi.com/demo/14313.html python一键电影搜索与下载 概述 使用python搜索并爬取豆瓣电影信息,包括评分,主演,导演,类型 ...

  4. Python分析离散心率信号(下)

    Python分析离散心率信号(下) 如何使用动态阈值,信号过滤和离群值检测来改善峰值检测. 一些理论和背景 到目前为止,一直在研究如何分析心率信号并从中提取最广泛使用的时域和频域度量.但是,使用的信号 ...

  5. 用Python分析国庆旅游景点,告诉你哪些地方好玩、便宜、人又少

    注:本人参考“裸睡的猪”公众号同名文章,学习使用. 一.目标 使用Python分析出国庆哪些旅游景点:好玩.便宜.人还少的地方,不然拍照都要抢着拍! 二.获取数据 爬取出行网站的旅游景点售票数据,反映 ...

  6. python 分析慢查询日志生成报告

    python分析Mysql慢查询.通过Python调用开源分析工具pt-query-digest生成json结果,Python脚本解析json生成html报告. #!/usr/bin/env pyth ...

  7. Python分析盘点2019全球流行音乐:是哪些歌曲榜单占领了我们?

    写在前面:圣诞刚过,弥留者节日气息的大家是否还在继续学习呐~在匆忙之际也不忘给自己找几首好听的歌曲放松一下,缠绕着音乐一起来看看关于2019年流行音乐趋势是如何用Python分析的吧! 昨天下午没事儿 ...

  8. Python分析数据难吗?某科技大学教授说,很难但有方法就简单

    用python分析数据难吗?某科技大学的教授这样说,很难,但要讲方法,主要是因为并不是掌握了基础,就能用python来做数据分析的. 所谓python的基础,也就是刚入门的python学习者,学习的基 ...

  9. 五月天的线上演唱会你看了吗?用Python分析网友对这场线上演唱会的看法

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:CDA数据分析师 豆瓣9.4分!这场线上演唱会到底多好看? 首先让我 ...

随机推荐

  1. 读懂JWT的使用,你就会用PHP如何实现了

    要如何用php实现JWT认证,那我们首先就来认识一下什么是JWT.什么是JWTJWT(json web token)是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准.JWT的声明一般被 ...

  2. LLDB调试详解--逆向开发

    前言 今天讲述在苹果日常开发中一个装逼神器LLDB,是Xcode内置的动态调试工具. 在iOS系统程序开发中,会经常需要代码调试的追踪, 最常用的也是LLDB(low level debugger) ...

  3. k8s 获取 Pod ip 添加到环境变量

    0x00 事件 有一个需要将 Pod 自身的 ip 地址添加到环境变量的需求,可以在 yaml 文件的 env 中这样设置: env: - name: POD_OWN_IP_ADDRESS value ...

  4. k8s Ingress 理解和部署

    目录 前言 Ingress 与 ingress-controller Ingress 部署 1.部署 ingress-controller 2.部署测试 web 服务 3.部署 Ingress 4.检 ...

  5. 实现自定义的参数解析器——HandlerMethodArgumentResolver

    1.为什么需要自己实现参数解析器 我们都知道在有注解的接口方法中加上@RequestBody等注解,springMVC会自动的将消息体等地方的里面参数解析映射到请求的方法参数中. 如果我们想要的信息不 ...

  6. requests请求库

    # coding = utf-8 """ 同urllib一样 requests 也是发送http请求的第三方库 兼容Python2和3 实现了http的绝大部分功能. 安 ...

  7. 关于vue中的videoPlayer的src视频地址参数动态修改(网上一堆错误方法,被误导很久,自己找到了正确的方法,供大家借鉴)

    方法很简单:相信大家的问题应该是改变src的值吧,动态赋值这一步简单.this.playerOptions['sources'][0]['src'] 就是这一步解决提取src问题,主要部分用绿色框起来 ...

  8. 【Android - 控件】之MD - TabLayout的使用

    TabLayout是Android 5.0新特性——Material Design中的一个控件,是一个标签页的导航条,常结合ViewPager完成页面导航. 和其他MD控件一样,使用TabLayout ...

  9. CCNA 之 综合实验

    CCNA 综合实验 需要:根据下列图中的网路拓扑,搭建环境; PC1属于VLAN10:PC2属于VLAN20:网关均在OR_C2811: VLAN10.20对应的网段分别为192.168.10.0.2 ...

  10. 在Linux下生成crypt加密密码

    [摘要]当我们用红帽Kickstart脚本或useradd或其他方式写东西的时候,经常会需要用到crypt命令加密生成的密码格式.那么,有没有其他方式可以生成这种格式的密码?事实上,方法有很多 1.我 ...