Python 分析电影《南方车站的聚会》
《南方车站的聚会》由刁亦男执导,主要演员包括:胡歌、桂纶镁、廖凡、万茜等,该片于 2019 年 5 月 18 在戛纳电影节首映,2019 年 12 月 6 日在中国正式上映。故事灵感来自真实新闻事件,主要讲述盗窃团伙头目周泽农(胡歌饰),在重金悬赏下走上逃亡之路,艰难寻求自我救赎的故事。
影片上映了一周多,票房接近 2 亿,作为一部文艺片,这个表现应该算是属于中上水平了。下面打开豆瓣看一下评分情况,如下图所示:
![](https://img-blog.csdnimg.cn/20191215105336871.PNG#pic =600x)
从图中我们可以看到目前有 13 万多人评分,达到了 7.5 分,打 4 星和 3 星的居多,并非网上一些人所说的口碑两极分化
(如果两级分化,应该是打 5 星 和 1 星的居多吧?!)。
页面向下拉到影评位置,如下图所示:
![](https://img-blog.csdnimg.cn/20191215112644309.PNG#pic =600x)
我们可以看到有 5 万多条影评,目前豆瓣对查看影评数据的限制是:未登录最多可以查看 200 条数据,登录用户最多可以查看 500 条数据,我们要做的是通过 Python 爬取豆瓣 500 条影评数据,然后进行数据分析。
首先获取影片列表 URL,具体操作为:点击上图中 全部 52846 条
,进入影评列表首页,如下图所示:
![](https://img-blog.csdnimg.cn/20191215151128671.png#pic =600x)
但我们发现一个问题,该 URL 参数中并没有行号等信息(实现翻页需要),这个问题我们只需点击后页
按钮即可看到,结果如图所示:
![](https://img-blog.csdnimg.cn/20191215212043505.png#pic =600x)
现在我们可以从 URL 中看到这些信息了,因 start
参数为变量,我们将上面 URL 修改为:https://movie.douban.com/subject/27668250/comments?start=%d&limit=20&sort=new_score&status=P
作为爬取开始 URL。
接着我们看一下如何实现登陆,首先打开登录页,如下图所示:
![](https://img-blog.csdnimg.cn/20191215124537659.PNG#pic =550x)
我们先在手机号/邮箱
和密码
输入框处随意输入(不要输入正确的用户名和密码),再按 F12
键打开开发者工具,最后点击登录豆瓣
按钮,结果如图所示:
![](https://img-blog.csdnimg.cn/20191215125137456.png#pic =600x)
我们点击上面图中所示 basic
项,点击后结果如图所示:
![](https://img-blog.csdnimg.cn/20191215130430210.png#pic =600x)
此时可以看到 Request URL
(登录所需 URL) 和 Form Data
项,这两项是我们登录时需要的,当然我们还需 User-Agent
,点击上面图中所示的 Request Headers
项即可看到,如图所示:
![](https://img-blog.csdnimg.cn/20191215131109642.png#pic =600x)
所需要的东西都找好了,接下来就是具体实现了,豆瓣登录和影评数据爬取的具体实现如下所示:
import requests
import time
import random
from lxml import etree
import csv
# 新建 csv 文件
csvfile = open('南方车站的聚会.csv','w',encoding='utf-8',newline='')
writer = csv.writer(csvfile)
# 表头
writer.writerow(['时间','星级','评论内容'])
def spider():
url = 'https://accounts.douban.com/j/mobile/login/basic'
headers = {"User-Agent": 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}
comment_url = 'https://movie.douban.com/subject/27668250/comments?start=%d&limit=20&sort=new_score&status=P'
data = {
'ck': '',
'name': '自己的用户名',
'password': '自己的密码',
'remember': 'false',
'ticket': ''
}
session = requests.session()
session.post(url=url, headers=headers, data=data)
# 总共 500 条,每页 20 条
for i in range(0, 500, 20):
# 获取 HTML
data = session.get(comment_url % i, headers=headers)
print('第', i, '页', '状态码:', data.status_code)
# 暂停 0-1 秒
time.sleep(random.random())
# 解析 HTML
selector = etree.HTML(data.text)
# 获取当前页所有评论
comments = selector.xpath('//div[@class="comment"]')
# 遍历所有评论
for comment in comments:
# 获取星级
star = comment.xpath('.//h3/span[2]/span[2]/@class')[0][7]
# 获取时间
t = comment.xpath('.//h3/span[2]/span[3]/text()')
# 获取评论内容
content = comment.xpath('.//p/span/text()')[0].strip()
# 排除时间为空的项
if len(t) != 0:
t = t[0].strip()
writer.writerow([t, star, content])
接下来我们通过词云直观的来展示下整体评论情况,具体实现如下所示:
import csv
import jieba
from wordcloud import WordCloud
import numpy as np
from PIL import Image
# jieba 分词处理
def jieba_():
csv_list = csv.reader(open('南方车站的聚会.csv', 'r', encoding='utf-8'))
print('csv_list',csv_list)
comments = ''
for i,line in enumerate(csv_list):
if i != 0:
comment = line[2]
comments += comment
print("comment-->",comments)
# jieba 分词
words = jieba.cut(comments)
new_words = []
# 要排除的词
remove_words = ['以及', '在于', '一些', '一场', '只有',
'不过', '东西', '场景', '所有', '这么',
'但是', '全片', '之前', '一部', '一个',
'作为', '虽然', '一切', '怎么', '表现',
'人物', '没有', '不是', '一种', '个人'
'如果', '之后', '出来', '开始', '就是',
'电影', '还是', '不是', '武汉', '镜头']
for word in words:
if word not in remove_words:
new_words.append(word)
global word_cloud
# 用逗号分隔词语
word_cloud = ','.join(new_words)
# 生成词云
def world_cloud():
# 背景图
cloud_mask = np.array(Image.open('bg.jpg'))
wc = WordCloud(
# 背景图分割颜色
background_color='white',
# 背景图样
mask=cloud_mask,
# 显示最大词数
max_words=600,
# 显示中文
font_path='./fonts/simhei.ttf',
# 字的尺寸限制
min_font_size=20,
max_font_size=100,
margin=5
)
global word_cloud
x = wc.generate(word_cloud)
# 生成词云图片
image = x.to_image()
# 展示词云图片
image.show()
# 保存词云图片
wc.to_file('wc.png')
整体评论词云图
因为有人说了影片口碑两级分化,接下来我们看一下打 1 星和 5 星的词云效果如何,主要实现如下所示:
for i,line in enumerate(csv_list):
if i != 0:
star = line[1]
comment = line[2]
# 一星评论用 1,五星评论用 5
if star == '1':
comments += comment
一星评论词云图
五星评论词云图
上面我们只使用了评论内容信息,还有时间和星级信息没有使用,最后我们可以用这两项数据分析下随着时间的变化影片星级的波动情况,以月为单位统计影片从首映(2019 年 5 月)到当前时间(2019 年 12月)的星级波动情况,具体实现如下所示:
import csv
from pyecharts.charts import Line
import pyecharts.options as opts
import numpy as np
from datetime import datetime
def score():
csv_list = csv.reader(open('南方车站的聚会.csv', 'r', encoding='utf-8'))
print('csv_list', csv_list)
comments = ''
ts = []
ss = set()
for i, line in enumerate(csv_list):
if i != 0:
t = line[0][0:7]
s = line[1]
ts.append(t+':'+s)
ss.add(t)
new_times = []
new_starts = []
new_ss = []
for i in ss:
new_ss.append(i)
arr = np.array(new_ss)
new_ss = arr[np.argsort([datetime.strptime(i, '%Y-%m') for i in np.array(new_ss)])].tolist()
print('new_ss',new_ss)
for i in new_ss:
x = 0
y = 0
z = 0
for j in ts:
t = j.split(':')[0]
s = int(j.split(':')[1])
if i == t:
x += s
z += 1
new_times.append(i)
new_starts.append(round(x / z, 1))
c = (
Line()
.add_xaxis(new_times)
.add_yaxis('南方车站的聚会',new_starts)
.set_global_opts(title_opts=opts.TitleOpts(title='豆瓣星级波动图'))
).render()
影片星级波动效果如下图所示:
根据影片星级的波动情况我们也能大致预测到影片评分的波动情况。
Python 分析电影《南方车站的聚会》的更多相关文章
- 利用python实现电影推荐
"协同过滤"是推荐系统中的常用技术,按照分析维度的不同可实现"基于用户"和"基于产品"的推荐. 以下是利用python实现电影推荐的具体方法 ...
- 转利用python实现电影推荐
“协同过滤”是推荐系统中的常用技术,按照分析维度的不同可实现“基于用户”和“基于产品”的推荐. 以下是利用python实现电影推荐的具体方法,其中数据集源于<集体编程智慧>一书,后续的编程 ...
- python一键电影搜索与下载
代码地址如下:http://www.demodashi.com/demo/14313.html python一键电影搜索与下载 概述 使用python搜索并爬取豆瓣电影信息,包括评分,主演,导演,类型 ...
- Python分析离散心率信号(下)
Python分析离散心率信号(下) 如何使用动态阈值,信号过滤和离群值检测来改善峰值检测. 一些理论和背景 到目前为止,一直在研究如何分析心率信号并从中提取最广泛使用的时域和频域度量.但是,使用的信号 ...
- 用Python分析国庆旅游景点,告诉你哪些地方好玩、便宜、人又少
注:本人参考“裸睡的猪”公众号同名文章,学习使用. 一.目标 使用Python分析出国庆哪些旅游景点:好玩.便宜.人还少的地方,不然拍照都要抢着拍! 二.获取数据 爬取出行网站的旅游景点售票数据,反映 ...
- python 分析慢查询日志生成报告
python分析Mysql慢查询.通过Python调用开源分析工具pt-query-digest生成json结果,Python脚本解析json生成html报告. #!/usr/bin/env pyth ...
- Python分析盘点2019全球流行音乐:是哪些歌曲榜单占领了我们?
写在前面:圣诞刚过,弥留者节日气息的大家是否还在继续学习呐~在匆忙之际也不忘给自己找几首好听的歌曲放松一下,缠绕着音乐一起来看看关于2019年流行音乐趋势是如何用Python分析的吧! 昨天下午没事儿 ...
- Python分析数据难吗?某科技大学教授说,很难但有方法就简单
用python分析数据难吗?某科技大学的教授这样说,很难,但要讲方法,主要是因为并不是掌握了基础,就能用python来做数据分析的. 所谓python的基础,也就是刚入门的python学习者,学习的基 ...
- 五月天的线上演唱会你看了吗?用Python分析网友对这场线上演唱会的看法
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:CDA数据分析师 豆瓣9.4分!这场线上演唱会到底多好看? 首先让我 ...
随机推荐
- PowerMock学习(五)之Verifying的使用
前言 Verifying是一个非常强大的测试工具,在mock系列框架中使用广泛,主要用于验证方法是否被调用,下面将举例说明. 场景 模拟这样一个场景,通过Dao查询学生,如果存在更新原来学生,不存在则 ...
- PostGIS 用Navicat工具添加自增
1.新建查询,新增序列(从66开始,每次自增1): CREATE SEQUENCE seq_area INCREMENT 1 MINVALUE 66 MAXVALUE 999999999 START ...
- Spring中常见的设计模式——工厂模式
一.简单工厂模式 简单工厂模式(Simple Factory Pattern)由一个工厂对象决定创建哪一种产品类的实例,简单工厂模式适用于工厂类负责创建对象较少的情况,且客户端只需要传入工厂类的参数, ...
- 2019-9-10:渗透测试,基础学习,sql注入笔记
sql注入1,万能密码,自己写的网站,找到登录窗口,必须和数据库交互,往里插入构造的恶意代码,最后可以直接登录进去,不需要账号和密码,输入的恶意代码成为万能密码,后端拼接的sql语句,SELECT * ...
- 初探SpringMVC,走进SpringMVC的世界
1.Springmvc入门 1.1.Springmvc是什么 SpringMVC是Spring中的一个组件,目前(2019)在互联网公司用的很多,是必需学习的一门框架技术!SpringMVC用于web ...
- HTML字符实体(Character Entities)与 转义字符串(Escape Sequence)(转)
为什么要用转义字符串?HTML中<,>,&等有特殊含义(<,>,用于链接签,&用于转义),不能直接使用.这些符号是不显示在我们最终看到的网页里的,那如果我们希望 ...
- postgresql修改最大连接数配置
1.查看配置文件位置等信息,用来确定配置对应的配置文件. select setting,boot_val,reset_val,sourcefile,*from pg_settings where n ...
- linux awk(gawk)
awk的前世今生: awk名字的由来:分别取三个创始人Ah,Weiberger,Kernighan三个人的首字母. awk是一个报告生成器可以格式化输出文本内容.模式扫描和处理语言(pattern s ...
- VS Code实现markdown画流程图
安装最新的vscode编辑器,原生支持markdown语法.不会markdow的人可以去好好学下,写文档神器!!! 1.安装Markdown Preview Enhanced插件 2.本地新建test ...
- 2019牛客暑期多校训练营(第二场)J.Subarray
题意:给你一个n 表示有n段连续的1序列 现在问你 在总长度为0~1e9-1的范围内有多少个大于0的子段 思路:假设我们统计了当前的前缀和 我们显然可以用树状数组维护一下前缀和 这样我们可以nlogn ...