B站弹幕爬取 / jieba分词 - 全站第一的视频弹幕都在说什么？

前言

本次爬取的视频av号为75993929（11月21的b站榜首），讲的是关于动漫革命机，这是一部超魔幻现实主义动漫（滑稽），有兴趣的可以亲身去感受一下这部魔幻大作。

准备工作

B站弹幕的爬取的接口

https://api.bilibili.com/x/v1/dm/list.so?oid=

打开开发者模式，其中的oid的值
获取视频发出以来的所有弹幕，构造URL

https://api.bilibili.com/x/v2/dm/history?type=1&oid=129995312&date=2019-11-17
访问一下弹幕页面，发现弹幕都放在标签中。

代码

import requests

from pyquery import PyQuery as pq

import jieba

import pandas as pd

# 通过时间来获取弹幕信息需要登陆才行，所以带上登陆后的cookie。否则只能获取当日的一千条弹幕

headers={

    "放入cookie"

}

word = []

def getInfo(date):

    response = requests.get("https://api.bilibili.com/x/v2/dm/history?type=1&oid=129995312&date=2019-11-"+str(date), headers=headers)

    # 解决中文乱码问题

    response.encoding = response.apparent_encoding

    doc = pq(response.content)

    # 获取所有的d标签

    result = doc("d")

    for line in result:

        word.append(line.text)

# 将弹幕信息保存到csv文件中去

def savaFile():

    sr = pd.Series(word)

    sr.to_csv("评革命机B站弹幕.csv", encoding='utf-8', index=None)

# 利用jieba库对弹幕内容进行分词

def seperate():

    data = pd.read_csv(open("评革命机B站弹幕.csv", encoding='utf-8'))

    # 传入自定义的字典，毕竟b站玩梗玩到飞起

    jieba.load_userdict('dict.txt')

    strs = ""

    for i in data.values:

        strs += "".join(i[0])

    l = jieba.cut(strs, cut_all=True)

    res = '/'.join(l)

    # 保存到文件中去

    with open("word.txt", 'w', encoding='utf-8') as f:

        f.write(res)

# 分析词语出现的频率

def analyse():

    res = set()

    def dropNa(s):

        return s and s.strip()

    data = open("word.txt", encoding='utf-8').read()

    data = data.split('/')

    newdata = []

    for i in data:

        # 去除掉一些无用的

        if '哈' in i or len(i) == 1 or '嘿' in i:

            continue

        newdata.append(i)

    data = newdata

    # 去除空串

    data = list(filter(dropNa, data))

    df = pd.Series(data)

    # 统计出现频率同时写入文件中

    df.value_counts().to_csv("弹幕TOP.csv")

for i in range(18, 22):

    getInfo(i)

savaFile()

seperate()

analyse()

结果展示

大河内老师不愧是早稻田大学人类科学系的毕业的

这些弹幕突然就有内味了

预知为何弹幕会呈现这种情况，详情请见这部动画曾因不切实际被人嘲讽，但6年后现实却打了所有人的脸！【革命机】

存在的问题

jieba分词的效果其实不太理想，希望未来能够找到改进方法。
本来想做成词云的，但是效果也不佳，待改进。

B站弹幕爬取 / jieba分词 - 全站第一的视频弹幕都在说什么？的更多相关文章

python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）
结巴分词 import jieba """ pip install jieba 1.精确模式 2.全模式 3.搜索引擎模式 """ txt ...
B站弹幕爬取
B站弹幕爬取单个视频弹幕的爬取 B站弹幕都是以xml文件的形式存在的,而xml文件的请求地址是如下形式: http://comment.bilibili.com/233182992.xml ...
Java爬虫——B站弹幕爬取
如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为 h ...
quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分项目创建 1.进入到存储项目的文件夹,执行指令 scra ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前言耗子喂汁是什么意思什么梗呢?可能很多人不知道,这个梗是出自马保国,经常上网的人可能听说过这个 ...
bilibili弹幕爬取与比对分析
最近受人之托研究了下b站的数据爬取做个小工具,最后朋友说不需要了,本着开源共享的原则,将研究成果与大家分享一波,话不多说直接上干货需求分析给定up主uid和用户uid,爬取用户在该up主所有视频中 ...
B站自动爬取器并制作词云
效果词云展示弹幕展示爬取弹幕过程基本步骤 1.寻找视频url 2.构造请求头 3.寻找弹幕地址 4.根据弹幕地址运用正则或xpath爬取寻找B站视频的url 制作请求头 headers = ...
Scrapy：腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/ 步骤一.分析网站结构和待爬取内容以下省略一万字步骤二.上代码(不能略了) 1.配置items.py import scrapy class ...

随机推荐

如果你不了解Java的JVM，那真的很难进BAT一线大厂！
前言对于开发人员来说,如果不了解Java的JVM,那真的是很难写得一手好代码,很难查得一手好bug.同时,JVM也是面试环节的中重灾区.我们不能为了面试而面试,但是学习会这些核心知识你必定会成为面试 ...
DS-5新加交叉编译工具
Adding New Compiler Toolchains to DS-5 In this tutorial, you will learn how to add new compiler tool ...
《Java基础知识》Java异常处理详解
1. Java 中的异常前言:Java 中的异常处理是处理程序运行错误时的强大机制之一,它可以保证应用程序的正常流程. 首先我们将了解java异常.异常的类型以及受查和非受查异常之间的区别. 1.1 ...
聊聊 print 的前世今生
本文原创并首发于公众号[Python猫],未经授权,请勿转载. 原文地址:https://mp.weixin.qq.com/s/NuzfuH_zCZzcrmSFR04NHw (一) 上周,我翻译了一篇 ...
YiluPHP是如何做到不用配置、不用注入就能直接使用所有的类？
使用过YiluPHP的人都会发现,不管是模型类还是逻辑类.辅助类还是工具类,使用所有类都不需要在配置文件中设置加载或注入,也不需要在页面中使用 include 或 require 或 use ,直接使 ...
Openstack简述
1.Openstack项目发展概况: Nova 计算服务 Swift 对象存储服务 Glance 镜像服务 Neturon 网络服务 Keystone 身份认证服务 Celimeter 计 ...
SSM项目整合纪实
一前言本来是为了探究一些功能性问题,需要一套完整的项目架构,本以为SSM用过那么多了,轻松搭建不在话下,但是过程中还是遇到一些问题,踩到一些未曾料想的坑.博文以搭建极简架构为目的,附带一些关键阐 ...
elementui移动dialog
1.在创建Vue对象时添加全局属性 Vue.directive('dialogDrag', { bind(el, binding, vnode, oldVnode) { const dialogHea ...
利用keras自带路透社数据集进行多分类训练
import numpy as np from keras.datasets import reuters from keras import layers from keras import mod ...
几种设计良好结构以提高.NET应用性能的方法
写在前面设计良好的系统,除了架构层面的优良设计外,剩下的大部分就在于如何设计良好的代码,.NET提供了很多的类型,这些类型非常灵活,也非常好用,比如List,Dictionary.HashSet.S ...

B站弹幕爬取 / jieba分词 - 全站第一的视频弹幕都在说什么？

前言

准备工作

代码

结果展示

存在的问题

B站弹幕爬取 / jieba分词 - 全站第一的视频弹幕都在说什么？的更多相关文章

随机推荐

热门专题