Python爬取b站任意up主所有视频弹幕

爬取b站弹幕并不困难。要得到up主所有视频弹幕，我们首先进入up主视频页面，即https://space.bilibili.com/id号/video这个页面。按F12打开开发者菜单，刷新一下，在network的xhr文件中有一个getSubmitVideo文件，这个文件里就有我们需要的视频av号了。如果直接抓取页面是拿不到的，因为视频是异步加载的。

在这个文件里的data标签下，有一个count是视频总数，pages是第几页，vlist就是我们要找的视频信息了，里面的aid就是每个视频的av号。它的请求链接是https://space.bilibili.com/ajax/member/getSubmitVideos?mid=av号&pagesize=30&tid=0&page=1&keyword=&order=pubdate。pagesize是每次传多少个视频信息。

拿到所有的视频av号后，我们打开视频页面。同样是按F12打开开发者菜单，刷新一下，在network的xhr中有两个文件，一个以pagelist为开头，另一个以list.so为开头。这两个文件，第一个里包含了视频的cid，第二个就是根据cid拿到的弹幕文件。同样，我们根据视频av号访问第一个文件的请求url，得到cid，再根据cid访问第二个请求url就可以了。

最后，我们对拿到的弹幕文件进行适当的整理。主要是从文件中的<d>标签中提取出弹幕文字，然后去重，计数，再储存到文件里。

import requests
from lxml import etree

import os

import json

from bs4 import BeautifulSoup

from requests import exceptions

import re

import time

def download_page(url):

    headers = {
　　'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
　　}

    data = requests.get(url, headers=headers)

    return data

def get_video_page(space_num):

    base_url = "https://www.bilibili.com/av"

    url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page=1&keyword=&order=pubdate".format(space_num)

    data = json.loads(download_page(url).content)['data']

    total = data['count']

    page_num = int(total/99) + 1

    video_list = data['vlist']

    video_url = []

    for video in video_list:

        video_url.append(base_url + str(video['aid']))

    for i in range(2, page_num+1):

        time.sleep(1)

        url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page={}&keyword=&order=pubdate".format(space_num, i)

        data = json.loads(download_page(url).content)['data']

        video_list = data['vlist']

        for video in video_list:

            video_url.append(base_url + str(video['aid']))

    return video_url

def get_barrage(name, space_num):

    video_list = get_video_page(space_num)

    aid_to_oid = 'https://api.bilibili.com/x/player/pagelist?aid={}&jsonp=jsonp'

    barrage_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid={}'

    for url in video_list:
　　　　　# 降低爬取速度防止被禁

        time.sleep(1)

        aid = re.search(r'\d+$',url).group()
　　　　　# 这里有时会出现莫名其妙的错误

        try:

            oid = json.loads(download_page(aid_to_oid.format(aid)).content)['data'][0]['cid']

            barrage = download_page(barrage_url.format(oid)).content

        except requests.exceptions.ConnectionError:

            print('av:',aid)

            continue

        if not os.path.exists('barrage/{}'.format(name)):

            os.makedirs('barrage/{}'.format(name))

        with open('barrage/{}/av{}.xml'.format(name,aid),'wb') as f:

            f.write(barrage)

def reorganize_barrage(name):

    results = {}

    for filename in os.listdir('barrage/{}'.format(name)):

        html = etree.parse('barrage/{}/{}'.format(name,filename), etree.HTMLParser())
　　　　　# 提取出xml文件中<d>标签中的文字

        barrages = html.xpath('//d//text()')

        for barrage in barrages:
　　　　　　　# 有些弹幕会有回车符

            barrage = barrage.replace('\r', '')

            if barrage in results:

                results[barrage] += 1

            else:

                results[barrage] = 1

    if not os.path.exists('statistical result'):

        os.makedirs('statistical result')

    with open('statistical result/{}.txt'.format(name), 'w', encoding='utf8') as f:

        for key,value in results.items():

            f.write('{}\t:\t{}\n'.format(key.rstrip('\r'),value))

if __name__ == '__main__':
　　# 在space list.txt文件里，我是用“up主名称：id”的格式来储存的，

    with open('space list.txt', 'r') as f:

        for line in f.readlines():

            name, num = line.split('：')

            print(name)

            get_barrage(name, space_number)

            reorganize_barrage(name)

Python爬取b站任意up主所有视频弹幕的更多相关文章

萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
python爬取某站新闻，并分析最近新闻关键词
在爬取某站时并做简单分析时,遇到如下问题和大家分享,避免犯错: 一丶网站的path为 /info/1013/13930.htm ,其中13930为不同新闻的 ID 值,但是这个数虽然为升序,但是没有任 ...
Python爬取B站视频信息
该文内容已失效,现已实现scrapy+scrapy-splash来爬取该网站视频及用户信息,由于B站的反爬封IP,以及网上的免费代理IP绝大部分失效,无法实现一个可靠的IP代理池,免费代理网站又是各种 ...
python爬取b站排行榜
爬取b站排行榜并存到mysql中目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构目标网站:bil ...
用python爬取B站在线用户人数
最近在自学Python爬虫,所以想练一下手,用python来爬取B站在线人数,应该可以拿来小小分析一下设计思路首先查看网页源代码,找到相应的html,然后利用各种工具(BeautifulSoup或 ...
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前言耗子喂汁是什么意思什么梗呢?可能很多人不知道,这个梗是出自马保国,经常上网的人可能听说过这个 ...
python爬取B站视频弹幕分析并制作词云
1.分析网页视频地址: www.bilibili.com/video/BV19E… 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己唯一的爆款 ...
使用python爬取P站图片
刚开学时有一段时间周末没事,于是经常在P站的特辑里收图,但是P站加载图片的速度比较感人,觉得自己身为计算机专业,怎么可以做一张张图慢慢下这么low的事,而且这样效率的确也太低了,于是就想写个程序来帮我 ...

随机推荐

纯css写带小三角对话框
在实际样式中经常会遇到要写类似对话框的样式,而这种样式往往会有一个小三角,如下所示: 那么如何用css写出来呢,其实很简单,先让父元素相对定位,然后运用css的伪类before或after.就可以写个 ...
Centos7解压.tar.bz2提示tar (child): bzip2: Cannot exec: No such file or directory解决方法
Centos7解压.tar.bz2提示tar (child): bzip2: Cannot exec: No such file or directory解决方法原因是因为该centos没有bzip ...
shell命令安装软件包
软件包分类 Debian Linux首先提出 “软件包” 的管理机制——Deb软件包 Redhat Linux基于这个理念推出了自己的软件包管理机制——Rpm软件包安装包格式: filenam ...
MySQL入门基础知识
1.MySQL环境变量的配置操作数据库时,要进入bin目录,如下: 但是如果进行配置环境变量,就不必切换路径,如下图所示,即使没有在G:\mysql-8.0.16-winx64\bin下,数据库依然 ...
数据库MySQL--条件查询/排序查询
一.条件查询条件查询:满足条件的字段被筛选出来语法:select 查询列表字段 from 表名 where 筛选条件: 条件查询的条件分类: 1.按条件表达式筛选:条件运算符:>, < ...
VC中隐藏和显示IDC_STATIC
void CImageShowAndHideDlg::OnBnClickedButton1() //隐藏 { CWnd* pWnd = GetDlgItem(IDC_STATIC); ...
net.sf.jsqlparser.statement.select.PlainSelect.getGroupBy()Lnet/sf/jsqlparse
添加pom依赖 <dependency> <groupId>com.github.jsqlparser</groupId> <artifactId>js ...
error LNK2001: unresolved external symbol _main解决办法(zz)
error LNK2001: unresolved external symbol _main解决办法解决外部符号错误:_main,_WinMain@16,__beginthreadex -!t ...
Big Number HDU - 1212
As we know, Big Number is always troublesome. But it's really important in our ACM. And today, your ...
Java 内部类,成员类,局部类,匿名类等
根据内部类的位置不同,可将内部类分为 :成员内部类与局部内部类. class outer{ class inner{//成员内部类 } public void method() { class loc ...

Python爬取b站任意up主所有视频弹幕

Python爬取b站任意up主所有视频弹幕的更多相关文章

随机推荐

热门专题