Python网络爬虫实战(五)批量下载B站收藏夹视频

我们除了爬取文本信息，有的时候还需要爬媒体信息，比如视频图片音乐等。就拿B站来说，我的收藏夹内的视频可能随时会失效，所以把它们下载到本地是非常保险的一件事。

对于这种大量列表型的数据，可以猜测B站收藏夹的请求中，详细的收藏详细可能会是异步加载的，因为这部分数据可能比较庞大。

我们来分析一下网络请求。

可以看到对收藏夹的请求是指定URL加收藏夹的id号，我们爬取的前提是这个收藏夹是公共收藏夹，不然是无法访问的。

再来看他的返回，明显没有收藏视频的信息，所以可以判断收藏视频的信息是通过api接口异步加载的。

详细查看一下其他的请求，你会发现这样一条。

可以看到这里返回了json数据，内容就是我们收藏夹中的视频，但是这里这有20个，再来看请求的URL。

https://api.bilibili.com/medialist/gateway/base/spaceDetail?media_id=88854277&pn=1&ps=20&keyword=&order=mtime&type=0&tid=0&jsonp=jsonp

media_id是收藏夹的id号，pn是代表哪一分页，ps是当前分页中视频数量。

那么我们就可以调用这个api来拿到所有收藏的视频了。

我们的视频分页当然不可能只有一页，所以我们可以遍历pn递增。

i = 1

while 1 :

    url = 'https://api.bilibili.com/medialist/gateway/base/spaceDetail?media_id=88854277&pn='+ str(i) +'&ps=20&keyword=&order=mtime&type=0&tid=0&jsonp=jsonp'

    html = requests.get(url)

    i = i + 1

    print(html.text)

这样就能拿到一个收藏夹下所有视频了，当i超过收藏夹页数时，直接异常退出即可。

接下来我们需要解析出每一个视频的id。

根据之前说的json解析，我们很容易就能用

res['data']['medias']

来获得所有的视频，然后再根据下标解析出每一个视频。

res = json.loads(html.text)

len_video = len(res['data']['medias'])

for id in range(0,len_video):

    create_thread(res['data']['medias'][id])

这样我们就可以获取当前页视频数量，然后创建线程进行下载了，因为下载是一个非常占IO的事情，如果你单线程执行，下载一个视频再下载另一个，这样会很慢，我们可以给每一个视频创建一个线程来提高速度。

def create_thread(res):

    thread = myThread(res['id'],res['title'],res['id'])

    thread.start()

创建线程的线程号是视频的id号，线程名是视频名。



class myThread(threading.Thread):  # 继承父类threading.Thread

    def __init__(self, threadID, name, counter):

        threading.Thread.__init__(self)

        self.threadID = threadID

        self.name = name

        self.counter = counter

    def run(self):

        download_video(self.threadID)

线程类如上，里面有两个函数，__init__是默认的线程初始化函数，里面就是我们创建线程时传入的id和name。第二个函数是线程执行时的run方法，也就是我们定义线程的具体要做的事，里面只有一个download_video方法。

# 下载视频

def download_video(av_id):

    os.system('you-get -o d:/vedio/ https://www.bilibili.com/video/av'+str(av_id))

在下载函数中，我们可以调用you-get来帮助我们解析下载视频(不要问为什么调you-get，自己解析太麻烦了)。

这样我们就完成了。

下载完成后：

源码地址: https://github.com/CasterWx/VideoDown

Python网络爬虫实战(五)批量下载B站收藏夹视频的更多相关文章

Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...
Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
python网络爬虫实战之快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
Python网络爬虫实战：根据天猫胸罩销售数据分析中国女性胸部大小分布
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.是网络爬虫和数据分析的综合应用项目.本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过S ...
Python 网络爬虫 006 (编程) 解决下载（或叫：爬取）到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...
Python网络爬虫实战入门
一.网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序. 爬虫的基本流程: 发起请求: 通过HTTP库向目标站点发起请求,也就是发送一个Request ...

随机推荐

设计模式（C#）——04原型模式
推荐阅读: 我的CSDN 我的博客园 QQ群:704621321 在软件开发过程中,我们习惯使用new来创建对象.但是当我们创建一个实例的过程很昂贵或者很复杂,并且需要创建多个这样的 ...
c3p0，dbcp与druid 三大连接池的区别[转]
说到druid,这个是在开源中国开源项目中看到的,说是比较好的数据连接池.于是乎就看看.扯淡就到这. 下面就讲讲用的比较多的数据库连接池.(其实我最先接触的是dbcp这个) 1)DBCP DBCP是一 ...
一看就懂-Docker容器化
一.Docker简介 1.1 什么是docker docker的英文意思是码头工人,意思就是搬运东西的意思,其实这和docker的特点是一样的,docker提供的就是一种容器化搬运东西(我们的软件. ...
javaScript 基础知识汇总（六）
1.基本类型与对象的区别基本类型:是原始类型的中的一种值. 在JavaScript中有6中基本类型:string number boolean symbol null undefined 对 ...
ROS中local costmap的原点坐标系
local costmap是一个依赖于其他坐标系存在的坐标系统,它并不维护自己的坐标系,而是在另一个坐标系中设定坐标原点,然后记下自己的宽与高.它使用数据结构nav_msgs/OccupancyGri ...
P2050 [NOI2012]美食节动态连边优化费用流
题意类似的一道排队等候,算最小总等待时间的题目. 思路但是这道题的边数很多,直接跑会tle,可以动态加边,就是先连上倒数第一次操作的边,跑一遍费用流,然后对使用了倒数第一条边的点,连上相应的倒数第 ...
自动化专业如何转SLAM或机器学习岗？
由于不方便放链接,更好的阅读体验请查看:自动化专业如何转SLAM或机器学习岗? 本文来自知乎上的同名问题,原文链接: https://www.zhihu.com/question/266685012/ ...
【Linux】一些常用命令（待整理）
一.关机重启命令二.查询ip 三.查询杀死进程四.CentOS7 关闭防火墙五.vim常用 5.1 搜索 5.2 设置行号剪切替换一.关机重启命令 shutdown -h 10 #计算机将 ...
Java面试-动态规划与组合数
最近在刷力扣上的题目,刷到了65不同路径,当初上大学的时候,曾在hihocoder上刷到过这道题目,但是现在已经几乎全忘光了,大概的知识点是动态规划,如今就让我们一起来回顾一下. 从题目说起题目原文 ...
Python 70行代码实现简单算式计算器
描述:用户输入一系列算式字符串,程序返回计算结果. 要求:不使用eval.exec函数. 实现思路:找到当前字符串优先级最高的表达式,在算术运算中,()优先级最高,则取出算式最底层的(),再进行加减乘 ...

Python网络爬虫实战(五)批量下载B站收藏夹视频

源码地址: https://github.com/CasterWx/VideoDown

Python网络爬虫实战(五)批量下载B站收藏夹视频的更多相关文章

随机推荐

热门专题