Python+Requests+异步线程池爬取视频到本地

1、本次项目为获取梨视频中的视频，再使用异步线程池下载视频到本地

2、获取视频时，其地址中的Url是会动态变化，不播放时src值为图片的地址，播放时src值为mp4格式

3、查看视频链接是否存在ajax，果然是存在的，但是返回的Url与真实的MP4地址存在部分不一致，此时需要使用字符串替换

4、获取到真实的mp4视频地址后，再使用二进制流的方式进行下载到本地

5、使用Pool(4)，四个线程池进行异步下载，互不干扰

6、源码如下：

import os
import requests
from lxml import etree
import random
import re
#安装fake-useragent库:pip install fake-useragent
from fake_useragent import UserAgent
#导入线程池模块
from multiprocessing.dummy import Pool

# 新建文件存储视频
if not os.path.exists('./threadFile'):
    os.makedirs('./threadFile')

session = requests.Session()
# 存储所有视频的Url及标题
video_urls = []

# 梨视频Url
url = 'https://www.pearvideo.com/'
UA = UserAgent().random

headers = {
    'User-Agent':UA
}
# 获取首页页面数据
page_text = session.get(url=url,headers=headers).text
#对获取的首页页面数据中的相关视频详情链接进行解析
tree = etree.HTML(page_text)
li_list = tree.xpath('//*[@id="vervideoTlist"]/div/ul/li')
for li in li_list:
    # 视频详情页的Url
    detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
    # 视频详情页的Title
    detail_title = li.xpath('./div/a/div[2]/div[2]/text()')[0]+'.mp4'
    page_text = session.get(url=detail_url,headers=headers).text
    # 字符串切割为value值
    value = str("".join(li.xpath('./div/a/@href')[0]).split('_')[-1])
    # 由于存在ajax则使用新的请求地址
    headers_new = {
        'User-Agent': UA,
        'Referer': 'https://www.pearvideo.com/video_{}'.format(value)
    }
    detail_url_new = "https://www.pearvideo.com/videoStatus.jsp?contId={}&mrd={}".format(value,float(random.random()))
    detail_text = session.get(url=detail_url_new,headers=headers_new)
    url = detail_text.json()['videoInfo']['videos']['srcUrl']
    ER = '//(.*?)-'
    list_url= re.findall(ER,url)
    for url1 in list_url:
        if url1.split('/')[-1] in url:
            url = url.replace(url1.split('/')[-1],'cont-{}'.format(value))
        else:
            print('替换失败')
    dic = {
        "url":url,
        "title":detail_title
    }
    video_urls.append(dic)

# 对视频链接发起请求获取视频的二进制数据，然后将视频数据返回
def get_video(dic):
    print(dic['title'],'正在下载....')
    page_content = session.get(url=dic['url'],headers=headers).content
    fileName = './threadFile/'+dic['title']
    # 持久化存储数据
    with open(fileName,'wb') as fp:
        fp.write(page_content)
        print(dic['title'], '下载完成!!!')

#实例化线程池对象
# 使用线程池对视频数据进行请求(较为耗时阻塞的操作)
pool = Pool(4)
pool.map(get_video,video_urls)

# 关闭线程池
pool.close()
pool.join()

7、下载本地

Python+Requests+异步线程池爬取视频到本地的更多相关文章

基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
使用requests、BeautifulSoup、线程池爬取艺龙酒店信息并保存到Excel中
import requests import time, random, csv from fake_useragent import UserAgent from bs4 import Beauti ...
使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中
import requests import json import re import csv import threadpool import time, random from bs4 impo ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
py3+requests+re+urllib，爬取并下载不得姐视频
实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688. ...
python day 20: 线程池与协程,多进程TCP服务器
目录 python day 20: 线程池与协程 2. 线程 3. 进程 4. 协程:gevent模块,又叫微线程 5. 扩展 6. 自定义线程池 7. 实现多进程TCP服务器 8. 实现多线程TCP ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
进程池爬取并存入mongodb
设置进程池爬取拉钩网: # coding = utf- import json import pymongo import pandas as pd import requests from lxml ...

随机推荐

中国摄像头CMOS需求潜力旺盛
中国摄像头CMOS需求潜力旺盛 CMOS是Complementary Metal Oxide Semiconductor(互补金属氧化物半导体)的缩写.它是指制造大规模集成电路芯片用的一种技术或用这种 ...
GPU编程和流式多处理器（七）
6. 杂项说明 6.1. warp级原语 warp作为执行的原始单元(自然位于线程和块之间),重要性对CUDA程序员显而易见.从SM 1.x开始,NVIDIA开始添加专门针对thread的指令. Vo ...
NVIDIA DRIVE AGX开发工具包
NVIDIA DRIVE AGX开发工具包英伟达drive AGX开发工具包提供了开发生产级自主车辆(AV)所需的硬件.软件和示例应用程序.NVIDIA DRIVE AGX系统建立在汽车产品级芯片上 ...
视频处理器为电池供电的设计提供4K视频编码
视频处理器为电池供电的设计提供4K视频编码 Video processor enables 4K video coding for battery-powered designs OmniVision ...
Java网络编程实践
网络编程的目的无线电台......传播交流信息,数据交换.通信想要达到这个效果需要什么: 1. 如何准确的定位网络上的第一台主机 192.168.16.124:端口,定位到这个计算机上的某个资源. ...
MySQL必知必会复习笔记（1）
MySQL必知必会笔记(一) MySQL必知必会是一本很优秀的MySQL教程书,并且相当精简,在日常中甚至能当成一本工作手册来查看.本系列笔记记录的是:1.自己记得不够牢的代码:2.自己觉得很重要的代 ...
Java线程池底层源码分享和相关面试题（持续更新）
线程池各个参数讲解 public ThreadPoolExecutor(int corePoolSize, //线程池核心工作线程数量,比如newFixedThreadPool中可以自定义的线程数量就 ...
剑指 Offer 07. 重建二叉树
链接:https://leetcode-cn.com/problems/zhong-jian-er-cha-shu-lcof/ 标签:树.递归题目输入某二叉树的前序遍历和中序遍历的结果,请重建该二 ...
1738. 找出第 K 大的异或坐标值
2021-05-19 LeetCode每日一题链接:https://leetcode-cn.com/problems/find-kth-largest-xor-coordinate-value/ 标 ...
又见 xcrun: error: invalid active developer path 错误
每次升级完macOS都会被 Xcode command line tools missing xcrun 问候一遍,也是挺烦的. 这个春节过光顾着吃喝玩乐,过的蛮颓废的,感觉再也追不上朋友圈各位大佬了 ...

Python+Requests+异步线程池爬取视频到本地

Python+Requests+异步线程池爬取视频到本地的更多相关文章

随机推荐

热门专题