多线程爬取梨视频

from threading import Thread

import requests

import re

# 访问链接

def access_page(url):

    response = requests.get(url)

    return response

# 获取主页视频的id列表, 用来拼接视频详情页链接

def get_video_id(homepage_data):

    id_list = re.findall('<a href="video_(.*?)" .*?>', homepage_data, re.S)

    return id_list

# 获取视频链接列表

def get_video_url(detail_page_data):

    video_url = re.findall('srcUrl="(.*?)"', detail_page_data, re.S)[0]

    return video_url

# 获取视频名称

def get_video_name(detail_page_date):

    video_name = re.findall('<h1 class="video-tt">(.*?)</h1>', detail_page_date, re.S)[0]

    # 替换其中的非法字符, 不然在作为文件名保存时候会报错

    remove_str = r'[\/\\\:\*\?\"\<\>\|]'

    video_name = re.sub(remove_str, '_', video_name)

    return video_name

# 保存视频

def save(video_data, name):

    with open(f'{name}.mp4', 'wb') as f:

        f.write(video_data)

        print(f'视频[{name}]下载成功!')

def run(id):

    # 拼接详情页链接并访问

    detail_page_url = 'https://www.pearvideo.com/video_' + id

    detail_page_data = access_page(detail_page_url).text

    # 获取视频名称和视频链接

    video_name = get_video_name(detail_page_data)

    video_url = get_video_url(detail_page_data)

    # 访问视频链接获取视频数据

    video_data = access_page(video_url).content

    # 保存视频数据

    save(video_data, video_name)

if __name__ == '__main__':

    homepage_data = access_page('https://www.pearvideo.com/').text

    id_list = get_video_id(homepage_data)

    # 多线程爬取

    for id in id_list:

        t = Thread(target=run, args=(id,))

        t.start()

Python3 多线程爬取梨视频的更多相关文章

requests爬取梨视频主页所有视频
爬取梨视频步骤: 1.爬取梨视频主页,获取主页所有的详情页链接 - url: https://www.pearvideo.com/ - 1) 往url发送请求,获取主页的html文本 - 2) 解析并 ...
python爬虫实践——爬取“梨视频”
一.爬虫的基本过程: 1.发送请求(请求库:request,selenium) 2.获取响应数据()服务器返回 3.解析并提取数据(解析库:re,BeautifulSoup,Xpath) 4.保存数据 ...
使用requests爬取梨视频、bilibili视频、汽车之家，bs4遍历文档树、搜索文档树，css选择器
今日内容概要使用requests爬取梨视频 requests+bs4爬取汽车之家 bs4遍历文档树 bs4搜索文档树 css选择器内容详细 1.使用requests爬取梨视频 # 模拟发送http ...
Python爬虫入门教程 50-100 Python3爬虫爬取VIP视频-Python爬虫6操作
爬虫背景原计划继续写一下关于手机APP的爬虫,结果发现夜神模拟器总是卡死,比较懒,不想找原因了,哈哈,所以接着写后面的博客了,从50篇开始要写几篇python爬虫的骚操作,也就是用Python3通过 ...
【Python爬虫案例学习2】python多线程爬取youtube视频
转载:https://www.cnblogs.com/binglansky/p/8534544.html 开发环境: python2.7 + win10 开始先说一下,访问youtube需要那啥的,请 ...
Python3多线程爬取meizitu的图片
python环境:python3 运行环境:win10和linux都可以,其他系统没测 1 安装依赖 pip install requests pip install lxml pip install ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

腾讯Techo开发者大会PPT分享
腾讯云年度的开发者大会已经落幕,大会包括1场前沿技术主峰会,18个技术专场,150位海内外技术专家,28个互动展区,8场动手实验室,23小时小程序云开发极限编程,1场数据库诊断大赛. 内容上涵盖了最新 ...
nyoj 24-素数距离问题 (素数算法)
24-素数距离问题内存限制:64MB 时间限制:3000ms Special Judge: No accepted:21 submit:71 题目描述: 现在给出你一些数,要求你写出一个程序,输出这 ...
C语言程序设计100例之（17）：百灯判亮
例17 百灯判亮问题描述有序号为1.2.3.….99.100的100盏灯从左至右排成一横行,且每盏灯各由一个拉线开关控制着,最初它们全呈关闭状态.有100个小朋友,第1位走过来把凡是序号为1的 ...
opencv 6 图像轮廓与图像分割修复 2 使用多边形将轮廓包围
使用多边形将轮廓包围返回外部矩阵边界(boundingRect()函数) 寻找最小包围矩形(minAreaRect()函数) 寻找最小包围圆形(minEnclosingCircle函数) 用椭圆拟合 ...
useReducer代替Redux
创建state.js import React, { createContext,useContext,useReducer } from 'react'; export const countTex ...
href=”javascript:void(0);
href=”javascript:void(0);”这个的含义是,让超链接去执行一个js函数,而不是去跳转到一个地址,而void(0)表示一个空的方法,也就是不执行js函数. 为什么要使用href=” ...
Jenkins 实现前端自动打包,自动部署代码及邮件提醒功能
在之前的公司,我们前端使用webpack构建项目,项目构建完成后,我们会使用ftp或linux的一些命令工具上传我们的文件到服务器上,这种方式虽然是可以,但是最近面试的时候,人家会问我前端如何部署项目 ...
封装Ajax和跨域
目录引言封装ajax 案例:使用自封装ajax 案例:动态加载瀑布流跨域引言对于Ajax现在相信大家已经不会陌生了,无论是原生的XMLHttpRequest方式发送还是通过jQuery框架中 ...
linux磁盘分区三步走
为了便于理解硬盘的物理结构 ,可将硬盘看作一个圆,它是坚硬金属材料制成的涂以磁性介质的盘片,不同容量硬盘的盘片数不等.每个盘有两面,都可记录信息.要了解硬盘的物理结构,需要弄懂磁道.扇区.柱面.簇等几 ...
Django4模型（操作数据库）
模型入门同步数据库的两个指令创建模型注意事项1.外键ForeignKey 模型入门同步数据库的两个指令 python manage.py makemigrations python manage.p ...

Python3 多线程爬取梨视频

多线程爬取梨视频

Python3 多线程爬取梨视频的更多相关文章

随机推荐

热门专题