scrapy 爬取视频
利用FilesPipeline 下载视频
1.setting.py
# 保存log信息的文件名 LOG_LEVEL = "INFO" # LOG_STDOUT = True # LOG_ENCODING = 'utf-8' # # 路径 os.path.dirname(os.path.dirname(os.path.dirname(__file__))) # LOG_FILE = "info.log" # 下载延迟 import random DOWNLOAD_DELAY = random.random() + random.random() RANDOMIZE_DOWNLOAD_DELAY = True # Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36' # 视频下载路径 import os BASE_DIR = os.path.dirname((os.path.abspath(__file__))) MEDIA_ALLOW_REDIRECTS = True FILES_STORE = os.path.join(BASE_DIR, "videos") # 文件保存路径 FILES_URLS_FIELD = 'file_urls' # 这里对应着item.py文件中的字段 FILES_RESULT_FIELD = 'files' # 同样对应item.py文件中的字段 # 120 days of delay for files expiration # FILES_EXPIRES = 120 # 设置文件失效时间 ITEM_PIPELINES = { 'steam_video.pipelines.SteamVideoPipeline': 300, 'steam_video.pipelines.SteamDownLoadPipeline': 100, # 视频下载的管道 }
2.spider.py
import scrapy, pymysql, re class VideosSpider(scrapy.Spider): name = 'videos' allowed_domains = ['.com'] start_urls = ['https://www.baidu.com/'] def parse(self, response): db = pymysql.connect(host='localhost', port=3306, database='game', user='root', password='root', charset='utf8', autocommit=True) cursor = db.cursor() cursor.execute( 'SELECT id, appid, data_webm_source, data_webm_hd_source, data_mp4_source, data_mp4_hd_source, data_poster from steam_game_video WHERE id<5') # 获取图片url for appid in cursor.fetchall(): for i in range(2, 7): item = {} item['id'] = appid[0] item['appid'] = appid[1] item['file_url'] = appid[i] # 下载视频的url 前面要自己获取到 视频的url 可以自己爬 item['video_name'] = str(item['appid']) + '_' + re.findall(r'/(\d+)/', appid[i])[0] + '_' + \ appid[i].split('/')[-1].split('?')[0] # 后面图片要命名的名称 print(item) print('*' * 100) yield item
3.pipelines.py
# -*- coding: utf-8 -*- from scrapy.pipelines.images import FilesPipeline # 导入文件下载类 import scrapy, os, hashlib from scrapy.http import Request from scrapy.utils.python import to_bytes from steam_video.settings import FILES_STORE as FILS class SteamVideoPipeline(object): def process_item(self, item, spider): return item # 下载图片管道 class SteamDownLoadPipeline(FilesPipeline): def get_media_requests(self, item, info): return scrapy.Request(item['file_url'], meta={'video_name': item.get('video_name', None)}) # 下载视频 video_name为视频名称 def file_path(self, request, response=None, info=None): def _warn(): from scrapy.exceptions import ScrapyDeprecationWarning import warnings warnings.warn('FilesPipeline.file_key(url) method is deprecated, please use ' 'file_path(request, response=None, info=None) instead', category=ScrapyDeprecationWarning, stacklevel=1) # check if called from file_key with url as first argument if not isinstance(request, Request): _warn() url = request else: url = request.url # detect if file_key() method has been overridden if not hasattr(self.file_key, '_base'): _warn() return self.file_key(url) media_guid = hashlib.sha1(to_bytes(url)).hexdigest() # change to request.url after deprecation media_ext = os.path.splitext(url)[1] # change to request.url after deprecation # 这里我们使用自定义的文件名,如果meta中没有video_name,就使用url的hash值作为文件名 file_path = FILS + '\\' + request.meta.get('video_name') file = file_path.replace('\\{}'.format(file_path.split('\\')[-1]), '') if not os.path.exists(file): os.makedirs(file) return '{}'.format(request.meta.get('video_name')) # return 'full/%s.mp4' % (''.join(request.meta.get('video_name', media_guid).split(' '))) def file_key(self, url): # 服务器部署需要家里这个代码 return self.file_path(url) file_key._base = True def item_completed(self, results, item, info): print('******the results is********:', results) # resulte [(True, {'url': 'https://media.st.dl.bscstorage.net/steam/apps/904/movie480.mp4?t=1569623096', 'path': '220_904_movie480.mp4', 'checksum': '0f22435cdfe2d605480fc5396160d3a5'})] if results[0][0]: # 判断视频是否下载成功 print('下载成功:{}'.format(item)) else: print('下载失败:{}'.format(item))
scrapy 爬取视频的更多相关文章
- Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
- 以豌豆荚为例,用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
- 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
- scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
- scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
- scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
- scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
- Scrapy爬取Ajax(异步加载)网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
- Scrapy爬取静态页面
Scrapy爬取静态页面 安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可 终端下: #python2 sudo p ...
随机推荐
- 8.jenkins 远程管理
远程原理 在我们之前的操作中,是直接将指令写在jenkins 里面的 .因为是做实验.所以指令比较简单. 如果是正式环境的话,可能指令就比较多了. 我们可以将他写成脚本. 我们可以再 jenkins的 ...
- np.unique( )的用法
该函数是去除数组中的重复数字,并进行排序之后输出. 换句话,我想从一个图片选取 1000个不同的点,随机采点经常遇到相同的点,造成重复.np.unique就是用来解决这个问题
- luogu5823 课表的排列
题目链接 problem 构造一个长度为\(2n\)的数列.满足: 1.[1,n]中每个数字恰好出现两次. 2.将所有相同数字之间相隔的数字个数排序后,得到公差为1的等差数列. 保证n为奇数. sol ...
- 【洛谷4173】残缺的字符串(重拾FFT)
点此看题面 大致题意: 有一个长度为\(n\)的字符串\(A\)和一个长度为\(m\)的字符串\(B\),其中存在一些字符'*'可以与任意字符匹配.求\(B\)中所有满足条件的位置,使得从这一位置开始 ...
- Java连载45-继承举例、方法覆盖
一.Java语言中假设一个类没有显式的继承任何类,那么该类默认继承Java SE库中提供的java.lang.Object类 1.快捷键:Ctrl + shift + T:可以在Myeclipse中查 ...
- bootstrap去除自带15px内边距,去除container 15px padding
壹 ❀ 问题 在使用bootstrap时,由于bootstrap槽宽特性,我们在布局时会发现container以及col-**-**左右都会自带15px的padding,有时候空间不足就想着怎么把b ...
- Linux常用命令之重启关机命令
shutdown命令 shutdown命令用来系统关机命令.shutdown指令可以关闭所有程序,并依用户的需要,进行重新开机或关机的动作. 实例 指定现在立即关机: shutdown -h now ...
- Django之Django简介,开发环境搭建,项目应用创建
软件及Django框架简介 软件框架 一个软件框架是由其中各个软件模块组成的: 每一个模块都有特定的功能: 模块与模块之间通过相互配合来完成软件的开发. 软件框架是针对某一类软件设计问题而产生的. M ...
- EF-入门操作
EntityFramework Core 理解 DbContext :数据库 DbSet: 数据库表 Model : 数据行 IQueryable<Model> 查询结果集合 Lamada ...
- jquery-uploadfile的使用(多文件异步上传)
需求 在页面端可以在页面不刷新情况下上传多个有大小限制的word文件,并返回文件保存的路径,同时可以删除误上传的文件. 准备 下载该插件 该插件依赖jquery1.9.1版本(其它不清楚)*在jsp页 ...