前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

项目目标

爬取酷燃网视频数据

https://krcom.cn/

环境

Python3.6

pycharm

爬虫代码

import pprint
import requests
import re
 
def download_video(title, url):
    filename_video = 'C:\\Users\\Administrator\\Desktop\\酷燃网\\' + title + '.mp4'
    response_video = requests.get(url=url)
    with open(filename_video, mode='wb') as f:
        f.write(response_video.content)
 
def download_mp3(title, url):
    filename_mp3 = 'C:\\Users\\Administrator\\Desktop\\酷燃网\\' + title + '.mp3'
    response_mp3 = requests.get(url=url)
    with open(filename_mp3, mode='wb') as f:
        f.write(response_mp3.content)
 
for page in range(0, 101, 20):
    url = 'https://krcom.cn/aj/hot/loadingmore?ajwvr=6&cursor=0;2020102014&YmdH=&__rnd=1603176486876'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    html_data = response.text.encode('utf-8').decode('unicode_escape')
    urls = re.findall('vid=(.*?)\"', html_data, re.S)
    titles = re.findall('<h3 class="V_autocut_2l">(.*?)<', html_data, re.S)
    data = zip(urls, titles)
    for i in data:
        vid = i[0]
        title = i[1]
        page_url = 'https://krcom.cn/aj/dash/media?media_ids={}&protocols=dash&watermarks=krcom'.format(vid)
        response_2 = requests.get(url=page_url, headers=headers)
        html_json = response_2.json()
        video_url = html_json['data']['list'][0]['details'][1]['play_info']['url']
        mp3_url = html_json['data']['list'][0]['details'][-1]['play_info']['url']
        download_video(title, video_url)
        download_mp3(title, mp3_url)
        print(title)

Python爬虫训练：爬取酷燃网视频数据的更多相关文章

from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python爬虫《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
抖音很火,楼主使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,楼主决定试试水,纯属技术爱好,分享给大家.. 1.楼主首先使用Fiddler4来抓取手机抖音app这 ...
Python爬虫一爬取B站小视频源码
如果要爬取多页的话在最下方循环中填写好循环的次数就可以了项目源码 from fake_useragent import UserAgent import requests import time ...
Python爬虫：爬取美拍小姐姐视频
最近在写一个应用,需要收集微博上一些热门的视频,像这些小视频一般都来自秒拍,微拍,美拍和新浪视频,而且没有下载的选项,所以只能动脑想想办法了. 第一步分析网页源码. 例如:http://video. ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...

随机推荐

JVM-概述和内存区域
目录 JVM的优势 Java的跨平台性 JVM跨语言举个例子 JVM整体结构运行时数据区方法区(Method Area) 1. 什么是方法区(Method Area)? 2.方法区(Method ...
hw小技巧（转载）
小弟也第一次参加hw,经过5天hw,确实也学到了许多的东西,但就本次分享而言,我分享一些我认为在hw里面值得注意的东西以及一些小技巧 0x01 信息收集信息收集这个多西当然都是老生常谈了,你收集的东 ...
springboot:This application has no explicit mapping for /erro
springboot启动没有报错,但是访问的时候返回如上图的错误.看报错内容感觉是没有这个mapping对应的接口.但是确实写了. 最终发现是因为springboot的启动类放的位置不对.启动类所在的 ...
Redis常见的八道面试题
一.memcached与redis的区别? 1.存储方式不同.memcached把数据全部存在内存之中,断电之后会挂掉,而redis虽然也用到了内存,但是会有部分数据存在硬盘中,保证数据持久性. ...
趣图：我说自己菜 vs 大佬说自己菜
扩展阅读一大波趣图:CSS的力量趣图:嫁人就嫁程序员,大妈都懂的! 趣图:向客户介绍的产品VS实际开发的产品如何准备校招技术面试+一只小菜鸟的面试之路向Spring大佬低头--大量源码流出 ...
pwnable.kr-shellshock-witeup
思路是:发现文件执行没什么好反馈显示结果的,于是看文件和权限,通过bash文件猜测可能存在破壳漏洞(CVE-2014-6271)漏洞,于是利用它并结合文件权限成功获得flag. 通过scp下载文件至本 ...
MySQL中concat()、concat_ws()、group_concat()函数的使用技巧与心得总结
Author:极客小俊一个专注于web技术的80后我不用拼过聪明人,我只需要拼过那些懒人我就一定会超越大部分人! CSDN@极客小俊,原创文章, B站技术分享 B站视频 : Bilibili.c ...
Python-设置文件缓冲类型
案例: 将文件内容写入到硬件设备时候,使用系统调用,这类IO操作时间长,为了减小IO操作,通常会使用缓冲区(有足够多数据才能调用). 文件缓冲行为分为:全缓冲,行缓冲,无缓冲如何解决? open(' ...
无所不能的Embedding 2. FastText词向量&文本分类
Fasttext是FaceBook开源的文本分类和词向量训练库.最初看其他教程看的我十分迷惑,咋的一会ngram是字符一会ngram又变成了单词,最后发现其实是两个模型,一个是文本分类模型[Ref2] ...
使用类模板的C++线性表实现（数组方式）
main.h #ifndef _MAIN_H_ #define _MAIN_H_ #include <iostream> #include <exception> #inclu ...

Python爬虫训练：爬取酷燃网视频数据

前言

项目目标

环境

爬虫代码

Python爬虫训练：爬取酷燃网视频数据的更多相关文章

随机推荐

热门专题