2019-02-09 python爬取mooc视频项目初级简单版

今天花了一下午时间来做这东西，之前没有自己写过代码，50几行的代码还是查了很多东西啊，果然学起来和自己动起手来完全是两码事。

方案：requests库+正则表达式提取视频下载链接+urlretrieve下载到本地

import requests

from urllib.request import urlretrieve

import re

def geturl(url):

    requ = requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36'})

    req = requ.text

    regexname = re.compile(r'_shd\.mp4\?(.*?)</a>')

    regexgetname=re.compile(r'cb550>(.*)')

    regexmp4 = re.compile(r'href=(.*_shd?.mp4)')

    prename = regexname.findall(req)

    name=[]

    list=[]

    for i in prename:

        name += regexgetname.findall(i)

    load = regexmp4.findall(req)

    for i in range(len(name)):

        list +=(name[i],load[i])

    print(list)

    return list

def download(list):

    filename= r'C:\Users\47461\Desktop\DownloadVedio\\'

    for i in range(0,len(list),2):

        name=list[i]

        url=list[i+1]

        local = filename+name+'.mp4'

        try:

            print("\""+name+"\""+"已经开始下载")

            urlretrieve(url,local,reporthook=callback)

            print("\""+name+"\""+"已经下载完成")

        except:

            pass

def callback(count,blockSize,totalSize):  #下载进度回调函数，count表示已下载的个数，blocksize为已经下载的大小，totalsize为总大小

    if not count:

        print("开始下载")

    if totalSize<0:

        print("要下载的文件大小为0")

    else:

        per = 100*count*blockSize/totalSize

        if per>100:

            per=100

        print("-----当前已下载："+'%.2f%%' % per + "-----")

        if per==100:

            return True

list = geturl(r'http://www.feemic.cn/mooc/icourse163/1002161029?type=hot')

if list:

    print("开始下载")

    download(list)

    print("下载完成")

主要正则表达式不是特别熟练花了点时间

之后可以改成多线程？反正还可以从很多地方改进啊。

2019-02-09 python爬取mooc视频项目初级简单版的更多相关文章

python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
python爬取快手视频多线程下载
就是为了兴趣才搞的这个,ok 废话不多说直接开始. 环境: python 2.7 + win10 工具:fiddler postman 安卓模拟器首先,打开fiddler,fiddler作为htt ...
python 爬取bilibili 视频弹幕
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/09 下午 4:50 # 爬取弹幕 import requests import j ...
python爬取百思不得姐视频
# _*_ coding:utf-8 _*_ from Tkinter import * from ScrolledText import ScrolledText import urllib #im ...
python 爬取bilibili 视频信息
抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的 ...
python爬取youtube视频多线程非中文自动翻译
声明:我写的所有文章都是发在博客园的,我看到其他复制粘贴过去的连个出处也不写,直接打上自己的水印...真是没的说了. 前言:前段时间搞了一些爬视频的项目,代码都写好了,这里写文章那就在来重新分析一遍 ...
python爬取网站视频保存到本地
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Woo_home PS:如有需要Python学习资料的小伙伴可以加点 ...
python 爬取头条视频
知识点总结 1. 利用webdriver 模拟浏览器访问 from selenium import webdriver 2.import requests 3. from bs4 import Bea ...
2019.02.09 bzoj2560: 串珠子（状压dp+简单容斥）
传送门题意简述:nnn个点的带边权无向图,定义一个图的权值是所有边的积,问所有nnn个点都连通的子图的权值之和. 思路: fif_ifi表示保证集合iii中所有点都连通其余点随意的方案数. gig ...

随机推荐

Vue的双向绑定原理
Vue的构造函数分析 vm就是MVVM中的View Model var vm = new Vue({ el: '#app', data: { message: 'Hello Vue!' } }) /* ...
PHP链式操作原理
1)第一种方法 <?php /* *类功能:实现数据库的连贯查询操作 */ class mysql_query{ var $tbl=’user’;//要操作的表名 var $limit=”;// ...
vue 下拉列表动画
点击可以收起,这里注意先给需要收起展开的的容器设置高度,通过样式v-enter和v-leave-to设置结束和开始前的就可以了
阿里巴巴编码规范（Java）证明
背景阿里云上有个阿里巴巴编码规范认证,我估算一下时间成本很低,多个认证也没什么坏处,就花了1分钱报了个名.这个认证报名后就可以下载链接下的编码规范,然后参加个考试应该就OK了. 共48页的规范实际上 ...
读Pyqt4教程，带你入门Pyqt4 _005
对话框窗体或对话框是现代GUI应用不可或缺的一部分.dialog定义为两个或多个人之间的交谈.在计算机程序中dialog是一个窗体,用来和程序“交谈”.对话框用来输入数据.修改数据.改变程序设置等等. ...
Linux下db2V10.5命令行安装超详细图文教程（附下载地址）
下载地址:https://pan.baidu.com/s/1GtF03x1FMF3IsGdSiBJu-g 提取码:8vfj 失效了发邮件:wells974@163.com 一.db2prereqche ...
jchdl - GSL Port
https://mp.weixin.qq.com/s/DVmMrCFgNLuZDtssQ85w7A org.jchdl.model.gsl.core.meta.Port.java gen ...
jchdl - RTL实例 - Adder
https://mp.weixin.qq.com/s/9S29BCTcJfbpR62ALjSidA 加法器. 参考链接 https://github.com/wjcdx/jchdl/blob/ ...
Chisel3 - util - Math vs. CircuitMath
https://mp.weixin.qq.com/s/8lC8vQnBdKW9C39H0QFFkA 对数相关的辅助方法,Math通过软件方法实现,CircuitMath通过硬件方法实现. ...
HTML元素跟随鼠标一起移动,网页中回到顶部按钮的实现
对象跟随鼠标: 1.对象css设置绝对定位position: absolute; 2.获取鼠标坐标: 3.通过鼠标坐标计算出对象坐标位置,并设置为css定位的位置: document.onmousem ...

2019-02-09 python爬取mooc视频项目初级简单版

2019-02-09 python爬取mooc视频项目初级简单版的更多相关文章

随机推荐

热门专题