音悦台mv视频下载

参考了此处，做了修改，代码如下：

 #coding:utf-8

 import urllib2

 import urllib

 import re

 import sys

 import os

 import time

 class Yinyuetai():

     #地址初始化

     def __init__(self, url):

         self.i = 1

         self.url = url

         self.headers = {

             'User-Agent':'Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',

             'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'

         }

         self.timeout = 30

         self.__init()

     def __init(self, page=1):

         print u"开始下载：第 %d 页 ..." % page

         reurl = self.url + "&page=%d" %page

         page = self.getPage(reurl)

         mvPageList = self.__getMvPageList(page)

         if len(mvPageList) > 0:

             for plist in mvPageList:

                 mvlist = self.getMvURL(plist)

                 self.downLoad(mvlist[0], mvlist[1].decode("utf-8"))

                 self.i += 1

             time.sleep(2)

             page += 1

             self.__init(page)

         else:

             print u"\n~~~~~~~~~~~完成！~~~~~~~~~~~~~~"

     #获取指定页面源码

     def getPage(self, url):

         try:

             request = urllib2.Request(url, None, self.headers)

             response = urllib2.urlopen(request, None, self.timeout)

             return response.read()

         except:

             return []

     #分析列表页，返回MV地址和名字列表[0]:视频ID[1]:视频名称

     def __getMvPageList(self, page):

             reg = r"<h3><a\shref=\"http:\/\/v.yinyuetai.com\/video\/([0-9]+)\".*title=\"(.*)\".*"

             pattern = re.compile(reg)

             findList = re.findall(pattern, page)

             return findList

             #print findList

     def getMvURL(self, mvlist):

         url = "http://www.yinyuetai.com/insite/get-video-info?flex=true&videoId=%d" % int(mvlist[0])

         html = self.getPage(url)

         reg = r"http://\w*?\.yinyuetai\.com/uploads/videos/common/.*?(?=&br)"

         pattern=re.compile(reg)

         findList = re.findall(pattern, html)

         if len(findList) >= 3:

             return [findList[2], mvlist[1]]

         else:

             return [findList[0], mvlist[1]]

     #end def

     #下载文件

     def downLoad(self, url, name):

         name = name + '.flv'

         print u"下载：[%s] [%d]" % (name, self.i)

         local = self.makeDirs() + '/' + name

         try:

             urllib.urlretrieve(url, local, self.schedule)

             print u"下载完成：[%s]\n" % name

         except:

             print u"下载失败！\n"

     def makeDirs(self):

         path = sys.path[0]

         newPath = os.path.join(path, 'flv')

         if not os.path.isdir(newPath):

             os.mkdir(newPath)

         return newPath

     """

     回调函数获取进度

     @ a 已经下载的数据块

     @ b 数据块的大小

     @ c 远程文件的大小

     """

     def schedule(self, a, b, c):

         per = 100.0 *a * b / c

         if per > 100 : per = 100

         sys.stdout.write(u" 进度:%.1f%%\r" % per)

         sys.stdout.flush()

 if __name__ == '__main__':

     url = 'http://mv.yinyuetai.com/all?pageType=page&sort=weekViews&tab=allmv&parenttab=mv'

     Yinyuetai(url)

音悦台mv视频下载的更多相关文章

获取youku视频下载链接（wireshark抓包分析）
随便说两句前两天写了一个python脚本,试图以分析网页源码的方式得到优酷视频的下载地址,结果只得到视频的纯播放地址,下载纯播放地址得到的文件也无法正常播放视频. 这里共享一下播放地址得到的方法(想 ...
手把手教你用python打造网易公开课视频下载软件3-对抓取的数据进行处理
上篇讲到抓取的数据保存到rawhtml变量中,然后通过编码最终保存到html变量当中,那么html变量还会有什么问题吗?当然会有了,例如可能html变量中的保存的抓取的页面源代码可能有些标签没有关闭标 ...
手把手教你用python打造网易公开课视频下载软件2-编码相关说明
函数getdownLoadInfo(url)主要实现核心功能:根据url地址,获取课程信息:课程名(courseTitle),课程数目(courseCount),可下载视频数目(videoCount) ...
手把手教你用python打造网易公开课视频下载软件1-总述
写作前面的话:最近准备重温一下算法导论,感谢大网易把MIT算法导论课程全部贴出来,地址为:http://v.163.com/special/opencourse/algorithms.html,在线看 ...
MyBatis环境搭建配置文件+入门视频下载
1.MyBatis优点操作简单话,代码量少,效率高,成本就降低了 2.MyBatis缺点参数只能限制为一个 selece语都要手动来写 3.与JDBC的关系:是对JDBC的扩展把sql语句和ja ...
广州大学华软软件学院——NA视频下载
准备工具: 360极速浏览器(不要认错图标了): 浏览器视频下载插件: 第一步:安装浏览器插件 1.打开浏览器 2.解压,找到插件文件: 3.把插件拖到浏览器中: 4.添加,然后就完成了插件安装查看 ...
如何进行Hadoop二次开发指导视频下载
本视频适合对Java有一定了解,熟悉java se的Hadoop爱好者,想对Hadoop进行二次开发.下面是以伪分布为例: 想对Hadoop二次开发:一.首先需要Hadoop和Java之间搭建Ecli ...
【教你zencart仿站文章1至6教训高清1280x900视频下载】[支持手机端]
[教你zencart仿站第1至6课高清晰1280x900视频下载][支持移动端] 经过筹备, 我们的课件最终出来了- 我们 zencart联盟合伙人项目推出的在线yy同步演示zencart仿站 ...
Youtube最佳Red5 官方视频下载指南，字幕【亲测成功】
前言最近在研究Red5 流媒体服务框架,官网上的信息足以让一个新手入门有官方參考手冊 -- 高速了解red5的相关信息有Red5 on Stackoverflow -- 在上面能够提问或者回答 ...

随机推荐

洛谷 P2073 送花
这题其实可以用vector水掉! 定义: 记住要用结构体(c为价格,x为美丽值)! 以c排序. struct Node { int x,c; bool operator < (const &am ...
django--admin模型层
django amdin是django提供的一个后台管理页面,改管理页面提供完善的html和css,使得你在通过Model创建完数据库表之后,就可以对数据进行增删改查,而使用django admin ...
Windows 7 下 Node.js 连接 Oracle
原创作者: sailtseng 1. 安装 Oracle 11g express 详见: <Windows 7 x64 安装 Oracle 11g Express> 2. 安装 Micr ...
用仿ActionScript的语法来编写html5——第六篇，TextField与输入框
一,对比1,html5中首先看看在html5的canvas中的文字显示 var canvas = document.getElementById("myCanvas"); var ...
10046 trace详解(2)--tkprof
10046或10053生成的文件格式比较乱,直接查看有一定的困难,ORACLE自带的一个格式化命令工具tkprof可以将生成的.trc文件进行格式化,具体用说如下: 一.直接输入tkprof不带任 ...
用HAProxy和KeepAlived构建高可用的反向代理系统
对于访问量较大的网站来说,随着流量的增加单台服务器已经无法处理所有的请求,这时候需要多台服务器对大量的请求进行分流处理,即负载均衡.而如果实现负载均衡,必须在网站的入口部署服务器(不只是一台)对这些请 ...
$python数据分析基础——初识numpy库
numpy库是python的一个著名的科学计算库,本文是一个quickstart. 引入:计算BMI BMI = 体重(kg)/身高(m)^2 假如有如下几组体重和身高数据,让求每组数据的BMI值: ...
Sublime Text 3 快捷键一览
Sublime Text 3 快捷键精华版 Ctrl+Shift+P:打开命令面板 Ctrl+P:搜索项目中的文件 Ctrl+G:跳转到第几行 Ctrl+W:关闭当前打开文件 Ctrl+Shift+W ...
Hadoop25---netty，单个handler
ke客户端: package cn.itcast_03_netty.sendstring.client; import io.netty.bootstrap.Bootstrap; import io. ...
[转]毕设- 深入HBase架构解析（二）
深入HBase架构解析(二) 前言这是<深入HBase架构解析(一)>的续,不多废话,继续.... HBase读的实现通过前文的描述,我们知道在HBase写时,相同Cell(RowKe ...

音悦台mv视频下载

音悦台mv视频下载的更多相关文章

随机推荐

热门专题