题记:

  作为一个业余程序猿,最大的爱好就是电影和音乐了,听音乐当然要来点有档次的。落网的音乐的逼格有点高,一听听了10年。学习python一久了,于是想用python技术把落网的音乐爬下来随便听。

目的:

  将每一期的落网音乐下载到电脑上。

=====================================================================================

版本一:

  刚开始,学习了爬虫技术中的urllib,urllib2,httplib,然后学习了用requests + beautifulsoup获取数据(python理念:能简单为啥还要复杂)。

于是,就有了这个版本。

图1:

  

图2:

  

图3:

  

缺点:

  1、从html元素查找title,再从request请求查看每一首音乐的url,这个半手动的违背了自动下载的初衷。

  2、这个音乐url是规律的命名,如果不规律的话,便不能用了。

  3、单线程下载,速度慢。

需要改进的地方:

  1、音乐url应能自动在网页里搜索,而不需要手动查看request请求的header。

  2、使用多线程。提高下载速度。

=================================================================

版本二:

分析:

  1、打开落网每一期音乐的页面,查看源代码中,不能看到音乐的url,那判定该音乐是由js发起的请求。

  2、要查看web页面中js发起的请求时,用requests模块只能获取静态的url,如果是动态的就没办法了。

  3、通过搜索查阅,找到一款神器,selenium + phantomjs。

    selenium是web自动化测试包,测试直接运行在浏览器中,就像真正的用户在操作一样,详见官网 http://www.seleniumhq.org。

    phantomjs是基于webkit的javascript API,可以编译解释执行JavaScript代码。详见:官网 http://phantomjs.org。

    webdriver api 见 http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webdriver。

  4、Time fly,just do it。

  在分析过程中,开始一直是requests模块的思维,由于落网的js是压缩过的,想到解压js,再查找相关的dom元素,再进行webElement的click提交,查看请求,但是这种方法一直没有结果。用了chrome 及 opera 的开发者工具,仍然无果。

  换个思路,用了firefox的firebug试试。打开页面后,发现这个东西:

  

  看了看内容,这就是js对象呀。再仔细查看,找到了这个:

  

  

  哎哟,这不就是我要找的东西么,真是破铁鞋无觅处、得来全不费工夫呀。。。

  但是,如果通过代码得到这个东西呢,一直没想到好的办法(业余菜鸟,对http请求了解太少)。

  偶然看到这篇帖子:http://blog.csdn.net/pushiqiang/article/details/51290509

  里面有一句代码得到启发:

  

  这是返回js变量,那我需要的代码变量应用就是firebug里的luooPlayer了。

  测试:

  

  得到结果:

  

  终于,主要的内容搞定。那接下来就是download每一期了,再加上多线程,就能下载了。

代码:

 #coding:utf-8
'''
Auth:daivlin
Date:2016-12-22
''' import os
import time
import urllib
import threading
from selenium import webdriver class Luoo(object):
def __init__(self,issue):
''' init ,参数为期数 '''
self.issue_url = r"http://www.luoo.net/music/" + "%03d"%issue
driver = webdriver.PhantomJS()
driver.get(self.issue_url) #每期名称如: VOL666 欢迎来到巴黎
self.issue_name = "VOL." + "%03d"%issue + " " + driver.title
luooPlayer = driver.execute_script("return luooPlayer") #读取js变量 #音乐列表为元组:(name,url)
self.music_list = []
var = 1
for i in luooPlayer["playlist"]:
self.music_list.append(("%02d"%var,i["mp3"]))
var += 1
driver.quit() def get_issue_name(self):
''' 获取期刊号 '''
return self.issue_name def get_music_list(self):
''' 获取音乐列表 '''
return self.music_list class DownloadThread(threading.Thread):
''' 下载线程'''
def __init__(self,dirname,name,url):
super(DownloadThread,self).__init__()
self.dirname = dirname
self.name = name
self.url = url def run(self):
''' 下载音乐 '''
ABSPATH = os.path.dirname(os.path.realpath(__file__))
DOWNDIR = os.path.join(os.path.join(ABSPATH,"Luoo"),"%s"%self.dirname)
MUSICPATH = os.path.join(DOWNDIR,"%s.mp3"%self.name)
try:
os.mkdir(DOWNDIR)
except:
pass
if not os.path.exists(MUSICPATH):
urllib.urlretrieve(self.url, MUSICPATH)
print "%s.mp3 was downloaded"%self.name for i in range(867,888):
r = Luoo(i)
name = r.get_issue_name()
tds = []
for j in r.get_music_list():
tds.append(DownloadThread(name,j[0],j[1]))
print "start download %s"%name
for td in tds:
td.start()
for tj in tds:
tj.join()
print "%s download complate"%name
print "=========================" print "All have downloaded"

下载效果:

  

待改进的地方:

  1、因为编码问题报错,文件名称用序号代替,需改为真实音乐名称。

==============================================================================

webdriver执行js代码,得到返回的值代码如下:

jscode = '''
var img_src = $("img.vol-cover");
return img_src.attr("src");
'''
img_cover = driver.execute_script(jscode)

==============================================================================

  爬虫只供参考

  做个厚道的程序猿

  别增加人家的服务器压力

==============================================================================

  人生苦短,我用python!

selenium + phantomjs 爬取落网音乐的更多相关文章

  1. Python3.x:Selenium+PhantomJS爬取带Ajax、Js的网页

    Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页 前言 现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...

  2. selenium+phantomjs爬取京东商品信息

    selenium+phantomjs爬取京东商品信息 今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...

  3. selenium+phantomjs爬取bilibili

    selenium+phantomjs爬取bilibili 首先我们要下载phantomjs 你可以到 http://phantomjs.org/download.html 这里去下载 下载完之后解压到 ...

  4. python+selenium+PhantomJS爬取网页动态加载内容

    一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...

  5. selenium + PhantomJS 爬取js页面

    from selenium import webdriver import time _url="http://xxxxxxxx.com" driver = webdriver.P ...

  6. Selenium+PhantomJs 爬取网页内容

    利用Selenium和PhantomJs 可以模拟用户操作,爬取大多数的网站.下面以新浪财经为例,我们抓取新浪财经的新闻版块内容. 1.依赖的jar包.我的项目是普通的SSM单间的WEB工程.最后一个 ...

  7. Python3.x:Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值

    前言 现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化.如果处理这种网页是还用requests库或者 ...

  8. 看我怎么扒掉CSDN首页的底裤(python selenium+phantomjs爬取CSDN首页内容)

    这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...

  9. selenium+phantomjs爬取动态页面数据

    1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...

随机推荐

  1. 如何成为python高手

    本文是从 How to become a proficient Python programmer 这篇文章翻译而来. 这篇文章主要是对我收集的一些文章的摘要.因为已经有很多比我有才华的人写出了大量关 ...

  2. 【css】a标签的用法

    <a>标签属性display的不同设置达到目的 display:block和display:inline; display:block 可以使得<a>标签设置宽高.边线.mar ...

  3. 【转】rollup、cub、grouping sets、grouping、grouping_id在报表中的应用

    摘自 http://blog.itpub.net/26977915/viewspace-734114/ 在报表语句中经常要使用各种分组汇总,rollup和cube就是常用的分组汇总方式. 第一:gro ...

  4. RadioButtonList的使用

    前台绑定: <asp:RadioButtonList ID="hlBatchYuJi" runat="server" RepeatColumns=&quo ...

  5. IO流一行一行读取TXT文件

    我们在开发或者测试的时候,往往会用到读取本地txt文件内容来处理数据的情况.下面是读取本地txt文件内容,是一行一行读取.如下列txt例子 小明 20 小红 20 小亮 20 下面是代码: publi ...

  6. php 把数字1-1亿换成汉字表述,例如 150 转成 一百五十

    /* 额,重新修改了下.现在估计没什么问题了.... */ 直接上实例 写到 千亿上了. /** * @author ja颂 * 把数字1-1亿换成汉字表述,如:123->一百二十三 * @pa ...

  7. 【转】mysql忘记密码(未初始化)

    Mac OS X - 重置 MySQL Root 密码您是否忘记了Mac OS 的MySQL的root密码? 通过以下4步就可重新设置新密码:1.  停止 mysql server.  通常是在 '系 ...

  8. linux下根据进程名字获取PID,类似pidof(转)

    linux有一个命令行工具叫做pidof,可以根据用户输入的进程名字查找到进程号,但有时候我们需要在程序里实现,不想调用system,在查阅了很多版本的pidof源代码后,没有发现一个自己感觉比较好的 ...

  9. canvas 动态画线

    <!--实现鼠标按下的时候,移动进行绘制,鼠标抬起结束绘图,用到的事件有mousedown mousemove mouseup用的的canvas api 有 beginPath moveTo l ...

  10. 详解wait和waitpid函数

    #include <sys/types.h> /* 提供类型pid_t的定义 */ #include <sys/wait.h> pid_t wait(int *status) ...