一、前言

　　前段时间尝试爬取了网易云音乐的歌曲，这次打算爬取QQ音乐的歌曲信息。网易云音乐歌曲列表是通过iframe展示的，可以借助Selenium获取到iframe的页面元素，

　而QQ音乐采用的是异步加载的方式，套路不一样，这是主流的页面加载方式，爬取有点难度，不过也是对自己的一个挑战。

二、Python爬取QQ音乐单曲

之前看的慕课网的一个视频, 很好地讲解了一般编写爬虫的步骤，我们也按这个来。

　　　　　　　　　　爬虫步骤

1.确定目标

首先我们要明确目标，本次爬取的是QQ音乐歌手刘德华的单曲。

（百度百科）->分析目标（策略：url格式（范围）、数据格式、网页编码）->编写代码->执行爬虫

2.分析目标

歌曲链接：https://y.qq.com/n/yqq/singer/003aQYLo2x8izP.html#tab=song&

从左边的截图可以知道单曲采用分页的方式排列歌曲信息，每页显示30条，总共30页。点击页码或者最右边的">"会跳转到下一页，浏览器会向服务器发送ajax异步请求，从链接可以看到begin和num参数，分别代表起始歌曲下标（截图是第2页，起始下标是30）和一页返回30条，服务器响应返回json格式的歌曲信息（MusicJsonCallbacksinger_track({"code":0,"data":{"list":[{"Flisten_count1":......]})），如果只是单独想获取歌曲信息，可以直接拼接链接请求和解析返回的json格式的数据。这里不采用直接解析数据格式的方法，我采用的是Python Selenium方式，每获取和解析完一页的单曲信息，点击 ">" 跳转到下一页继续解析，直至解析并记录所有的单曲信息。最后请求每个单曲的链接，获取详细的单曲信息。

右边的截图是网页的源码，所有歌曲信息都在类名为mod_songlist的div浮层里面，类名为songlist_list的无序列表ul下，每个子元素li展示一个单曲，类名为songlist__album下的a标签，包含单曲的链接，名称和时长等。

3.编写代码

1）下载网页内容，这里使用Python 的Urllib标准库，自己封装了一个download方法：

 def download(url, user_agent='wswp', num_retries=2):

     if url is None:

         return None

     print('Downloading:', url)

     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}

     request = urllib.request.Request(url, headers=headers)  # 设置用户代理wswp(Web Scraping with Python)

     try:

         html = urllib.request.urlopen(request).read().decode('utf-8')

     except urllib.error.URLError as e:

         print('Downloading Error:', e.reason)

         html = None

         if num_retries > 0:

             if hasattr(e, 'code') and 500 <= e.code < 600:

                 # retry when return code is 5xx HTTP erros

                 return download(url, num_retries-1)  # 请求失败，默认重试2次,

     return html

2）解析网页内容，这里使用第三方插件BeautifulSoup,具体可以参考BeautifulSoup API 。

 def music_scrapter(html, page_num=0):

     try:

         soup = BeautifulSoup(html, 'html.parser')

         mod_songlist_div = soup.find_all('div', class_='mod_songlist')

         songlist_ul = mod_songlist_div[1].find('ul', class_='songlist__list')

         '''开始解析li歌曲信息'''

         lis = songlist_ul.find_all('li')

         for li in lis:

             a = li.find('div', class_='songlist__album').find('a')

             music_url = a['href']  # 单曲链接

             urls.add_new_url(music_url)  # 保存单曲链接

             # print('music_url:{0} '.format(music_url))

         print('total music link num:%s' % len(urls.new_urls))

         next_page(page_num+1)

     except TimeoutException as err:

         print('解析网页出错:', err.args)

         return next_page(page_num + 1)

     return None

 def get_music():

      try:

         while urls.has_new_url():

             # print('urls count:%s' % len(urls.new_urls))

             '''跳转到歌曲链接，获取歌曲详情'''

             new_music_url = urls.get_new_url()

             print('url leave count:%s' % str( len(urls.new_urls) - 1))

             html_data_info = download(new_music_url)

             # 下载网页失败，直接进入下一循环，避免程序中断

             if html_data_info is None:

                 continue

             soup_data_info = BeautifulSoup(html_data_info, 'html.parser')

             if soup_data_info.find('div', class_='none_txt') is not None:

                 print(new_music_url, '   对不起，由于版权原因，暂无法查看该专辑！')

                 continue

             mod_songlist_div = soup_data_info.find('div', class_='mod_songlist')

             songlist_ul = mod_songlist_div.find('ul', class_='songlist__list')

             lis = songlist_ul.find_all('li')

             del lis[0]  # 删除第一个li

             # print('len(lis):$s' % len(lis))

             for li in lis:

                 a_songname_txt = li.find('div', class_='songlist__songname').find('span', class_='songlist__songname_txt').find('a')

                 if 'https' not in a_songname_txt['href']:  #如果单曲链接不包含协议头，加上

                     song_url = 'https:' + a_songname_txt['href']

                 song_name = a_songname_txt['title']

                 singer_name = li.find('div', class_='songlist__artist').find('a').get_text()

                 song_time =li.find('div', class_='songlist__time').get_text()

                 music_info = {}

                 music_info['song_name'] = song_name

                 music_info['song_url'] = song_url

                 music_info['singer_name'] = singer_name

                 music_info['song_time'] = song_time

                 collect_data(music_info)

      except Exception as err:  # 如果解析异常，跳过

          print('Downloading or parse music information error continue:', err.args)

4.执行爬虫

爬虫跑起来了，一页一页地去爬取专辑的链接，并保存到集合中，最后通过get_music()方法获取单曲的名称，链接，歌手名称和时长并保存到Excel文件中。

三、Python爬取QQ音乐单曲总结

1.单曲采用的是分页方式，切换下一页是通过异步ajax请求从服务器获取json格式的数据并渲染到页面，浏览器地址栏链接是不变的，不能通过拼接链接来请求。一开始想过都通过Python Urllib库来模拟ajax请求，后来想想还是用Selenium。Selenium能够很好地模拟浏览器真实的操作，页面元素定位也很方便，模拟单击下一页，不断地切换单曲分页，再通过BeautifulSoup解析网页源码，获取单曲信息。

2.url链接管理器，采用集合数据结构来保存单曲链接，为什么要使用集合？因为多个单曲可能来自同一专辑（专辑网址一样），这样可以减少请求次数。

 class UrlManager(object):

     def __init__(self):

         self.new_urls = set()  # 使用集合数据结构，过滤重复元素

         self.old_urls = set()  # 使用集合数据结构，过滤重复元素

     def add_new_url(self, url):

         if url is None:

             return

         if url not in self.new_urls and url not in self.old_urls:

             self.new_urls.add(url)

     def add_new_urls(self, urls):

         if urls is None or len(urls) == 0:

             return

         for url in urls:

             self.add_new_url(url)

     def has_new_url(self):

         return len(self.new_urls) != 0

     def get_new_url(self):

         new_url = self.new_urls.pop()

         self.old_urls.add(new_url)

         return new_url

3.通过Python第三方插件openpyxl读写Excel十分方便，把单曲信息通过Excel文件可以很好地保存起来。

 def write_to_excel(self, content):

     try:

         for row in content:

             self.workSheet.append([row['song_name'], row['song_url'], row['singer_name'], row['song_time']])

         self.workBook.save(self.excelName)  # 保存单曲信息到Excel文件

     except Exception as arr:

         print('write to excel error', arr.args)

四、后语

最后还是要庆祝下，毕竟成功把QQ音乐的单曲信息爬取下来了。本次能够成功爬取单曲，Selenium功不可没，这次只是用到了selenium一些简单的功能，后续会更加深入学习Selenium，不仅在爬虫方面还有UI自动化。

后续还需要优化的点：

1.下载的链接比较多，一个一个下载起来比较慢，后面打算用多线程并发下载。

2.下载速度过快，为了避免服务器禁用IP，后面还要对于同一域名访问过于频繁的问题，有个等待机制，每个请求之间有个等待间隔。

3. 解析网页是一个重要的过程，可以采用正则表达式，BeautifulSoup和lxml，目前采用的是BeautifulSoup库，在效率方面，BeautifulSoup没lxml效率高，后面会尝试采用lxml。

Python爬虫实战一之爬取QQ音乐的更多相关文章

Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战教程：爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为 ...
Python爬虫实战练习：爬取美团旅游景点评论数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 今年的国庆节还有半个月就要来了,相信很多的小伙伴还是非常期待这个小长假的.国庆节是一年中的小 ...

随机推荐

FineUIPro v5.1.0 发布了！
FineUIPro v5.1.0 已发布,这已经是自 2014 年以来的第 31 个版本,4 年来精雕细琢,只为你来! 上个大版本新增了响应式布局,而这个版本主要是BUG修正,此外还增加了树控件的级联 ...
SpringCloud（9）使用Spring Cloud OAuth2保护微服务系统
一.简介 OAth2是一个标准的授权协议. 在认证与授权的过程中,主要包含以下3种角色. 服务提供方 Authorization Server. 资源持有者 Resource Server. 客户端 ...
Photoshop合成雪景天使美女照片
一.新建一个800 * 426的文件,打开人物素材把不要的东西删除掉,因为白雪景色很白,就直接涂上白色就可以了,然后把人像移动到我要的角度. 二.对人物图层按Ctrl + M 调整曲线,参数设置如下图 ...
php之swoole安装与基本使用
扩展安装: 参考GitHub地址安装: 1. 使用PHP官方的PECL工具安装 (初学者) pecl install swoole 2. 从源码编译安装 (推荐) git clone https:/ ...
访问docker仓库
仓库(Repositiry)是集中存放镜像的地方,分为公共仓库和私有仓库.一个容易与之混淆的概念是注册服务器(Registry).实际上注册服务器是存放仓库的具体服务器,一个注册服务器上可以有多个仓库 ...
js 实现数据结构 -- 栈
原文: 在 Javascript 中学习数据结构与算法. 概念: 栈是一种遵从先进后出 (LIFO) 原则的有序集合:新添加的或待删除的元素都保存在栈的末尾,称作栈顶,另一端为栈底.在栈里,新元素都靠 ...
Swift 之Carthage
1. 安装 $ brew update //更新brew $ brew install carthage //下载carthage $ carthage version ...
【JVM】JVM垃圾收集器、垃圾收集算法、无用对象
Java 常见的垃圾收集器有哪些实际上,垃圾收集器(GC,Garbage Collector)是和具体 JVM 实现紧密相关的,不同厂商(IBM.Oracle),不同版本的JVM,提供的选择也不同. ...
linux线程(一）
线程的优先级无法保障线程的执行次序.只不过优先级高的线程获取 CPU 资源的概率大一点而已. 线程相关函数(1)-pthread_create(), pthread_join(), pthread_e ...
Ajax与JSON共同使用的小实例
实现的效果: 点击“点击”按钮,可以通过Ajax从服务器调过来相应的文档文件,而不需重新加载页面. 通过json可以将调过来的文档(String)转换为相应的json对象,从而对文档中数据进行操作. ...