Python爬虫——request实例：爬取网易云音乐华语男歌手top10歌曲

requests是python的一个HTTP客户端库，跟urllib，urllib2类似，但比那两个要简洁的多，至于request库的用法，

推荐一篇不错的博文：https://cuiqingcai.com/2556.html

话不多说，先说准备工作：

1，下载需要的库：request，BeautifulSoup( 解析html和xml字符串),xlwt(将爬取到的数据存入Excel表中)

2，至于BeautifulSoup 解析html方法，推荐一篇博文：http://blog.csdn.net/u013372487/article/details/51734047

3，re库，我们要用正则表达式来筛选爬取到的内容

好的，开始爬：

首先我们找到网易云音乐华语男歌手页面入口的URL：url = 'http://music.163.com/discover/artist/cat?id=1001'

把整个网页爬取下来:　　 html= requests.get(url).text

　　　　　　　　　　　 soup = BeautifulSoup(html,'html.parser'

我们要找到进入top10歌手页面的url,用浏览器的开发者工具，我们发现歌手的信息

都在<div class="u-cover u-cover-5">......</div>这个标签里面，如图：

于是，我们把top10歌手的信息筛选出来：

　　top_10 = soup.find_all('div',attrs = {'class':'u-cover u-cover-5'})

　　singers = []
　　for i in top_10:
　　　　singers.append(re.findall(r'.*?<a class="msk" href="(/artist\?id=\d+)" title="(.*?)的音乐"></a>.*?',str(i))[0])

获取到歌手的信息后，依次进入歌手的界面，把他们的热门歌曲爬取并写入Excel表中，原理同上

附上完整代码：

 import xlwt

 import requests

 from bs4 import BeautifulSoup

 import re

 url = 'http://music.163.com/discover/artist/cat?id=1001'#华语男歌手页面

 r = requests.get(url)

 r.raise_for_status()

 r.encoding = r.apparent_encoding

 html=r.text  #获取整个网页

 soup = BeautifulSoup(html,'html.parser') #

 top_10 = soup.find_all('div',attrs = {'class':'u-cover u-cover-5'})

 #print(top_10)

 singers = []

 for i in top_10:

     singers.append(re.findall(r'.*?<a class="msk" href="(/artist\?id=\d+)" title="(.*?)的音乐"></a>.*?',str(i))[0])

 #print(singers)

 url = 'http://music.163.com'

 for singer in singers:

         try:

             new_url = url + str(singer[0])

             #print(new_url)

             songs=requests.get(new_url).text

             soup = BeautifulSoup(songs,'html.parser')

             Info = soup.find_all('textarea',attrs = {'style':'display:none;'})[0]

             songs_url_and_name = soup.find_all('ul',attrs = {'class':'f-hide'})[0]

             #print(songs_url_and_name)

             datas = []

             data1 = re.findall(r'"album".*?"name":"(.*?)".*?',str(Info.text))

             data2 = re.findall(r'.*?<li><a href="(/song\?id=\d+)">(.*?)</a></li>.*?',str(songs_url_and_name))

             for i in range(len(data2)):

                 datas.append([data2[i][1],data1[i],'http://music.163.com/#'+ str(data2[i][0])])

             #print(datas)

             book = xlwt.Workbook()

             sheet1=book.add_sheet('sheet1',cell_overwrite_ok = True)

             sheet1.col(0).width = (25*256)

             sheet1.col(1).width = (30*256)

             sheet1.col(2).width = (40*256)

             heads=['歌曲名称','专辑','歌曲链接']

             count=0

             for head in heads:

                 sheet1.write(0,count,head)

                 count+=1

             i=1

             for data in datas:

                 j=0

                 for k in data:

                     sheet1.write(i,j,k)

                     j+=1

                 i+=1

             book.save(str(singer[1])+'.xls')#括号里写存入的地址

         except:

             continue

Python爬虫——request实例：爬取网易云音乐华语男歌手top10歌曲的更多相关文章

如何用Python网络爬虫爬取网易云音乐歌曲
今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两 ...
python网络爬虫&&爬取网易云音乐
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...
python爬虫+词云图，爬取网易云音乐评论
又到了清明时节,用python爬取了网易云音乐<清明雨上>的评论,统计词频和绘制词云图,记录过程中遇到一些问题爬取网易云音乐的评论一开始是按照常规思路,分析网页ajax的传参情况.看到 ...
爬取网易云音乐评论！python 爬虫入门实战（六）selenium 入门！
说到爬虫,第一时间可能就会想到网易云音乐的评论.网易云音乐评论里藏了许多宝藏,那么让我们一起学习如何用 python 挖宝藏吧! 既然是宝藏,肯定是用要用钥匙加密的.打开 Chrome 分析 Head ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...
用Python爬取网易云音乐热评
用Python爬取网易云音乐热评本文旨在记录Python爬虫实例:网易云热评下载由于是从零开始,本文内容借鉴于各种网络资源,如有侵权请告知作者. 要看懂本文,需要具备一点点网络相关知识.不过没有关 ...
Python爬取网易云音乐歌手歌曲和歌单
仅供学习参考 Python爬取网易云音乐网易云音乐歌手歌曲和歌单,并下载到本地很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做 ...
python爬取网易云音乐歌曲评论信息
网易云音乐是广大网友喜闻乐见的音乐平台,区别于别的音乐平台的最大特点,除了“它比我还懂我的音乐喜好”.“小清新的界面设计”就是它独有的评论区了——————各种故事汇,各种金句频出.我们可以透过歌曲的评 ...
python3爬虫应用--爬取网易云音乐（两种办法）
一.需求好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫 ...

随机推荐

ubuntu追加磁盘空间
在用wubi安装的时候,按默认的是20G空间,明显不够用,从Windows上追加空间首先用win7自带的磁盘分区工具,从任意一个空余空间较多的磁盘划出一块新分区(无损数据)(如NTFS),作为ubu ...
java Socket实现简单在线聊天（三）
在上一篇,利用线程使服务端实现了能够接收多客户端请求的功能,这里便需要客户端接收多客户端消息的同时还能把消息转发到每个连接的客户端,并且客户端要能在内容显示区域显示出来,从而实现简单的在线群聊. 在实 ...
Srtuts2实现登录界面（不连接数据库）报错（三）
二月 28, 2014 11:41:20 下午 org.apache.catalina.core.AprLifecycleListener init 严重: An incompatible versi ...
Oracle 存储过程中的 =>
oracle实参与形参有两种对应方式1.一种是位置方式,和面向对象语言参数传递类似;2.另外一种是=> 作为形参对应,因为位置对应方法有缺限,比如一个函数有3个参数,但第2个是可以不传(有默认值 ...
使用EFI引导从硬盘(U盘)安装Win7的图文教程
目前仅支持vista后的64位系统大部分使用EFI引导安装Win7的教程都是采用光盘启动安装,虽然光盘安装比较简单,但是对于没有光驱的朋友来说还是相当不便,更不用说光盘安装的两大缺点了,一速度慢,二 ...
Linux下挂载新硬盘方法
Linux的硬盘识别在/dev/下建立相应的设备文件.如 sda 表示第一块SCSI硬盘 hda 表示第一块IDE硬盘(即连接在第一个IDE接口的Master口上) scd0 表示第一个USB光 ...
芝麻软件： Python爬虫进阶之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
Django学习-17-CSRF
CSRF(跨站请求伪造) 用户请求获取数据时,加入一段加密字符串,只有服务器能反解. XSS(跨站脚本攻击),JS脚本在网站中运行,如果获取到用户Cookie,可以利用 ...
spring ioc(反转控制)
在Java中,我们建立一个对象的方式是new,有时需要单例,有时需要工厂,而spring中的bean的定义可以直接使用,如scope属性single产生单例对象,prototype产生新对象,bean ...
异常-----freemarker.template.TemplateException: The only legal comparisons are between two numbers, two strings, or two dates
1.错误描述六月 26, 2014 10:44:49 下午 freemarker.log.JDK14LoggerFactory$JDK14Logger error 严重: Template proc ...

Python爬虫——request实例：爬取网易云音乐华语男歌手top10歌曲

Python爬虫——request实例：爬取网易云音乐华语男歌手top10歌曲的更多相关文章

随机推荐

热门专题