python3爬取咪咕音乐榜信息（附源代码）

参照上一篇爬虫小猪短租的思路https://www.cnblogs.com/aby321/p/9946831.html，继续熟悉基础爬虫方法，本次爬取的是咪咕音乐的排名

咪咕音乐榜首页http://music.migu.cn/v2/music/billboard/?_from=migu&page=1

注意：本程序有时候运行会报错，此时重新运行即可，报错原因不明了！

与小猪短租不同的是，爬取的排名信息不在每首歌曲的详细页面内，需要在分页url中获取（代码19-25行），使用打包循环并且输出给函数get_info()

 """

 典型的分页型网站——咪咕音乐榜

 有时候运行会报错，有时候正常，原因不知道

 """

 import requests

 from bs4 import BeautifulSoup as bs

 import time

 headers = {

     'User-Agent':'User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

 }

 #获取每一个歌曲的网址,参数是分页url

 def get_link(url):

     html_data = requests.get(url, headers = headers)

     soup = bs(html_data.text, 'lxml')#bs4推荐使用的的解析库

     #print(soup.prettify())   #标准化输出url中的源代码（有可能跟网页查看中的不一致，网页中有可能标签书写不规范）以此为基础抓取，如果抓取失败，用此命令查看源代码

     links = soup.select('#js_songlist > div > div.song-name > span > a')#注意循环点！！！

     ranks = soup.select('#js_songlist > div > div.song-number ')#因为歌曲详情里没有排名信息，因此需要在这部分获取详情信息

     #print(ranks)

     for rank, link in zip(ranks,links):#打包循环，主要为了输出配套的rank和link

         rank = rank.get_text()

         link = 'http://music.migu.cn' + link.get('href')#观察每个歌曲的详细网页发现，前面部分需要手动添加http://music.migu.cn

         #print(rank,link)

         get_info(rank,link)

 #获取每一个歌曲的详细信息，排名、歌名、歌手和专辑名，参数url是每个歌曲的网址

 def get_info(rank,url):

     html_data = requests.get(url, headers = headers)

     soup = bs(html_data.text, 'lxml')#bs4推荐使用的的解析库

     # print(soup.prettify())   #标准化输出url中的源代码（有可能跟网页查看中的不一致，网页中有可能标签书写不规范）以此为基础抓取，如果抓取失败，用此命令查看源代码

     title = soup.select('div.container.pt50 > div.song-data > div.data-cont > div.song-name > span.song-name-text')[0].string.strip()

     # 用网页copy过来的全部是“body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em”，但是使用这个爬不出来数据（我也不知道why），把body去掉或者用下面最简短的方式（只使用最近的且唯一的div）

     # title = soup.select('div.pho_info > h4 > em ')

     # 查询结果title格式是一维列表，需要继续提取列表元素（一般就是[0])，列表元素是前后有标签需要继续提取标签内容，使用get_text()或者string

     singer = soup.select('div.container.pt50 > div.song-data > div.data-cont > div.song-statistic > span > a')[0].string.strip()

     cd = soup.select('div.container.pt50 > div.song-data > div.data-cont > div.style-like > div > span > a')[0].string.strip()  # 获取标签的属性值

     #将详细数据整理成字典格式

     data = {

         '排名':rank,

         '歌名':title,

         '歌手':singer,

         '专辑':cd

     }

     print(data)

 #程序主入口

 if __name__=='__main__':

     for number in range(1,3):

         url = 'http://music.migu.cn/v2/music/billboard/?_from=migu&page={}'.format(number)   #构造分页url（不是歌曲详情的url）

         get_link(url)

         time.sleep(1)

输出结果：每次输出data数据（字典型）字段顺序是随机的，因为本身字典型数据就没有顺序，如果想固定顺序的话请使用列表

举一反三：同类型的分页型网站均可使用此爬虫模板，例如豆瓣电影top100、时光网top榜之类的

ps：不知道这个榜单准不准，反正我基本没听过（可能是我out了）

python3爬取咪咕音乐榜信息（附源代码）的更多相关文章

python3 爬取qq音乐作者所有单曲并且下载歌曲
1 import requests import re import json import os # 便于存放作者的姓名 zuozhe = [] headers = {'User-Agent': ' ...
Python3爬取豆瓣网电影信息
# -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前250的电影的名称 Language: Python3.6 ...
Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
python3爬取墨迹天气并发送给微信好友，附源码
需求: 1. 爬取墨迹天气的信息,包括温湿度.风速.紫外线.限号情况,生活tips等信息 2. 输入需要查询的城市,自动爬取相应信息 3. 链接微信,发送给指定好友思路比较清晰,主要分两块,一是爬虫 ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
Python爬虫实战一之爬取QQ音乐
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...

随机推荐

网站架构：消息队列 Java后端架构
2017-01-13 一.消息队列概述消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题.实现高性能,高可用,可伸缩和最终一致性架构.是大型分布式系统不可缺少的中间 ...
关于No Dialect mapping for JDBC type :-9 hibernate执行原生sql语句问题
转自博客http://blog.csdn.net/xd195666916/article/details/5419316,同时感谢博主今天做了个用hibernate直接执行原生sql的查询,报错No ...
Shader笔记
1,渲染队列值小的先渲染,值大的后渲染 2,zTest,zWrite zTest:LEqua zWrite:On 则:zWrite中,深度值小于深度值缓冲区的值会被通过参考:http://www.c ...
cocos2d-x游戏之2048
学习游戏编程是一件非常有趣的事情,在cocos2dx官网找了几个简单的游戏试试手,感觉也不是那么难,首先来看看2048这款游戏吧,很火的原因之一是因为它简单而易操作.网上这位Legendof1991大 ...
Osclass-3.6.1 (Openlogic CentOS 7.2)
平台: CentOS 类型: 虚拟机镜像软件包: osclass3.6.1 cms commercial content management ecommerce open-source 服务优惠价 ...
DOM对象和js对象以及jQuery对象的区别
DOM对象和js对象以及jQuery对象的区别 DOM对象和js对象以及jQuery对象的区别一.DOM对象文档对象模型简称DOM,是W3C组织推荐的处理可扩展置标语言的标准编程接口. DOM实际 ...
【转】run方法与start方法的区别
在java线程中 start与run的不同start与run方法的主要区别在于当程序调用start方法一个新线程将会被创建,并且在run方法中的代码将会在新线程上运行,然而在你直接调用run方法的时候 ...
vim复制粘贴到系统剪贴板
一般来讲,如果你没有在.vimrc中配置过相关的信息的话,可以考虑下面的方法.系统环境 Ubuntu 14.04 LTS. 安装与使用首先需要安装一个vim-gtk 命令$sudo apt-get ...
javaweb基础(40)_jdbc框架
一.元数据介绍元数据指的是"数据库"."表"."列"的定义信息. 1.1.DataBaseMetaData元数据 Connection.g ...
【洛谷P1379】八数码难题（广搜、A*）
八数码难题题目描述一.广搜: 首先要考虑用什么存每一个状态显然每个状态都用一个矩阵存是很麻烦的. 我们可以考虑将一个3*3的矩阵用一个字符串或long long 存. 每次扩展时再转化为矩阵. ...

python3爬取咪咕音乐榜信息（附源代码）

python3爬取咪咕音乐榜信息（附源代码）的更多相关文章

随机推荐

热门专题