场景

喜马拉雅电台：

https://www.ximalaya.com/

找到一步小说音频，这里以下面为例

https://www.ximalaya.com/youshengshu/16411402/

博客：
https://blog.csdn.net/badao_liumang_qizhi
关注公众号
霸道的程序猿
获取编程相关电子书、教程推送与免费下载。

实现

找到下载地址

使用谷歌浏览器打开上面网址，按F12打开调试，点击播放按钮后，然后找到Network下的Media下的Headers下的RequestURL,然后选中在新窗口中打开

打开之后就可以点击三个点出来之后的下载按钮，便可以下载

使用代码下载

打开PyCharm，新建一个Python项目

导入requests库，然后为了防止其反扒机制，找到浏览器上Headers下的Requests
Headers下的User-Agent,复制出来。

#能发送http请求的库
import requests
 
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36' 
} 
media_url = 'http://audio.cos.xmcdn.com/group47/M0A/34/EA/wKgKm1tHj6GwgeWBAFehkfjyvKI181.m4a' response = requests.get(media_url,headers = headers); with open('badao.mp4',mode='wb') as f: f.write(response.content)

下载成功之后

下载地址获取

上面只是获取一个音频的下载地址，怎样获取每一集的下载地址

还是刚才的调试页面，我们点击放大镜样的搜索按钮，出来搜索框之后，输入刚才下载地址的文件名

点击第一个返回json数据的接口url,找到其Headers下的RequestURL。

然后在新窗口打开

可以看到是通过这个API返回的Json数据中的下载地址。

那么这个API需要传递什么参数。通过其Headers底部的请求参数可以看到需要一个id参数和pytype参数。

通过对比每一集的接口的请求参数得知，pytype是固定的，id是每一集对应的链接中的id相对应的。

所以要是循环下载多集的话，需要在目录页面获取超链接的href属性中对应的id。

这里我们定义一个请求下载地址json数据的方法

defmedia_api(track_id):
    api_url=f'https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1';
    response = requests.get(api_url,headers = headers)
    print(response.json())
 
media_api()

运行下打印json数据

提取下载地址

那么就需要根据传递的id参数通过这个接口返回json数据，并从json数据中提取src对应的url数据

def media_api(track_id):   
    api_url=f'https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1';
    response = requests.get(api_url,headers = headers)
    #print(response.json())
    #json返回字典类型  提取使用[]
    data_json = response.json()
    src = data_json['data']['src']
    return src
 
media_api()

这样就能根据id获取每一集的下载地址，然后再将下载地址传递给上面第一步下载的方法中进行下载即可。

接下来就是怎样获取每一集的id。

parsel解析网页获取id

首先需要导入parsel模块

import parsel

如果没有安装则需要安装

pip install parsel

我们来到其目录页

在Elemnts下可以看到每一集是一个a标签，我们获取a标签的href属性中的最后面的id。

我们再定义一个方法，此方法能根据页面的url获取当前页的所有集的id。

def get_total_page(page_url):
    #请求页面
    response = requests.get(page_url,headers = headers)
    print(response.text)
    #获取页面html的内容
    sel = parsel.Selector(response.text)
    print(sel)
    #通过css选择器找到a标签   .sound-list代表 class属性为sound-list 然后下面的ul 下的li 下的a
    sound_list = sel.css('.sound-list ul li a')
    print(sound_list)
    #只有前30个是页面链接 截取前30个
    for sound in sound_list[:]:
        #extract_first()将对象中的文字提取出来
        #获取a标签的href属性的内容
        media_url = sound.css('a::attr(href)').extract_first()
        #/youshengshu// --只去最后面的id
        media_url = media_url.split('/')[-]
        # 获取a标签的title属性的内容
        media_name = sound.css('a::attr(title)').extract_first()
        #用yield将整个循环的内容返回
        yield media_url,media_name

下载一页的音频

我们在main方法中调用获取当前页所有的集的id和名字，然后循环将拿到的id去请求api获取下载的地址，然后将下载地址传递给下载的方法去下载

if __name__ == '__main__':
    meidas = get_total_page('https://www.ximalaya.com/youshengshu/16411402/')
    for media_id,media_name in meidas:
        #print(media_url, media_name)
        media_url = media_api(media_id)
        download_meida(media_url, media_name)

运行程序将一页下载完

下载所有页

我们点击第二页看到url中追加了一个p2，依次类推，p+相应的页数。

这样就可以将页面url改造成传参的

if __name__ == '__main__':
    #循环页数下载 range代表下载的页数范围
    for page in range(,):
        meidas = get_total_page(f'https://www.ximalaya.com/youshengshu/16411402/p{page}')
        for media_id,media_name in meidas:
            #print(media_url, media_name)
            media_url = media_api(media_id)
            download_meida(media_url, media_name)

那么在range中就可以输入要下载的页数的范围。

如果输入(1,31)就是下载所有的30页，这里只下载第二页，所以range是(2,3)

代码下载

关注公众号：

霸道的程序猿

回复：

爬取喜马拉雅

Python中使用requests和parsel爬取喜马拉雅电台音频的更多相关文章

在Python中使用BeautifulSoup进行网页爬取
目录什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型创建网络爬虫步骤1:浏览并检查网站/网页步骤2:创建用户代理步骤3:导入请求库检查状态码步 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...

随机推荐

RobotFramework不同版本优劣势
一.RIDE 1.5.2.1 1. 安装: pip install robotframework-ride==1.5.2.1 2. 优点: 此版本是RIDE发布以来最为稳定的版本,使用性能上也较为流畅 ...
ASP.NET Core SignalR：基础概述
一.简介 ASP.NET Core SignalR 是一个开源代码库,它简化了向应用添加实时 Web 功能的过程. 实时 Web 功能使服务器端代码能够即时将内容推送到客户端. SignalR 的适用 ...
spring boot项目记录--日志处理
微信点餐用到的日志框架:slf4j(门面)+logback(框架) @RunWith(SpringRunner.class) @SpringBootTest @Slf4j public class L ...
利用Python制作一个只属于和她的聊天器，再也不用担心隐私泄露啦！
------------恢复内容开始------------ 是否担心微信的数据流会被监视?是否担心你和ta聊天的小秘密会被保存到某个数据库里?没关系,现在我们可以用Python做一个只属于你和ta的 ...
Implement Property Value Validation in Code 在代码中实现属性值验证（XPO）
This lesson explains how to set rules for business classes and their properties. These rules are val ...
PostgreSQL 表字段起别名
使用Postgreq Sql 表字段起别名时注意要用双引号,使用单引号会出现语法错误,执行结果如图
解决npm下载慢的问题
方法一:使用淘宝定制的cnpm命令行工具替代默认安装npm npm install -g cnpm --registry=https://registry.npm.taobao.org 方法二:将np ...
031.[转] 从类状态看Java多线程安全并发
从类状态看Java多线程安全并发 pphh发布于2018年9月16日对于Java开发人员来说,i++的并发不安全是人所共知,但是它真的有那么不安全么? 在开发Java代码时,如何能够避免多线程并发出 ...
编译原理之不懂就问-First集
老师PPT: 这条语言实在是..通俗易懂
SPA项目开发之首页导航左侧菜单栏
1. Mock.js 前后端分离开发开发过程当中,经常会遇到以下几个尴尬的场景: 1. 老大,接口文档还没输出,我的好多活干不下去啊! 2. 后端小哥,接口写好了没,我要测试啊! 前后端分离之后,前端 ...

Python中使用requests和parsel爬取喜马拉雅电台音频

场景

实现