一：前言

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息，然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址，频道信息，简介等等，非常多。
昨天进行了人生中第一次面试，对方是一家人工智能大数据公司，我准备在这大二的暑假去实习，他们就要求有爬取过音频数据，所以我就来分析一下喜马拉雅的音频数据爬下来。目前我还在等待三面中，或者是通知最终面试消息。（因为能得到一定肯定，不管成功与否都很开心）

二：运行环境

IDE：Pycharm 2017
Python3.6
pymongo 3.4.0
requests 2.14.2
lxml 3.7.2
BeautifulSoup 4.5.3

三：实例分析

1.首先进入这次爬取的主页面http://www.ximalaya.com/dq/all/ ，可以看到每页12个频道，每个频道下面有很多的音频，有的频道中还有很多分页。抓取计划：循环84个页面，对每个页面解析后抓取每个频道的名称，图片链接，频道链接保存到mongodb。

热门频道

2.打开开发者模式，分析页面，很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息，就可以保存到mongodb中。

start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]

for start_url in start_urls:

    html = requests.get(start_url, headers=headers1).text

    soup = BeautifulSoup(html, 'lxml')

    for item in soup.find_all(class_="albumfaceOutter"):

        content = {

            'href': item.a['href'],

            'title': item.img['alt'],

            'img_url': item.img['src']

        }

        print(content)

分析频道

３.下面就是开始获取每个频道中的全部音频数据了，前面通过解析页面获取到了美国频道的链接。比如我们进入http://www.ximalaya.com/6565682/album/237771　这个链接后分析页面结构。可以看出每个音频都有特定的ID，这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

频道页面分析

4.接着点击一个音频链接，进入开发者模式后刷新页面然后点击XHR，再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

html = requests.get(url, headers=headers2).text

numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')

for i in numlist:

    murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)

    html = requests.get(murl, headers=headers1).text

    dic = json.loads(html)

音频页面分析

5.上面只是对一个频道的主页面解析全部音频信息，但是实际上频道的音频链接是有很多分页的。

html = requests.get(url, headers=headers2).text

ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')

if len(ifanother):

    num = ifanother[0]

    print('本频道资源存在' + num + '个页面')

    for n in range(1, int(num)):

        print('开始解析{}个中的第{}个页面'.format(num, n))

        url2 = url + '?page={}'.format(n)

        # 之后就接解析音频页函数就行，后面有完整代码说明

分页

6.全部代码
完整代码地址github.com/rieuse/learnPython

__author__ = '布咯咯_rieuse'

import json

import random

import time

import pymongo

import requests

from bs4 import BeautifulSoup

from lxml import etree

clients = pymongo.MongoClient('localhost')

db = clients["XiMaLaYa"]

col1 = db["album"]

col2 = db["detaile"]

UA_LIST = []  # 很多User-Agent用来随机使用可以防ban，显示不方便不贴出来了

headers1 = {} # 访问网页的headers，这里显示不方便我就不贴出来了

headers2 = {} # 访问网页的headers这里显示不方便我就不贴出来了

def get_url():

    start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]

    for start_url in start_urls:

        html = requests.get(start_url, headers=headers1).text

        soup = BeautifulSoup(html, 'lxml')

        for item in soup.find_all(class_="albumfaceOutter"):

            content = {

                'href': item.a['href'],

                'title': item.img['alt'],

                'img_url': item.img['src']

            }

            col1.insert(content)

            print('写入一个频道' + item.a['href'])

            print(content)

            another(item.a['href'])

        time.sleep(1)

def another(url):

    html = requests.get(url, headers=headers2).text

    ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')

    if len(ifanother):

        num = ifanother[0]

        print('本频道资源存在' + num + '个页面')

        for n in range(1, int(num)):

            print('开始解析{}个中的第{}个页面'.format(num, n))

            url2 = url + '?page={}'.format(n)

            get_m4a(url2)

    get_m4a(url)

def get_m4a(url):

    time.sleep(1)

    html = requests.get(url, headers=headers2).text

    numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')

    for i in numlist:

        murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)

        html = requests.get(murl, headers=headers1).text

        dic = json.loads(html)

        col2.insert(dic)

        print(murl + '中的数据已被成功插入mongodb')

if __name__ == '__main__':

    get_url()

7.如果改成异步的形式可以快一点，只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

异步

五：总结

这次抓取的数据量在70万左右，这些数据后续可以进行很多研究，比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析，清洗的工作。

学习过程中遇到什么问题或者想获取学习资源的话，欢迎加入学习交流群
626062078，我们一起学Python！

Python爬虫音频数据的更多相关文章

python 爬虫与数据可视化--python基础知识
摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...
Python爬虫股票数据爬取
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析地址分析 http://m ...
Python爬虫与数据图表的实现
要求: 1. 参考教材实例20,编写Python爬虫程序,获取江西省所有高校的大学排名数据记录,并打印输出. 2. 使用numpy和matplotlib等库分析数据,并绘制南昌大学.华东交通大学.江西 ...
在我的新书里，尝试着用股票案例讲述Python爬虫大数据可视化等知识
我的新书,<基于股票大数据分析的Python入门实战>,预计将于2019年底在清华出版社出版. 如果大家对大数据分析有兴趣,又想学习Python,这本书是一本不错的选择.从知识体系上来看, ...
从python爬虫以及数据可视化的角度来为大家呈现“227事件”后，肖战粉丝的数据图
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取t.cn ...
python 爬虫与数据可视化--数据提取与存储
一.爬虫的定义.爬虫的分类(通用爬虫.聚焦爬虫).爬虫应用场景.爬虫工作原理(最后会发一个完整爬虫代码) 二.http.https的介绍.url的形式.请求方法.响应状态码 url的形式: 请求头: ...
python 爬虫与数据可视化--matplotlib模块应用
一.数据分析的目的(利用大数据量数据分析,帮助人们做出战略决策) 二.什么是matplotlib? matplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB ...
Python 爬虫-股票数据的Scrapy爬虫
2017-08-06 19:52:21 目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:scrapy 获取股票列表:东方财富网:http://quote.eastmone ...
python爬虫之数据的三种解析方式
一.正则解析单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\ ...

随机推荐

java 注解使用笔记
一.语法注解也属于一种类型 public @interface MyTestAnnotation { } 用@interface描述根据情况可以应用于包.类型.构造方法.方法.成员变量.参数及本地 ...
Linux实验三
主要参考课本第二章所学习内容 (信息的表示和处理) 所有重点内容: 信息存储整数表示/运算浮点数一十六进制表示 0~9 A~F 0000~1111 注:(主要参考课本P22) 字字长: ...
UVA.10305 Maximum Product (暴力)
UVA.10305 Maximum Product (暴力) 题意分析直接枚举起点和重点,然后算出来存到数组里面,sort然后取最大值即可. 代码总览 #include <iostream&g ...
UVA.725 Division (暴力)
UVA.725 Division (暴力) 题意分析找出abcdefghij分别是0-9(不得有重复),使得式子abcde/fghij = n. 如果分别枚举每个数字,就会有10^10,肯定爆炸,由 ...
TYVJ1423 GF和猫咪的玩具
Description: GF同学和猫咪得到了一个特别的玩具,这个玩具由n个金属环(编号为1---n),和m条绳索组成,每条绳索连接两个不同的金属环,并且长度相同.GF左手拿起金属环L,猫咪右手(或者 ...
如何按需动态加载js文件
JavaScript无非就是script标签引入页面,但当项目越来越大的时候,单页面引入N个js显然不行,合并为单个文件减少了请求数,但请求的文件体积却很大.这时候最好的做法就是按需引入,动态引入组件 ...
run （牛客多校第二场）计数DP
链接:https://www.nowcoder.com/acm/contest/140/A来源:牛客网题目描述 White Cloud is exercising in the playground ...
mysql的select的五子句
转: http://www.cnblogs.com/billyu/p/5033167.html http://www.cnblogs.com/xiadong90-2015/p/4222965.html ...
opencv学习--透视变化
透视变换和仿射变换具有很大的相同特性,前面提到了放射变化,这里再次把它拿出和透视变换进行比较 #include"cv.h" #include"highgui.h" ...
实体框架(Entity Framework)快速入门--实例篇
在上一篇 <实体框架(Entity Framework)快速入门> 中我们简单了解的EF的定义和大体的情况,我们通过一步一步的做一个简单的实际例子来让大家对EF使用有个简单印象,看操作步骤 ...