scrapy--json(喜马拉雅Fm)

已经开始听喜马拉雅Fm电台有2个月,听里面的故事,感觉能听到自己,特别是蕊希电台,始于声音,陷于故事,忠于总结。感谢喜马拉雅Fm陪我度过了这2个月,应该是太爱了,然后就开始对Fm下手了。QAQ

该博客基于以下博客,提取和修改。

https://www.jianshu.com/p/8ff95111b18a

https://www.imooc.com/article/48315

需要解决问题

1.m4a文件储存在json文本中             --f12审查元素,使用json.loads读取信息

2.将其他主播的所有音频文件也下载

3.下载文件时,对提取的文件进行分类       --提取主播id,使用meta进行传递

三、先给大家看看成果

一、提取网页源码

1.1_提取trackId:"https://www.ximalaya.com/qinggan/321787/130991924"

1.2_提取其他主播Id

1.3_主播所有作品的trackId:"http://www.ximalaya.com/revision/album/getTracksList?albumId=321787&pageNum=13"

1.4_提取.m4a文件:https://www.ximalaya.com/revision/play/tracks?trackIds=35217881

二、代码设置:middlewares.py,settings.py,items.py就不细讲了,可以看我之前的博客。

2.1_pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import scrapy

from os.path import join,basename,dirname

import os

import urlparse

from scrapy.pipelines.files import FilesPipeline

from Xima.settings import FILES_STORE

from scrapy.exceptions import DropItem

class XimaPipeline(FilesPipeline):

    def get_media_requests(self,item,info):

        yield scrapy.Request(item['m4_urls'],meta={"file_name":item['file_name'],'m4_urls':item['m4_urls']})

    def file_path(self,request,response=None,info=None):

        #get_media_requests函数是返回了一个request对象的，而这个request对象就是file_path函数接收的那个

        item = request.meta

        return join(FILES_STORE, item['file_name'] + '\\' + basename(item['m4_urls']))

    def item_completed(self, results, item, info):

        file_paths = [x['path'] for ok, x in results if ok]

        if not file_paths:

            raise DropItem("Item contains no files")

        return item

2.2_爬取代码

# -*- coding: utf-8 -*-

import scrapy

from Xima.items import XimaItem

import json

import pdb

from Xima.settings import USER_AGENT

import random

class XimaSpider(scrapy.Spider):

    name = 'xima'

    allowed_domains = ['www.ximalaya.com']

    start_urls = ['https://www.ximalaya.com/revision/seo/hotWordAlbums?id=321787&queryType=1']

    headers = {

        'Accept': 'application/json, text/javascript, */*; q=0.01',

        'Accept-Encoding': 'gzip, deflate',

        'Accept-Language': 'zh-CN,zh;q=0.9',

        'Connection': 'keep-alive',

        'Content-Length': '',

        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',

        'Host': 'www.ximalaya.com',

        'Origin': 'www.ximalaya.com',

        'Referer': 'https://www.ximalaya.com/revision/seo/hotWordAlbums?id=321787&queryType=1',

        'User-Agent': random.choice(USER_AGENT),

        'X-Requested-With': 'XMLHttpRequest',

    }

    def start_requests(self):

        yield scrapy.Request(self.start_urls[0],callback=self.parse_1)

    def parse_1(self,response):

        for each_url in json.loads(response.body)['data']['hotWordAlbums']:

            for i in xrange(20):

                new_url = 'http://www.ximalaya.com/revision/album/getTracksList?albumId='+str(each_url['id'])+'&pageNum='+str(i)

                yield scrapy.Request(new_url,callback=self.parse,meta={'trackid':str(each_url['id'])})

    def parse(self, response):

        if json.loads(response.body)['data']['tracks']:

            for sel in json.loads(response.body)['data']['tracks']:

                stackids = sel['trackId']

                meta1 = response.meta

                yield scrapy.Request('https://www.ximalaya.com/revision/play/tracks?trackIds=%s'%stackids,callback=self.m4a,meta=meta1)

    def m4a(self,response):

        xima = XimaItem()

        if json.loads(response.body)['data']['tracksForAudioPlay'][0]['src']:

            xima['file_name']   = response.meta['trackid']

            xima['m4_urls']     = json.loads(response.body)['data']['tracksForAudioPlay'][0]['src']

            yield xima

scrapy--json(喜马拉雅Fm)的更多相关文章

scrapy--json(喜马拉雅Fm)(二)
学习了对数据的储存,感觉还不够深入,昨天开始对储存数据进行提取.整合和图像化显示.实例还是喜马拉雅Fm,算是对之前数据爬取之后的补充. 明确需要解决的问题 1,蕊希电台全部作品的进行储存 --scra ...
喜马拉雅FM抓包之旅
一.概述最近学院组织安排大面积实习工作,今天刚刚发布了喜马拉雅FM实习生招聘的面试通知.通知要求:公司采用开放式题目的方式进行筛选,申请的同学须完成如下题目写程序输出喜马拉雅FM上与"卓 ...
[HMLY]5.模仿喜马拉雅 FM
项目介绍: 文:HansRove(github)XiMaLaYa-by-HansRove- 仿做喜马拉雅, 对AVFoundation框架的一次尝试软件环境: iOS9.1硬件环境: Mac O ...
iOS仿喜马拉雅FM做的毕业设计及总结（含新手福利源码）
其实仿喜马拉雅FM很早就开始了,从我刚接触iOS开始,就开始仿做了一部分,眼尖的人都从我的github找到了那个项目.随着找到实习iOS工作,仿写就落下了,但唯一的收获就是给过去打了一个响亮的耳光,因 ...
喜马拉雅FM接入
最近有考虑接入,但是一方面由于沟通不畅等,另一方面没有浏览开发者协议,品牌规范等,多走了很多弯路,所以记下接入的注意事项和关键点一. 接入前准备工作喜马拉雅FM开放平台地址:http://open ...
JY播放器【喜马拉雅FM电脑端，附带下载功能】
今天给大家带来一款神器----JY播放器.可以不用打开网页就在电脑端听喜马拉雅FM的节目,而且可以直接下载,对于我这种强迫症患者来说真的是神器.我是真的不喜欢电脑任务栏上面密密麻麻的. 目前已经支持平 ...
喜马拉雅 FM 已购付费音频下载
如何下载在喜马拉雅 FM 中已购买的付费音频.之前想分享自己购买的付费音频给朋友听,碍于喜马拉雅 FM 的音频不能直接导出,所以准备自己搞个下载的小软件. 仅可下载已购买的付费音频.当然,如果你是会员 ...
iOS涂色涂鸦效果、Swift仿喜马拉雅FM、抽屉转场动画、拖拽头像、标签选择器等源码
iOS精选源码 LeeTagView 标签选择控件为您的用户显示界面添加美观的加载视图 Swift4: 可拖动头像,增加物理属性 Swift版抽屉效果,自定义转场动画管理器 Swift 仿写喜马拉雅 ...
做一个新产品需求，体验的分析文档？（例：喜马拉雅FM）
2.1 战略层 2.11 产品定位: 一款产品覆盖面广,收听节目种类齐全,资源丰富的电台APP. 以PGC为主流,通过合作方式吸纳专业的电台人,节目人,行业名人分享内容. 融合UGC,满足人们在空闲时 ...

随机推荐

[HZOI 2015]树黑白
[题目描述] 给定一棵树,要求维护以下操作: 1.M u 将u节点反色 2.Q u 查询u到所有黑色节点距离和 [输入格式] 第一行n,m 表示节点总数和操作次数之后n-1行,每行u,v表示两个端点 ...
Version Control&Git
首先了解一下什么是版本控制: Version control (版本控制)是指对软件开发过程中各种程序代码.配置文件及说明文档等文件变更的管理,是软件配置管理的核心思想之一. 其次版本控制最主要的功能 ...
qingdao
1001 #include <bits/stdc++.h> using namespace std; vector<long long> v; long long pow2(l ...
命令“mkdir "xxx" xcopy "xxx" "xxx" /S /E /C /Y”已退出，代码为 9009。
前几天公司来了个新同事,使用的VS2013,但我们的所有项目都是使用VS2012创建的,我想用13打开应该没有什么问题.昨天新同事修改完代码提交后,我获取完成后无法编译成功,提示: 错误 3 命令“m ...
手机APP 后端设计
原则: 命名知其意. 一看api名字就知道这个api是干啥. api返回数据禁止null 服务器动态处理原图(如 60x60 .80x80). 例如,客户端需要图片(http://w ...
eclipse 中添加 tomcat后，启动访问时出现404
1.切换到 server view. 2.双击出问题的 Server,出现如下页面. 3.选中Server,右键,点击选项卡的 Publish,就能进行编辑. 4.Server path 选中第二项: ...
zabbix web端有数据但是没有图形
zabbix web端有数据但是没有图形我遇到的情况是,在配置 zabbix 网站目录时,修改了zabbix 目录的所有者和所属组,以使得 zabbix/conf/zabbix.conf.php 文 ...
学习lucene5.5.4的笔记
说说几个常用的类. OpenMode是一个枚举类,有三个元素,分别表示IndexWriter的打开模式. CREATE:每次打开IndexWriter时清空当前索引目录下的索引,再新建索引. APPE ...
批处理实现虚拟WIFI
类似于360免费WiFi那个软件,可以PC发射WiFi(需要有无线网卡). 源码如下: @Echo off title Windows7 虚拟Wifi----By yllinux mode con c ...
音乐代码（DNF天空之城、欢乐颂）。
太感人了 DNF天空之城 #include <cstdio> #include <windows.h> #define qdo 262 #define qre 294 #def ...

scrapy--json(喜马拉雅Fm)

scrapy--json(喜马拉雅Fm)的更多相关文章

随机推荐

热门专题