Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分

梦想橡皮擦 2024-10-24 03:19:55 原文

1. Python爬虫入门教程爬取背景

2019年1月10日深夜，打开了百思不得姐APP，想了一下是否可以爬呢？不自觉的安装到了夜神模拟器里面。这个APP还是比较有名和有意思的。

下面是百思不得姐的简介

年度超好玩的搞笑内容平台，整个互联网能嗨翻宇宙的神级脑洞大神段子手们都在这..
新鲜的视频，爆笑的段子，有趣的GIF囧图，承包所有你无聊的时间。
更有“姐夫”们毁天灭地“神评论”，花式吐槽，脑洞大开，人人都是段子手……

1500W的下载量，用户群体比较庞大。

2. 爬虫的抓包分析阶段

安装到模拟器内部，打开Fiddler，运行程序，看下图，左侧最后出现的链接，就是我们想要的了

得到待爬取连接如下,所有的request请求，注意到，并没有什么加密参数

GET http://s.budejie.com/v2/topic/list/10/0-0/budejie-android-8.0.1/0-25.json?uid=&t=&market=360zhushou&client=android&appname=budejie&device=&jdk=1&ver=8.0.1&udid=&from=android HTTP/1.1

ver: 8.0.1

client: android

market: 360zhushou

udid: 866174010820641

mac: 9C:30:5B:38:35:2F

os: 4.4.2

appname: budejie

visiting:

Referer: http://www.budejie.com

t: 1547132330768

Host: s.budejie.com

Connection: Keep-Alive

Accept-Encoding: gzip

去掉无用参数，得到如下链接

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json

剩下的就是分析了

3. 分析页面规律，得到链接拼接方式

爬虫就是要找到链接的规律，下面是第一页和第二页的数据

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json
http://d.api.budejie.com/v2/topic/list/29/29082060-28984879/budejie-android-8.0.1/1544334121-25.json

提取公用部分

http://d.api.budejie.com/v2/topic/list/29/{参数1}-{参数2}/budejie-android-8.0.1/{参数3}-25.json

三个参数位置发生了改变

还有两个数字，一个是29，这个目测应该是类别，一个是25，这个应该是每页显示的数据条数

那么我们看一下，第二个链接中参数1，2，3分别是怎么得到的就可以了，看一下第一页的返回数据

上图得到参数3的值

展开list看到第一项的id为29082060 OK，得到参数1的值了，最后一项肯定是参数2的值，那么我们找到对应参数之后剩下的就是编码了。

4. 爬虫具体编码部分

依旧是你自己来写吧~任何一个模块或者爬虫框架都是很容易就可以实现的，重要的是我们抓到了对应链接就可以了。

百思不得姐手机APP收工

Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分的更多相关文章

Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分
1. 儿歌多多APP简单分析今天是手机APP数据爬取的第一篇案例博客,我找到了一个儿歌多多APP,没有加固,没有加壳,没有加密参数,对新手来说,比较友好,咱就拿它练练手,熟悉一下Fiddler和夜神 ...
Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy
1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了,这个框架可以说是python爬虫框架里面出镜率最高的一个了,我们接下来重点研究一下它的使用规则. 安装过程自己百度一下,就能找到 ...
Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
1. 36氪(36kr)数据----写在前面今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数 ...
Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy
爬前叨叨今天要爬取一下正规大学名单,这些名单是教育部公布具有招生资格的高校名单,除了这些学校以外,其他招生的单位,其所招学生的学籍.发放的毕业证书国家均不予承认,也就是俗称的野鸡大学! 网址是 ht ...
Python爬虫入门教程石家庄链家租房数据抓取
1. 写在前面这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材.我们需要爬取的网址为:https://sjz.lianjia.com/zufang/ 2. 分析网 ...
Python爬虫入门教程 22-100 CSDN学院课程数据抓取
1. CSDN学院课程数据-写在前面今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/ ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...

随机推荐

Python模拟登陆万能法-微博|知乎
Python模拟登陆让不少人伤透脑筋,今天奉上一种万能登陆方法.你无须精通HTML,甚至也无须精通Python,但却能让你成功的进行模拟登陆.本文讲的是登陆所有网站的一种方法,并不局限于微博与知乎,仅 ...
OFFICE2007软件打开word时出现SETUP ERROR的解决方法
今天打开word时出现以下错误窗口: 在度娘上找了一下解决方案,原来每次打开word时都会启动一些无用的东西,找到这些东西的路径D:\Program Files\Common Files\micros ...
【二分+最小树形图】UVA11865 比赛网络
Description During 2009 and 2010 ICPC world finals, the contest was webcasted via world wide web. Se ...
RocketMQ源码 — 十一、 RocketMQ事务消息
分布式事务是一个复杂的问题,rmq实现了事务的最终一致性,rmq保证本地事务成功消息一定会发送成功并被成功消费,如果本地事务失败了,消息不会被发送. rmq事务消息的实现过程为: producer发送 ...
Django 基础二(View和urls)
上一篇博文已经成功安装了python环境和Django,并且新建了一个空的项目.接下来就可以正式开始进行Django下的Web开发了.首先进入项目的主目录: cd ./DjangoLearn/hol ...
hystrix 结果缓存机制（5）
hystrix支持将一个请求结果缓存起来,下一个具有相同key的请求将直接从缓存中取出结果,减少请求开销.要使用hystrix cache功能第一个要求是重写getCacheKey(),用来构造ca ...
安卓开发笔记（二十八）：仿写IOS switch选择器控件实现，checkbox
我们先来看看效果: 这里我们主要使用了github上的一个开源项目,配置起来比较方便,下面解释一下该如何使用:首先是:Gradle文件当中进行配置: dependencies { implementa ...
Brown Mood Median Test
Brown-Mood Median Test 对于两独立样本尺度中的位置参数(中位数)检验问题: \(H_0: med_x = med_y\) \(H_1=med_x > med_y\) 在 ...
线上应用调试利器 --Arthas
在之前的文章中,我介绍了使用 Btrace 工具进行线上代码的debug (https://www.cnblogs.com/yougewe/p/10180483.html),其大致原理就是通过字节码注 ...
API 测试的具体实现
目录 API 测试的具体实现基于 Spring Boot 构建的 API 使用 cURL 命令行工具进行测试使用图形界面工具 Postman 进行测试如何应对复杂场景的 API 测试? 总结 A ...