用python爬取app照片

首先下载一个斗鱼（不下载也可以，url都在这了对吧）

　　通过抓包，抓取到一个json的数据包，得到下面的地址

　　观察测试可知，通过修改offset值就是相当于app的翻页

　　访问这个url，返回得到的是一个大字典，字典里面两个索引，一个error，一个data。而data又是一个长度为20的数组，每个数组又是一个字典。每个字典中又有一个索引，vertical_src。

　　我们的目标就是它了！

 import urllib.parse

 import urllib

 import json

 import urllib.request

 data_info={}

 data_info['type']='AUTO'

 data_info['doctype']='json'

 data_info['xmlVersion']='1.6'

 data_info['ue']='UTF-8'

 data_info['typoResult']='true'

 head_info={}

 head_info['User-Agent']='DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)'

 url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset=20'

 data_info=urllib.parse.urlencode(data_info).encode('utf-8')

 print(data_info)

 requ=urllib.request.Request(url,data_info)

 requ.add_header('Referer','http://capi.douyucdn.cn')

 requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')

 response=urllib.request.urlopen(requ)

 print(response)

 html=response.read().decode('utf-8')

这短短20多行代码就能返回得到json数据了。然后再通过对这json代码的切片，分离得到每个主播照片的url地址。

然后得到这一页的照片

 import json

 import urllib.request

 data_info={}

 data_info['type']='AUTO'

 data_info['doctype']='json'

 data_info['xmlVersion']='1.6'

 data_info['ue']='UTF-8'

 data_info['typoResult']='true'

 url+str(i)='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)

 data_info=urllib.parse.urlencode(data_info).encode('utf-8')

 print(data_info)

 requ=urllib.request.Request(url,data_info)

 requ.add_header('Referer','http://capi.douyucdn.cn')

 requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')

 response=urllib.request.urlopen(requ)

 print(response)

 html=response.read().decode('utf-8')

 '''

  print(type(dictionary))

 print(type(dictionary[data]))

 '''

 dictionary=json.loads(html)

 data_arr=dictionary["data"]

 for i in range(0,19):

     name=data_arr[i]["nickname"]

     img_url=data_arr[i]["vertical_src"]

29     print(type(img_url))

     respon_tem=urllib.request.urlopen(img_url)

31     anchor_img=respon_tem.read()

     with open('../photos/'+name+'.jpg','wb') as f:

         f.write(anchor_img)

然后修改一下，让它有了翻页的功能

 import urllib.parse

 import urllib

 import json

 import urllib.request

 data_info={}

 data_info['type']='AUTO'

 data_info['doctype']='json'

 data_info['xmlVersion']='1.6'

 data_info['ue']='UTF-8'

 data_info['typoResult']='true'

 data_info=urllib.parse.urlencode(data_info).encode('utf-8')

 for x in range(0,195):

     url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)

     print(data_info)

     requ=urllib.request.Request(url,data_info)

     requ.add_header('Referer','http://capi.douyucdn.cn')

     requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')

     response=urllib.request.urlopen(requ)

     print(response)

     html=response.read().decode('utf-8')

     dictionary=json.loads(html)

     data_arr=dictionary["data"]

     for i in range(0,19):

         name=data_arr[i]["nickname"]

         img_url=data_arr[i]["vertical_src"]

         print(type(img_url))

         respon_tem=urllib.request.urlopen(img_url)

         anchor_img=respon_tem.read()

         with open('../photos/'+name+'.jpg','wb') as f:

             f.write(anchor_img)

然后就等着吧~~

最好设置一下时间，每隔多久爬一次，或者每隔多久更换一次ip。就行了

用python爬取app照片的更多相关文章

教你用python爬取抖音app视频
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例. 编程工具:pycharm app抓包工具:mitmproxy app自动化工具:appium 运行环境:windows10 思 ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
python 虾米停服了...用python爬取虾米最近播放的1000首歌
1. 虾米关服在这里插入图片描述用了5年多的音乐软件就这么说关就关了,确实让人心里不好受 ,虽然再去一个新的app里,让它们的算法熟悉你的喜好也不是很困难,可我还是习惯虾米的界面.虾米现在可以支持 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

随机推荐

浅析Java源码之LinkedList
可以骂人吗???辛辛苦苦写了2个多小时搞到凌晨2点,点击保存草稿退回到了登录页面???登录成功草稿没了???喵喵喵???智障!!气! 很厉害,隔了30分钟,我的登录又失效了,草稿再次回滚,不客气了,* ...
剑指offer--面试题3
一题目: 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.完成一个函数,输入这样的数组和一整数,判断这个数组是否包含这个整数. 二分析如果这个二维数组是 ...
[DeeplearningAI笔记]ML strategy_2_3迁移学习/多任务学习
机器学习策略-多任务学习 Learninig from multiple tasks 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.7 迁移学习 Transfer Learninig 神 ...
SSH框架整合--applicationContext.xml文件配置实例
<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.spr ...
Android 开发笔记___图像视图
<?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android=&quo ...
Ajax 跨域异步 CORS
HTTP access control (CORS) 核心在于使用定制(添加新的header)HTTP header让浏览器和服务器有更多的相互了解,从而决定一个请求或者响应成功还是失败对于一个 ...
replace 使用函数作为第二参数
var sToChange = “The sky is red.”;var reRed = /red/;var sResultText = sToChange.replace(reRed, funct ...
算法:javascript截取字符串
题目: Given a string, find the length of the longest substring without repeating characters. Examples: ...
phpstorm2016.3+xdebug调试
1.首先打开PHP配置文件,php.in修改相关xedebug配置 ; XDEBUG Extension [xdebug] zend_extension ="d:/wamp64/bin/ph ...
Java动手动脑——多态和继承
Java动手动脑——继承和多态实验一预估输出答案:100 200 201 202 输出结果:100 200 201 202 输出答案分析:100 创建parent类的对象,调用对象的方 ...

用python爬取app照片

首先下载一个斗鱼（不下载也可以，url都在这了对吧）

用python爬取app照片的更多相关文章

随机推荐

热门专题