python爬取抖音APP视频教程
本文讲述爬取抖音APP视频数据(本文未完,后面还有很多地方优化总结)
公众号回复:抖音
即可获取源码
1、APP抓包教程,需要用到fiddler
fiddler配置和使用查看>>王者荣耀盒子APP抓包配置方法
2、寻找返回用户aweme_count和uid数据的接口
进入我关注的抖音用户主页,找到用户的抖音号并记录下来,该抖音号为unique_id(unique_id区别于uid)
用户主页有如下数据:如图所示
注:该页面并没有返回我们需要的uid数据,需要通过如下方式搜索,在另外一个页面抓包才能获取
抖音主页点击搜索图标
输入用户主页获取到的unique_id值,并点击搜索
进入该页面,切换到用户栏,该页面会返回我们需要的数据和接口
fiddler抓包,该接口返回我们需要的两个参数,作品数aweme_count和用户uid
上代码,input输入的为用户主页的unique_id,传入下面的方法中
拿到unique_id,我们请求接口,提取我们需要的数据aweme_count和uid,并打印成功,这一步结束
注:本网站为HTTPS加密,需要加verify=False参数,并要加headers
3、接下来寻找视频播放页面接口
手机切换到用户主页,会出现我们需要抓包的接口,因为用户主页有视频,自然接口在这里面
抓包,成功抓到下面图中所示的share_url接口,该接口需要我们传2个参数,就是上一步我们获取到的aweme_count和uid
注:share_url并不是最终我们真正下载视频的接口,需要对share_url返回的数据进一步提取,才能找到真正的视频接口
上代码,但该接口测试一些发现有些不方便用,经查阅网上一些资料,发现需要用到抖音之前的老接口,如代码中所示
这里获取得到的video_urls是一个假的视频接口,需要进一步提取真的视频接口
将video_urls传进下载视频的方法中,中间我调用了get_download_url方法,进一步提取真正的视频接口
提取真正视频接口,通过get请求假接口,在返回的一大坨响应中通过正则匹配提取
这里简单截图了两个视频接口的区别,这幅图是假的视频接口,虽然也有视频,但并不是真正的
下面这个才是我们真正的视频接口,整个页面只有一个视频,直接下载视频数据
至此,抖音爬取告一段落,还遗留两个问题,尚未完全搞出来
1、如何获取所有用户的抖音unique_id,而不必手动每次去查看后输入
2、如何去水印
这两个问题也已经尝试,没有那么容易,有兴趣的同学欢迎测试,有思路欢迎探讨
欢迎添加好友学习探讨,备注(CSDN)
---------------------
作者:python爬虫人工智能大数据
来源:CSDN
原文:https://blog.csdn.net/weixin_41666747/article/details/80501923
版权声明:本文为博主原创文章,转载请附上博文链接!
python爬取抖音APP视频教程的更多相关文章
- 教你用python爬取抖音app视频
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例. 编程工具:pycharm app抓包工具:mitmproxy app自动化工具:appium 运行环境:windows10 思 ...
- from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
- 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)
抖音很火,楼主使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,楼主决定试试水,纯属技术爱好,分享给大家.. 1.楼主首先使用Fiddler4来抓取手机抖音app这 ...
- 一篇文章教会你用Python抓取抖音app热点数据
今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...
- Python爬取抖音视频
最近在研究Python爬虫,顺便爬了一下抖音上的视频,找到了哥们喜欢的小姐姐居多,咱们给他爬下来吧. 最终爬取结果 好了废话补多说了,上代码! #https://www.iesdouyin.com/a ...
- Python爬虫---爬取抖音短视频
目录 前言 抖音爬虫制作 选定网页 分析网页 提取id构造网址 拼接数据包链接 获取视频地址 下载视频 全部代码 实现结果 待解决的问题 前言 最近一直想要写一个抖音爬虫来批量下载抖音的短视频,但是经 ...
- Python爬取抖音高颜值小视频
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 有趣的python PS:如有需要Python学习资料的小伙伴可以加 ...
- appium 爬取抖音
1.MongoDB.py import pymongo from pymongo.collection import Collection client = pymongo.MongoClient(h ...
- python+fiddler 抓取抖音数据包并下载抖音视频
这个我们要下载视频,那么肯定首先去找抖音视频的url地址,那么这个地址肯定在json格式的数据包中,所以我们就去专门查看json格式数据包 这个怎么找我就不用了,直接看结果吧 你找json包,可以选大 ...
随机推荐
- CSS技巧: CSS隐藏文字的方法(CSS text-indent: -9999px;)
建站过过程中朋友喜欢把网站名称用H1表示,但从美观考虑,要用logo图片来代替h1,这时需要隐藏h1内的这段文字,但又不能对搜索引擎不友好,否则就失去了定义h1标签的意义. 在CSS中如何以图代字,找 ...
- CDN原理解析
首先,让我们来看一下传统的Internet网络的基本结构和数据传输情况,如下图所示 根据传统的网络结构,用户的访问流程基本如下: 用户在自己的浏览器中输入要访问的网站的域名 浏览器向本地DNS请求 ...
- linux中创建图片服务器减轻传统服务器的压力
1.1. 传统项目中的图片管理 传统项目中,可以在web项目中添加一个文件夹,来存放上传的图片.例如在工程的根目录WebRoot下创建一个images文件夹.把图片存放在此文件夹中就可以直接使用在 ...
- 分布式锁1 Java常用技术方案【转载】
前言: 由于在平时的工作中,线上服务器是分布式多台部署的,经常会面临解决分布式场景下数据一致性的问题,那么就要利用分布式锁来解决这些问题.所以自己结合实际工作中的一些经验和网上看到的一些资 ...
- google浏览器:Ignored call to 'confirm()'. The document is sandboxed, and the 'allow-modals' keyword is not set
最近做一个功能,测试环境测试没问题,google浏览器测试也没问题,结果上生产发现google浏览器竟然用不了.查看控制台发现控制台报错: Ignored call to 'confirm()'. T ...
- Camera 3D概念
1. integration time即积分时间是以行为单位表示曝光时间(exposure time)的,比如说INT TIM为159,就是指sensor曝光时间为159行,两者所代表的意思是相同的, ...
- 一个ButtonDemo的实现过程。
来自JDK API 1.6.0: Try this: Click the Launch button to run the Button Demo using Java™ Web Start (dow ...
- 华为2013年西安java机试题目:如何过滤掉数组中的非法字符。
这道题目为记忆版本: 题目2描述: 编写一个算法,过滤掉数组中的非法字符,最终只剩下正式字符. 示例:输入数组:“!¥@&HuaWei*&%123” 调用函数后的输出结果,数组:“Hu ...
- try-catch-finally 规则( 异常处理语句的语法规则 )
1) 必须在 try 之后添加 catch 或 finally 块.try 块后可同时接 catch 和 finally 块,但至少有一个块. 2) 必须遵循块顺序:若代码同时使用 catch 和 ...
- WordCount优化-第四周小组作业
一.基本功能 GITHUB项目地址:https://github.com/LongtermPartner/ExtendWordCount PSP表格填写: PSP2.1 PSP阶段 预估耗时 (分钟) ...