PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台

说明

文章首发于HURUWO的博客小站,本平台做同步备份发布。

如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览。

原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)直接点击即可前往访问。

整个系列文章链接

PYTHON爬虫实战:垃圾佬闲鱼爬虫、转转爬虫数据整合自用二手急速响应捡垃圾平台(附源码持续更新)-1

PYTHON爬虫实战:垃圾佬闲鱼爬虫、转转爬虫数据整合自用二手急速响应捡垃圾平台(附源码持续更新)-2

PYTHON爬虫实战:垃圾佬闲鱼爬虫、转转爬虫数据整合自用二手急速响应捡垃圾平台(附源码持续更新)-3

前言

本章内容

本章讲解关于fidder数据包转发的问题，也就是拦截了数据之后如何将想要的数据推到指定的数据库做处理。

FidderScript的说明和使用

FidderScript是什么

FidderScript是Fidder针对数据包的请求回复修改的脚本语言。通过使用FidderScript编写脚本插入可以完成自动化的请求修改转发回复修改操作。可以说功能非常强大，喜欢数据采集的人必学。

FidderScript的语法

官方文档: http://fiddler2.com/r/?fiddlerscriptcookbook

其实不用去看官方文档左边的classview 已经包含了所有的api文档看看就行

下面说几个常用的类方法:

1.Session 所有请求信息/回复信息的保存处包括request response都可以做修改。比较核心的一个类方法对象。

2.HTTPRequestHeaders 和 HTTPResponseHeaders headers 的映射类在Session 提取出来可以做修改变化。

3.关于Fidder 软件本身的一些FidderApplication类方法比如修改UI的按钮等，甚至可以定制化出来一个自动化工具。这个就不细说了，看看就知道了。

个人感觉这个语言非常类似于java，有对象有类。学习起来并不要多少成本。但是他的功能确实非常强大。

FidderScript一个简单的例子

体验一下一个脚本的完整开发过程。

进入脚本编辑器

两种办法：

方法1.

点击进入FidderScript

展开类图:点击ClassView

如果做了修改点击:Save Script 保存脚本

应用脚本

方法2.

Click Rules > Customize Rules

Rules....Enter FiddlerScript code inside the appropriate function.

Save the file.

推荐第二种方式进入脚本编辑器

修改一下request url

跳转到指定的代码块和方法体点击goto 下拉框里选择点击

进入OnBeforeRequest



        static function OnBeforeRequest(oSession: Session) {

       ......

       ......

       ......

    }

所有的 request信息包含在oSession里面

比如我们做一个知乎转到百度的重定向

if(oSession.fullUrl.Equals("https://www.zhihu.com/"))

{

oSession.fullUrl = "https://www.baidu.com/";

}

保存运行一下:

神奇的从知乎跳转到了百度了

整个过程非常轻松。

FidderScript 转存闲鱼数据

数据转存的数据存储问题

1.存在本地还是存在云端

2.是否需要搭建一个后端系统处理数据

3.数据如何显示到页面

解决方案

存在云端本地都行，但是搭建一个后台系统非常有必要。

提供一个数据提交的接口做数据提供和数据处理的分离方案。

显示和处理在后台系统(web系统里即可) 处理出来的数据。关于后台系统的搭建后面的文章会介绍，这里假设已经搭建成功。

后台数据接收系统

数据提交接口假设为: http://127.0.0.1:8000/xianyu/

数据提交方式为 POST 数据直接提交原始数据即可，尽量把逻辑处理放在后台

先开启服务:

编写转发脚本

因为闲鱼的测试机子不在身边暂时先用转发抖音的数据为例子

打开抖音抓取一下橱窗的商品列表链接

https://api5-normal-c-lf.amemv.com/aweme/v1/promotion/user/promotion/list/?user_id=54512396382&sec_user_id=MS4wLjABAAAAa54-WneSWxYZ24J_00iS-9SwMQkrM3fOYK_sXDYG-lg&cursor=0&count=20&column_id=0&goods_type=0&shop_version=1&storage_type=0&manifest_version_code=110601&_rticket=1611199065509&app_type=normal&iid=17186708527928&channel=meizu&device_type=M1852&language=zh&cpu_support64=true&host_abi=armeabi-v7a&uuid=86908603665928&resolution=1080*2124&openudid=9c8e3e9910b351a8&update_version_code=11609900&cdid=a5182ee3-c5b7-44b9-830f-71ca10dd4b60&os_api=27&mac_address=D8%3A6C%3A02%3AC9%3AB5%3A58&dpi=480&ac=wifi&device_id=70532699303&mcc_mnc=46001&os_version=8.1.0&version_code=110600&app_name=aweme&version_name=11.6.0&device_brand=Meizu&ssmix=a&device_platform=android&aid=1128&ts=1611199065

脚本转发数据包核心代码:

static function OnBeforeResponse(oSession: Session) {

        if (m_Hide304s && oSession.responseCode == 304) {

            oSession["ui-hide"] = "true";

        }

        if (oSession.fullUrl.Contains("/promotion/user/promotion/list/"))

        {

            oSession.utilDecodeResponse();//消除保存的请求可能存在乱码的情况

            //把内容通过ajax http发送其它地方

            var _xhr = new ActiveXObject('Microsoft.XMLHTTP');

            var url = 'http://127.0.0.1:8000/xianyu';

            //发送的数据参数

            var param = oSession.GetResponseBodyAsString()

            //不需要返回值所以写啦个空回调

            _xhr.onreadystatechange = function() {}

            _xhr.open('POST', url, true);

            _xhr.setRequestHeader("Content-Type", "application/json");

            _xhr.setRequestHeader("X-Requested-With", "XMLHttpRequest");

            _xhr.send(param);

        }

    }

测试数据接收

点击手机打开橱窗

api服务器成功获得数据

总结

最后说明一下

autoResponder仅仅只是替换返回包功能没有修改和保存数据包的功能，以开始我跑偏了。

FidderScript则是一个强大的工具只有掌握了FidderScript 才能算是真正的掌握了整个Fidder这个软件。

参考文章资料说明

Fiddler4.6.20 使用script保存请求或响应数据到本地或post到其它地方保存

本项目源码已经上传:https://github.com/HuRuWo/PickUpTrash