零、写在前面

本文涉及的反爬技术，仅供个人技术学习，禁止并做到：

干扰被访问网站的正常运行
抓取受到法律保护的特定类型的数据或信息
搜集到的数据禁止传播、交给第三方使用、或者牟利
如有可能，在爬到数据后24小时候内删除

具体可参考 2019年5月28号颁布的《数据安全管理办法（征求意见稿）》

一、背景

今天在爬另一家网站数据时，想直接从 ajax 接口入手，但是发现这些 request 加了额外参数来防止爬取，即在 request header 里，有一对随机的 key-value 参数：形如 e931588bc0dfbc5e6323 : c43dfe7cdc49b6318f43907ad4e7d9b69a23719d2e3b7b59799124408aa11cf383f459a4a558af8c64b289b7d974982aad58db705ac6784460733bd21784bde0，故意让你猜不到。

但是操作了一会，我总结了如下规律：

1、每个不同的接口 url，对应不同的 key ，但这个 key 刷新页面是不会变得。（看来 key 跟 url 有关）

2、每个 key 对应的 value 一直在变。（事后才知道 value 是根据 url 和 post body 共同决定的）

二、破解

于是通过网站被混淆过的 js ，耐心的打断点分析。

过程略。

三、结果

最后发现：

key 和 value 都是通过 HMAC（Keyed-Hashing for Message Authentication） 算法得来的。

1、HMAC 算法

HMAC 其实就等于我们平常用的 MD5 / SHA-1 去加 salt 的操作。而采用 HMAC 的好处就是，替代我们自己的 salt 算法，使得程序算法更标准化，也更安全。

HMAC 可选择搭配 MD5 / SHA-1 或等等。这里用的是 SHA512。

>>> import hmac

>>> key = b'secret'

>>> message = b'Hello, world!'

>>> h = hmac.new(key, message, digestmod='MD5')

>>> h.hexdigest()

'fa4ee7d173f2d97ee79022d1a7355bcf'

注意：传入的 key 和 message 都是bytes类型，所以str类型需要首先被编码为bytes。

2、最终代码

注意：敏感信息被隐藏处理。

import hashlib

import hmac

import requests

import json

host = 'http://example.com'

# request's param - 变化值

uri = '/api/search/example'

data = {

    "cityName": "上海",

    "cityCode": "31",

    # 等等

}

# hmac's secret - 固定值

secret = b'abcdefg'

# calculate key

sign_key = hmac.new(secret, uri.lower().encode(), hashlib.sha512).hexdigest()

header_key = sign_key[10:30]  

# calculate value

sign_value = (uri.lower()+uri.lower() +

              json.dumps(data, separators=(',', ':'), ensure_ascii=False)).lower()

header_value = hmac.new(secret, sign_value.encode(),

                        hashlib.sha512).hexdigest()

# print result

print(header_key, header_value)

然后我们把算出来的 key 和 value 塞入到每一次请求的 header 里，即可成功调用。

3、坑

上面代码在算 value 的时候，用了 json.dumps()，把中文 上海 转为了 "\u4e0a\u6d77"，而不是上海，导致接口一直报错。

解决办法：json.dumps 多传一个参数 ensure_ascii=False。

破解另一家网站的反爬机制 & HMAC 算法的更多相关文章

python爬虫破解带有RSA.js的RSA加密数据的反爬机制
前言同上一篇的aes加密一样,也是偶然发现这个rsa加密的,目标网站我就不说了,保密. 当我发现这个网站是ajax加载时: 我已经习以为常,正在进行爬取时,发现返回为空,我开始用findler抓包, ...
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题一丶爬虫概述通过编写程序'模拟浏览器'上网,然后通 ...
第三百四十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制
第三百四十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用.自动限速.自定义spider的settings,对抗反爬机制 cookie禁用就是在Scrapy的配置文件set ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析输入" ...
用Nginx分流绕开Github反爬机制
用Nginx分流绕开Github反爬机制 0x00 前言如果哪天有hacker进入到了公司内网为所欲为,你一定激动地以为这是一次蓄谋已久的APT,事实上,还有可能只是某位粗线条的员工把VPN信息泄露 ...
selenium反爬机制
使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案,它通吃各种数据加载方式,能够绕过客户JS加密,绕过爬虫检测,绕过签名机制.它的应用,使得许多网站的反采集策略形同虚设.由于se ...
python爬虫破解带有CryptoJS的aes加密的反爬机制
发现问题在一次偶然中,在爬取某个公开网站(非商业型网站)时,老方法,打开调试工具查看请求方式,请求拦截,是否是异步加载,不亦乐乎,当我以为这个网站非常简单的时候,发现二级网页的地址和源码不对应 Aj ...
二十八 Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制
cookie禁用就是在Scrapy的配置文件settings.py里禁用掉cookie禁用,可以防止被通过cookie禁用识别到是爬虫,注意,只适用于不需要登录的网页,cookie禁用后是无法登录的 ...

随机推荐

CA-RNN论文读取
***CA-RNN: Using Context-Aligned Recurrent Neural Networks for Modeling Sentence Similarity(CA-RNN:使 ...
《Windows内核安全与驱动开发》 2.3 重要的数据结构
<Windows内核安全与驱动开发>阅读笔记 -- 索引目录 <Windows内核安全与驱动开发> 2.3 重要的数据结构一.驱动对象 Windows内核采用__的编程方式 ...
springmvc运行流程简单解释（源码解析，文末附自己画的流程图）
首先看一下DispatcherServlet结构: 观察HandlerExecutionChain对象的创建与赋值,这个方法用来表示执行这个方法的整条链. 进入getHandler方法: 此时的变量h ...
了解 MongoDB 看这一篇就够了【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...
【重磅资料】ArchSummit全球架构师峰会·2019华为云技术专场资料下载
ArchSummit全球架构师峰会是InfoQ中国团队推出的重点面向高端技术管理者.架构师的技术会议,54%参会者拥有8年以上工作经验.ArchSummit聚焦业界强大的技术成果,秉承"实践 ...
MySQL必知必会(通配符过滤Like，%，_)
SELECT prod_id, prod_name FROM products WHERE prod_name LIKE 'jet%'; #百分号(%)表示任何字符出现任意次数, %不能匹配值为NUL ...
为什么查询出来的数据保存到Arraylist?插入删除数据为啥用LinkedList？
引言:这是我在回答集合体系时,被问到的一个问题,也是因为没有深入学习所以回答的并不是很好,所以这两天看了一下,以下是我的一些回答与学习方法. 学习方法:我们学习,系统性的学习肯定是比零散的学习更有效的 ...
Vue全家桶高仿小米商城
大家好,我是河畔一角,时隔半年再次给大家带来一门重量级的实战课程:<Vue全家桶高仿小米商城>,现在很多公司都在参与到商城的构建体系当中,因此掌握一套商城的标准开发体系非常重要:商城的开始 ...
Python文件头注释的含义,你肯定不懂
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:冰火梦幻本文档描述了Python语言文件头里典型注释的含义. 1. ...
uni-app微信小程序开发之引入腾讯视频小程序播放插件
登录微信小程序管理后台添加腾讯视频播放插件: 正式开始使用腾讯视频小程序插件之前需先在微信公众平台 -> 第三方设置 -> 插件管理处添加插件,如下图所示: 在uni-app中引入插件代码 ...

破解另一家网站的反爬机制 & HMAC 算法