js反爬学习（一）谷歌镜像

1. url：https://ac.scmor.com/

2. target：如下链接

3. 过程分析：

3.1 打开chrome调试，进行元素分析。随便定位一个“现在访问”

3.2 链接不是直接挂在源码里，而是调用一个名为“visit”的js函数。下一步去找这个函数。

3.3 对资源全局搜索，找到visit函数：

3.4 看到它还调用了一个strdecode函数，再去找：

3.5 看到它还调用了一个base64decode函数，接着找：

上面的变量也是需要的。

3.6 接下来，把所有用到的js代码放到一个js文件中去，稍微重构一下js代码。

js代码如下：

//var url = strdecode(url);

var Gword = "author: link@scmor.com.";

var hn = 'ac.scmor.com'

function strdecode(string) {

    string = base64decode(string);

    key = Gword + hn;

    len = key.length;

    code = '';

    for (i = 0; i < string.length; i++) {

        var k = i % len;

        code += String.fromCharCode(string.charCodeAt(i) ^ key.charCodeAt(k));

    }

    return base64decode(code);

}

function base64decode(str) {

    var c1, c2, c3, c4;

    var i, len, out;

    len = str.length;

    i = 0;

    out = "";

    while (i < len) {

        do {

            c1 = base64DecodeChars[str.charCodeAt(i++) & 0xff];

        } while (i < len && c1 == -1);if (c1 == -1)

            break;

        do {

            c2 = base64DecodeChars[str.charCodeAt(i++) & 0xff];

        } while (i < len && c2 == -1);if (c2 == -1)

            break;

        out += String.fromCharCode((c1 << 2) | ((c2 & 0x30) >> 4));

        do {

            c3 = str.charCodeAt(i++) & 0xff;

            if (c3 == 61)

                return out;

            c3 = base64DecodeChars[c3];

        } while (i < len && c3 == -1);if (c3 == -1)

            break;

        out += String.fromCharCode(((c2 & 0XF) << 4) | ((c3 & 0x3C) >> 2));

        do {

            c4 = str.charCodeAt(i++) & 0xff;

            if (c4 == 61)

                return out;

            c4 = base64DecodeChars[c4];

        } while (i < len && c4 == -1);if (c4 == -1)

            break;

        out += String.fromCharCode(((c3 & 0x03) << 6) | c4);

    }

    return out;

}

var base64DecodeChars = new Array(-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,62,-1,-1,-1,63,52,53,54,55,56,57,58,59,60,61,-1,-1,-1,-1,-1,-1,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,-1,-1,-1,-1,-1,-1,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,-1,-1,-1,-1,-1);

其中有两个变量需要在网页源码中去寻找，Gword和hn，找到之后在js代码中定义变量即可，如上。

3.7 下面用execjs执行js，通过js获取“现在访问”的链接。完整代码如下：

import execjs

def getJs():

    jsStr = ''

    with open('jsCode.js', 'r') as f:

        s = f.readline()

        while s:

            jsStr += s

            s = f.readline()

    # print(jsStr)

    return jsStr

if __name__ == '__main__':

    jsStr = getJs()

    ctx = execjs.compile(jsStr)

    visitParam = 'AD0mWAw6dxYgEFdYJEAAGCA2bFcLOngbAmYmFjRdS1ovGFBc'

    url = ctx.call('strdecode', visitParam)

    print(url)

作为一个爬虫工作者，我的js真的是弱爆了。

js反爬学习（一）谷歌镜像的更多相关文章

python爬虫的一个常见简单js反爬
python爬虫的一个常见简单js反爬我们在写爬虫是遇到最多的应该就是js反爬了,今天分享一个比较常见的js反爬,这个我已经在多个网站上见到过了. 我把js反爬分为参数由js加密生成和js生成coo ...
JS反爬绕过思路之--谷歌学术镜像网链接抓取
首先,从问题出发: http://ac.scmor.com/ 在谷歌学术镜像网收集着多个谷歌镜像的链接.我们目标就是要把这些链接拿到手. F12查看源码可以发现,对应的a标签并不是我们想要的链接,而是 ...
记一次svg反爬学习
网址:http://www.porters.vip/confusion/food.html 打开开发者工具后页面源码并不是真实的数字,随便点一个d标签查看其样式我们需要找到两个文件,food.cs ...
js反爬-从入门到精通webdriver
学习JS反爬地址:http://openlaw.cn/login.jsp 想在指导案例中抓些内容,需要登陆账号密码发送会以下面方式发送所以需要找到_csrf和加密后的password,_csrf ...
爬虫入门到放弃系列07：js混淆、eval加密、字体加密三大反爬技术
前言如果再说IP请求次数检测.验证码这种最常见的反爬虫技术,可能大家听得耳朵都出茧子了.当然,也有的同学写了了几天的爬虫,觉得爬虫太简单.没有啥挑战性.所以特地找了三个有一定难度的网站,希望可以有兴 ...
python爬虫破解带有RSA.js的RSA加密数据的反爬机制
前言同上一篇的aes加密一样,也是偶然发现这个rsa加密的,目标网站我就不说了,保密. 当我发现这个网站是ajax加载时: 我已经习以为常,正在进行爬取时,发现返回为空,我开始用findler抓包, ...
通过JS逆向ProtoBuf 反反爬思路分享
前言本文意在记录,在爬虫过程中,我首次遇到Protobuf时的一系列问题和解决问题的思路. 文章编写遵循当时工作的思路,优点:非常详细,缺点:文字冗长,描述不准确 protobuf用在前后端传输,在 ...
我去！爬虫遇到JS逆向AES加密反爬，哭了
今天准备爬取网页时,遇到『JS逆向AES加密』反爬.比如这样的: 在发送请求获取数据时,需要用到参数params和encSecKey,但是这两个参数经过JS逆向AES加密而来. 既然遇到了这个情况,那 ...
python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...

随机推荐

BIOS和CMOS概念整理
一:什么是BIOS BIOS(Basic Input Output System),基本输入输出系统.是被写死在主板ROM只读芯片中的一组程序,在开机的时候首先要去读取的一个小程序. 它是我们可以将 ...
win10在python3.6里安装pycrypto-2.6.1
简单的一步搞定下载pycrypto-2.6.1-cp36-cp36m-win_amd64.whl文件,然后pip install即可链接: https://pan.baidu.com/s/1Awl ...
drf目录
drf目录 1 web接口与restful规范 2 django中的restful规范 3 CBV请求分析 4 请求模块分析 5 响应模块分析 6 异常模块 7 解析模块 8 序列化类 9 视图组件 ...
Spring Security OAuth2 Demo —— 授权码模式
本文可以转载,但请注明出处https://www.cnblogs.com/hellxz/p/oauth2_oauthcode_pattern.html 写在前边在文章OAuth 2.0 概念及授权流 ...
学习AI之NLP后对预训练语言模型——心得体会总结
一.学习NLP背景介绍: 从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...
还在用背单词App？使用Python开发英语单词自测工具，助你逆袭单词王！
学英语广告最近也许是刚开学的原因,不管是公众号,还是刷抖音,导出都能看到关于学英语.背单词的广告. 不知道现在学生们背单词买的什么辅导材料.反正我们上学那会,<星火阅读>特别的火.记得当 ...
模板引擎Thymeleaf
1.Thymeleaf简介 Thymeleaf 是一个跟 Velocity.FreeMarker 类似的模板引擎,它可以完全替代 JSP .相较与其他的模板引擎,它有如下三个极吸引人的特点 Thyme ...
从零开始openGL——三、模型加载及鼠标交互实现
前言在上篇文章中,介绍了基本图形的绘制.这篇博客中将介绍模型的加载.绘制以及鼠标交互的实现. 模型加载模型存储要实现模型的读取.绘制,我们首先需要知道模型是如何存储在文件中的. 通常模型是由网格 ...
Spring Boot 外部化配置（一）- Environment、ConfigFileApplicationListener
目录前言 1.起源 2.外部化配置的资源类型 3.外部化配置的核心 3.1 Environment 3.1.1.ConfigFileApplicationListener 3.1.2.关联 Spri ...
Orleans 序列化遇到的坑
真的是巨坑搞明白问题的我简直无法用言语来描述我的心情先上架构图理想中的架构服务随便上网关只负责分发然后跟随官方教程写遇到了序列化问题以前有经验,不慌,以前稀里糊涂就搞定了. 再然后遇到一 ...

js反爬学习（一）谷歌镜像

js反爬学习（一）谷歌镜像的更多相关文章

随机推荐

热门专题