破解google翻译API全过程

　　转载请注明出处：http://www.cnblogs.com/by-dream/p/6554340.html

前言

　　google的翻译不得不承认它是比较好的。但是google翻译对外提供的翻译接口都是收钱的，做为一名普普通通的开发者，囊中羞涩，因此就需要借助技术的力量来完成免费的翻译接口的调用。

git

　　首先在github上我们找到了这篇链接 https://github.com/ssut/py-googletrans

　　看介绍免费、无限制，这刚好适合我们来用。于是按照它的操作步骤我们来试试：

　　由于它是python的，因此第一步是去下载它的python库，由于我没有配置python pip的环境变量，因此我手动进入这个目录下：

　　然后运行 pip install googletrans 这个命令，去下载提供的这个库。

　　这个时候出错，提示我们没有requests库，因此我们还需要在安装requests库。果然文档里也有些

　　因此我们就安装把

　　安装完后再安装googletrans 就可以了：

　　这个时候我们调用它API提供的方法试试，代码如下：

#-*- coding:utf-8 -*-

from googletrans import Translator

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

translator = Translator()

print translator.translate('今天天气不错').text

print translator.translate('今天天气不错', dest='ja').text

print translator.translate('今天天气不错', dest='ko').text

　　这个时候就可以看到输出结果：

the weather is nice today

今日天気がいいです

오늘 날씨가 좋은

　　一个简单的翻译demo就实现了。是不是非常的简单

　　然而，这个库并不是google官方提供的，并且有的时候这个库也是不稳定的，因为我决定自己去趟一下这趟浑水。

Google

　　第一步当然是抓取它的请求，看看它是怎么请求的。按下F12进入浏览器调试模式，眼睛盯紧network：

　　接着我们输入一句话，看看它会产生什么消息包。

　　居然有这么多的消息包，我们一个一个找，直到找到Response中有翻译内容的。这个时候我们去看一下它的header：

　　可以看到是get方式，于是我们可以浏览器里直接去请求这个url。

　　果然我们的得到了一个文件，这个时候打开文件，文件里就是请求回来的翻译结果：

　　这时候我们去分析一下请求的参数，看看我们是否可以构造，可以看到原来要翻译的文本，就是跟着q这个参数出去的：

　　只不过在请求的时候，文字被encode成了%**%**，这时候我们试着换一个文字去请求，结果发现返回：

　　仔细上网查过之后，每次翻译的文字不同，参数中的tk值就会不同，ticket这种策略就是google用来防爬虫的。

　　tk和文字以及TKK有关，TKK也是实时变化的，具体怎么拿到是在 translate.google.cn 这个网页源代码中有一段js代码：

　　我们直接运行这段js，会得到一个值，这个值就是 TKK值：

　　那么如何根据TKK和文本算出tk值呢，网上有大神已经实现了js的代码，直接拿过来用了：

var b = function (a, b) {

    for (var d = 0; d < b.length - 2; d += 3) {

        var c = b.charAt(d + 2),

            c = "a" <= c ? c.charCodeAt(0) - 87 : Number(c),

            c = "+" == b.charAt(d + 1) ? a >>> c : a << c;

        a = "+" == b.charAt(d) ? a + c & 4294967295 : a ^ c

    }

    return a

}

var tk =  function (a,TKK) {

    for (var e = TKK.split("."), h = Number(e[0]) || 0, g = [], d = 0, f = 0; f < a.length; f++) {

        var c = a.charCodeAt(f);

        128 > c ? g[d++] = c : (2048 > c ? g[d++] = c >> 6 | 192 : (55296 == (c & 64512) && f + 1 < a.length && 56320 == (a.charCodeAt(f + 1) & 64512) ? (c = 65536 + ((c & 1023) << 10) + (a.charCodeAt(++f) & 1023), g[d++] = c >> 18 | 240, g[d++] = c >> 12 & 63 | 128) : g[d++] = c >> 12 | 224, g[d++] = c >> 6 & 63 | 128), g[d++] = c & 63 | 128)

    }

    a = h;

    for (d = 0; d < g.length; d++) a += g[d], a = b(a, "+-a^+6");

    a = b(a, "+-3^+b+-f");

    a ^= Number(e[1]) || 0;

    0 > a && (a = (a & 2147483647) + 2147483648);

    a %= 1E6;

    return a.toString() + "." + (a ^ h)

}

　　这段代码只需要直接调用 tk这个函数就可以得到tk值，得到tk值之后，我们就可以拼接出url来进行请求了。

Demo

　　这里我用Python和node一起完成了一个小的demo，大家可以下载我的代码。我简单介绍一下脚本的原理。

　　首先入口是用node完成的：

// 导入translate

var trans= require('./translate.js');

// 调用翻译结果

trans.gettrans('你好')

　　直接调用了 translate.js，我们看看这个文件：

// 得到TKK

var exec = require('child_process').exec;

var cmdStr = 'getTKK.py';

exec(cmdStr, function(err,stdout,stderr){

    if(err) {

        console.log('get TKK is error' + stderr);

    } else {

        //console.log(stdout);

    }

}); 

// 读取TKK

var rf=require("fs");

var tkk=rf.readFileSync("TKK","utf-8");

//console.log(tkk);

var gettrans=function(text){

    var gettk= require('./gettk.js')

    res=gettk.tk(text, tkk.toString())

    //console.log(res)

    var testenc = encodeURI(text)

    //console.log(encodeURI(text))

    var exec2 = require('child_process').exec;

    var cmdStr2 = 'http.py '+testenc+' '+res+' ';

    //console.log('http.py '+testenc+' '+res)

    exec2(cmdStr2, function(err,stdout,stderr){

        if(err) {

            //console.log('http is error' + stderr);

        } else {

            // 最终的结果

            console.log(stdout);

        }

    });

}

module.exports.gettrans=gettrans;

translate.js

　　translate.js 当中融合了比较多的内容，首先是调用Python的getTKK.py。

#-*- coding:utf-8 -*-

import os

# 爬取网页拿到TKK的js代码

os.system('getTKKjs.py > getTKK.js')  

# 执行TKKjs代码拿到TKK值

os.system('node getTKK.js > TKK')

　　我们可以看到原理很简单，先调用 getTKKjs.py 利用爬虫先将刚才我们分析的那段网页代码给爬取下来，然后生成js文件，接着调用这个js文件，将结果写入到本地一个文件TKK当中。紧接着translate.js读取了TKK值之后，调用我们前面提到的那段node的接口，就可以得到tk值了，这个时候再调用http.py送给Python进行请求，将结果回传给node。

#-*- coding:utf-8 -*-

import urllib2

from bs4 import BeautifulSoup

# 要爬取的总url

weburl='http://translate.google.cn/'

class Climbing():

    # 设置代理开关

    enable_proxy = False

    # 总url

    url = ''

    # 初始化

    def __init__(self, url):

        self.url = url

        proxy_handler = urllib2.ProxyHandler({"http" : 'web-proxy.oa.com:8080'})

        null_proxy_handler = urllib2.ProxyHandler({})

        if self.enable_proxy:

            opener = urllib2.build_opener(proxy_handler)

        else:

            opener = urllib2.build_opener(null_proxy_handler)

        urllib2.install_opener(opener)

    # 根据url，得到请求返回内容的soup对象

    def __getResponseSoup(self, url):

        request = urllib2.Request(url)

        request.add_header('User-Agent', "Mozilla/5.0")

        #request.add_header('Accept-Language', 'zh-ch,zh;q=0.5')

        response = urllib2.urlopen(request)

        resault = response.read()

        soup = BeautifulSoup(resault, "html.parser")

        return soup

    # 爬取TKK

    def getTKK(self):

        soup = self.__getResponseSoup(self.url)

        allinfo = soup.find_all('script')

        for info in allinfo:

            chinese = info.get_text().encode('utf-8')

            #print chinese

            if chinese.find("TKK") > 0:

                #print chinese

                res = chinese.split("TKK")[1]

                res = res.split(");")[0]

                print "TKK"+res+");"

                print "console.log(TKK);"

c = Climbing(weburl)

c.getTKK()

getTKKjs.py

#-*- coding:utf-8 -*-

import time

import urllib2

import urllib

from sys import argv

script,zh,tk = argv

url='http://translate.google.cn/translate_a/single?client=t&sl=zh-CN&tl=en&hl=zh-CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss&dt=t&ie=UTF-8&oe=UTF-8&pc=1&otf=1&ssel=6&tsel=3&kc=0&tk='+ tk +'&q=' + zh

def getRes():

    #print 'chinese is :'+urllib.unquote(first)

    null_proxy_handler = urllib2.ProxyHandler({})

    opener = urllib2.build_opener(null_proxy_handler)

    urllib2.install_opener(opener)

    req = urllib2.Request(url)

    req.add_header('User-Agent', "Mozilla/5.0")

    response = urllib2.urlopen(req)

    print response.read()

print getRes()

http.py

破解google翻译API全过程的更多相关文章

Java 破解谷歌翻译api，可以实现程序自动化翻译文章
1 原理:查看谷歌翻译网站,输入需要翻译的文字,选择语言得到翻译后的文字,发送异步请求参数返回结果.java使用httpclient发送请求,实现使用代码翻译文章的功能. 2 下载代码后,测试入口 ...
node.js调用google翻译api
源码下载:https://pan.baidu.com/s/1nxoodst 使用:(只支持get) http://39.106.33.56:3001/translate?text=Failure is ...
使用google 语言 api 来实现整个网站的翻译
---恢复内容开始--- 使用google 语言 api 来实现整个网站的翻译,这时我们可以利用免费的google api来做处理来实现多语言的功能. 放在 HTML 文件中 <div id=& ...
在PHP5.4上使用Google翻译的API报错
/********************************************************************** * 在PHP5.4上使用Google翻译的API报错 * ...
C#实现谷歌翻译API
由于谷歌翻译官方API是付费版本,本着免费和开源的精神,分享一下用C#实现谷歌翻译API的代码.这个代码非常简单,主要分两块:通过WebRequest的方式请求内容:获取Get方式的请求参数(难点在于 ...
Goslate: Free Google Translate API
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
添加了有道生词本的 chrome google翻译扩展和有道翻译扩展
在chrome发布项目,需要先花美金认证,还得要美国ID,无奈. 直接上源码,需手动导入. 原始项目源码并未开源,个人是从chrome本地文件里拿出来的,拓展来的,侵删(本来想着自已写一个,业余时间, ...
Python 调用百度翻译API
由于实习公司这边做的是日文app,有时要看看用户反馈,对于我这种五十音图都没记住的人,表示百度翻译确实还可以.但不想每次都复制粘贴啊,google被墙也是挺蛋疼的事,所以用python结合baidu ...
Google Chart API 参考中文版
Google Chart API 参考中文版文档信息翻译: Cloudream ,最后修改:02/22/2008 06:11:08 英文版版权归 Google , 转载此中文版必须以链接形式注明 ...

随机推荐

Ubuntu16.04安装印象笔记
Nixnote 是一个 Evernote 开源客户端,原名 Nevernote.Evernote 是一个著名的笔记等个人资料整理和同步软件, 因为 Evernote 没有 Linux 下的官方版本,因 ...
cx_Oracle连接数据库总结
python中连接oracle数据库使用第三方库文件cx_Oracle时遇到了各种问题,网上查找资料调试了几天才弄好,下面是不断调试后总结的一些经验.1.oracle客户端(Oracle Instan ...
【.Net基础二】浅谈引用类型、值类型和装箱、拆箱
目前在看CLR via C#,把总结的记下来,索性就把他写成一个系列吧. 1.[.Net基础一] 类型.对象.线程栈.托管堆运行时的相互关系 2.[.Net基础二]浅谈引用类型.值类型和装箱.拆箱引 ...
C++之图片旋转90，再保存
下面测试代码只需要全部放在一个.cpp文件里就行 //#include "stdafx.h"#include <stdio.h>#include <string& ...
20145307第二次JAVA学习实验报告
20145307<Java程序设计>实验报告二:Java面向对象程序设计实验要求 1.初步掌握单元测试和TDD 2.理解并掌握面向对象三要素:封装.继承.多态 3.初步掌握UML建模 4 ...
Struts2框架学习第一章——Struts2概述
本章要点 — Web应用的发展 — Model 1和Model 2 — MVC思想 — MVC模式的优势 — 常用MVC框架及其特征 — Struts 1的基本结构及其存在的问题 — We ...
使用MessageFormat替换字符中的占位符
使用String.format可以实现字符串的格式化功能,即将后面参数中的值替换掉format中的%s,%d这些值.但MessageFormat更为强大,不用管传入值是字符串还是数字,使用占位符即可. ...
JQuery获取指定元素中的checkbox选中状态的一些属性
项目中用户上传病例数据,每一次上传自动生成一个病例文件夹,数据保存到后台,前端显示文件夹,现在的需求是勾选想要删除的文件夹的chenckbox,点击删除后,数据库和前端都相应的更新. 如果是静态页面, ...
又是新动作！微信小程序专属二维码出炉
又到了晚上,微信又给我们带来了惊喜,并这次不是新的能力,而是把大家再熟悉不过的二维码换了新的造型. 正式揭晓:微信特制的小程序码.扫一扫新二维码只要你的微信升级到了 6.5.7 版本,就可以扫码或者 ...
手机端页面自适应解决方案—rem布局（该方案目前已过时）
转自:https://segmentfault.com/a/1190000004705207 相信很多刚开始写移动端页面的同学都要面对页面自适应的问题,当然解决方案很多,比如:百分比布局,弹性布局fl ...

破解google翻译API全过程

破解google翻译API全过程的更多相关文章

随机推荐

热门专题