最近有个需求,要将几万条数据从日语翻译成中文。因为数据的获取和处理用的是python代码,所以想先尝试翻译部分也用python实现。

目前网上查到的翻译方法有百度、有道以及谷歌翻译,下面会对这三个方法进行简单的测试和分析。如果大家知道有更好的方法(速度快、结果准确),还请分享!

模块导入

 import re
import urllib.parse, urllib.request
import hashlib
import urllib
import random
import json
import time
from translate import Translator

非python自带的库,如python google translator,需要手动安装,命令pip install module_name。

1. 百度翻译

 appid = 'your_appid'
secretKey = 'your_secretKey'
url_baidu = 'http://api.fanyi.baidu.com/api/trans/vip/translate' def translateBaidu(text, f='ja', t='zh'):
salt = random.randint(, )
sign = appid + text + str(salt) + secretKey
sign = hashlib.md5(sign.encode()).hexdigest()
url = url_baidu + '?appid=' + appid + '&q=' + urllib.parse.quote(text) + '&from=' + f + '&to=' + t + \
'&salt=' + str(salt) + '&sign=' + sign
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
data = json.loads(content)
result = str(data['trans_result'][]['dst'])
print(result)

参数:text--待翻文本,f--初始语言,t--目标语言,后面方法类似。

2. 有道翻译

 url_youdao = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=' \
'http://www.youdao.com/'
dict = {}
dict['type'] = 'AUTO'
dict['doctype'] = 'json'
dict['xmlVersion'] = '1.8'
dict['keyfrom'] = 'fanyi.web'
dict['ue'] = 'UTF-8'
dict['action'] = 'FY_BY_CLICKBUTTON'
dict['typoResult'] = 'true' def translateYoudao(text):
global dict
dict['i'] = text
data = urllib.parse.urlencode(dict).encode('utf-8')
response = urllib.request.urlopen(url_youdao, data)
content = response.read().decode('utf-8')
data = json.loads(content)
result = data['translateResult'][][]['tgt']
print(result)

参数主要由字典dict指定,发现没有地方可以指定语言(可能是我没找到),测试结果是不管输入什么语言的文本,输出均是中文。

3. 谷歌翻译

 url_google = 'http://translate.google.cn'
reg_text = re.compile(r'(?<=TRANSLATED_TEXT=).*?;')
user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' \
r'Chrome/44.0.2403.157 Safari/537.36' def translateGoogle(text, f='ja', t='zh-cn'):
values = {'hl': 'zh-cn', 'ie': 'utf-8', 'text': text, 'langpair': '%s|%s' % (f, t)}
value = urllib.parse.urlencode(values)
req = urllib.request.Request(url_google + '?' + value)
req.add_header('User-Agent', user_agent)
response = urllib.request.urlopen(req)
content = response.read().decode('utf-8')
data = reg_text.search(content)
result = data.group().strip(';').strip('\'')
print(result)

和上面两种方法一样,采用的是访问网页的形式来进行翻译。

还有一种是利用python谷歌翻译模块Translator:

 def translateGoogle2(text):
result = translator.translate(text)
print(result)

4. 测试代码

测试过程:

翻译5个字串为一个小的单位,输出消耗时间;

循环10次为一个大的单位,输出消耗时间;

对不同的语言字串和循环次数做过多次测试,发现情况基本类似,所以这里选择了10次。

 text_list = ['こんにちは', 'こんばんは', 'おはようございます', 'お休(やす)みなさい', 'お元気(げんき)ですか']

 time_baidu =
time_youdao =
time_google =
time_google2 = for i in list(range(, )):
time1 = time.time()
for text in text_list:
translateBaidu(text)
time2 = time.time()
print('百度翻译第%s次时间:%s' % (i, time2 - time1))
time_baidu += (time2 - time1) time1 = time.time()
for text in text_list:
translateYoudao(text)
time2 = time.time()
print('有道翻译第%s次时间:%s' % (i, time2 - time1))
time_youdao += (time2 - time1) time1 = time.time()
for text in text_list:
translateGoogle(text)
time2 = time.time()
print('谷歌翻译第%s次时间:%s' % (i, time2 - time1))
time_google += (time2 - time1) time1 = time.time()
for text in text_list:
translateGoogle2(text)
time2 = time.time()
print('谷歌2翻译第%s次时间:%s' % (i, time2 - time1))
time_google2 += (time2 - time1) print('百度翻译时间:%s' % (time_baidu / ))
print('有道翻译时间:%s' % (time_youdao / ))
print('谷歌翻译时间:%s' % (time_google / ))
print('谷歌2翻译时间:%s' % (time_google2 / ))

5. 结果分析

日语字串原意为['你好', '晚上好', '早上好', '晚安', '您还好吧']。

测试代码输出结果:

您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第1次时间:0.5849709510803223
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第1次时间:0.46173906326293945
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第1次时间:3.84399676322937
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第1次时间:6.819758892059326
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第2次时间:0.4968142509460449
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第2次时间:0.3870818614959717
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第2次时间:3.5689375400543213
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第2次时间:6.108794450759888
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第3次时间:0.4832003116607666
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第3次时间:0.40560245513916016
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第3次时间:3.875128984451294
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第3次时间:5.547708034515381
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第4次时间:0.4904344081878662
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第4次时间:0.3860180377960205
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第4次时间:3.5466465950012207
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第4次时间:7.052653551101685
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第5次时间:0.4754292964935303
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第5次时间:0.37929368019104004
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第5次时间:3.503594160079956
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第5次时间:4.944894552230835
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第6次时间:0.4637324810028076
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第6次时间:0.3679838180541992
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第6次时间:3.4939000606536865
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第6次时间:4.786132335662842
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第7次时间:0.4783976078033447
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第7次时间:0.3760185241699219
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第7次时间:3.485666036605835
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第7次时间:6.591272592544556
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第8次时间:0.4756813049316406
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第8次时间:0.4083871841430664
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第8次时间:3.3123676776885986
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第8次时间:5.902927875518799
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第9次时间:0.46607208251953125
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第9次时间:0.5259883403778076
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第9次时间:3.919294834136963
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第9次时间:6.256660223007202
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第10次时间:0.5158905982971191
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第10次时间:0.38652658462524414
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第10次时间:3.3273775577545166
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第10次时间:6.155425071716309
百度翻译时间:0.4930623292922974
有道翻译时间:0.4084639549255371
谷歌翻译时间:3.5876910209655763
谷歌2翻译时间:6.016622757911682

从打印的内容分析,耗时情况为有道<百度<谷歌<谷歌2,准确度情况为百度>有道>谷歌>谷歌2。

速度先不管,对后面两个文本的翻译结果,谷歌的准确度是较低的,网页版的翻译结果为:

其实像有道或百度,5条字串耗时400毫秒左右,对于大量数据是不太可取的。如20万条数据,需要约4.4个小时。

所以,如果你知道python中有更好的翻译方法,欢迎分享。或许,这种大量数据的翻译操作用其他语言实现比较合适?

6. 改进 & 感谢

谷歌翻译,灿烂千阳建议日语->英语->中文的顺序,结果的准确度改进了很多(只是多了一步,速度下降了些);

耗时问题,codegay提出多线程方案,可以将速度提升几倍,取决于线程或服务器的个数;

具体改进的代码就不贴出来了,在原来的基础上做调整即可。

Python有哪些好用的语言翻译方法的更多相关文章

  1. 第九篇:在SOUI中使用多语言翻译

    为UI在不同地区显示不同的语言是产品国际化的一个重要要求. 在SOUI中实现了一套类似QT的多语言翻译机制:布局XML不需要调整,程序代码也不需要调整,只需要为不同地区的用户提供不同的语言翻译文件即可 ...

  2. 1.1 Python是一种什么样的语言

    小时不识月,呼作白玉盘.很多人习惯地说Python不过是一种脚本语言而已,实际上这种说法是非常不准确的,完全不能体现出Python的强大.严格来说,Python是一门跨平台.开源.免费的解释型高级动态 ...

  3. (2)esp8266多国语言翻译系统

    http://bbs.mydigit.cn/simple/?t2649513.html 这个想法不错 原来只是想用esp8266搞一个百度的多国语言翻译系统出来的,只是为了尝试如何调用各种web ap ...

  4. sap scriptfom 多语言翻译

    在某项目中,因为客户上线较早,非常多打印程序的form是由scriptform制做,又因为美国工厂要上线.免不了对scriptform进行多语言翻译.以下是对当中的一个交货单打印进行的多语言翻译,分享 ...

  5. 深度 | AI芯片之智能边缘计算的崛起——实时语言翻译、图像识别、AI视频监控、无人车这些都需要终端具有较强的计算能力,从而AI芯片发展起来是必然,同时5G网络也是必然

    from:https://36kr.com/p/5103044.html 到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务.个人助理将变的更加智能,它是打造这种功能的切入 ...

  6. Java程序员的现代RPC指南(Windows版预编译好的Protoc支持C++,Java,Python三种最常用的语言,Thrift则支持几乎主流的各种语言)

    Java程序员的现代RPC指南 1.前言 1.1 RPC框架简介 最早接触RPC还是初学Java时,直接用Socket API传东西好麻烦.于是发现了JDK直接支持的RMI,然后就用得不亦乐乎,各种大 ...

  7. python是强类型还是弱类型语言

    几句话了解python特性 Python 是强类型的动态脚本语言 好多人对python到底是强语言类型还是弱语言类型存在误解,其实,是否是强类型语言只需要一句话就可以判别, 强类型:不允许不同类型相加 ...

  8. 重大改革!Python,最接近人工智能的语言~将被加入高考科目!

    就在前几天,和一位浙江省高校的信息技术老师聊天,我得到了一个震惊的消息: 明年,浙江省信息技术教材将不会在使用晦涩难懂的VB语言,而是改学更简单易懂的Python语言.也就是说, Python语言将纳 ...

  9. Python 内编写类的各种技巧和方法

    Python 内编写类的各种技巧和方法 简介 有关 Python 内编写类的各种技巧和方法(构建和初始化.重载操作符.类描述.属性访问控制.自定义序列.反射机制.可调用对象.上下文管理.构建描述符对象 ...

随机推荐

  1. 如何在 FineUIMvc 中引用第三方 JavaScript 库

    声明:FineUIMvc(基础版)是免费软件,本系列文章适用于基础版. 引入第三方颜色选择器 在 FineUIMvc 中使用第三方 JavaScript 遵循一定的约定,也非常简单. 下面以官网示例为 ...

  2. Robotframe work学习之初(二)

    一.F5帮助 Robot Framework 并没有像其它框架一样提供一份完整的 API 文档,所以,我们没办法通过官方 API文档进行习.RIDE 提供了 F5 快捷键来打开帮助文档. search ...

  3. phpcms课堂笔记

    获取父分类下面的子分类 {loop subcat(77) $k $v}{php $subcatid[] = $k;}{/loop}<?php $subcatid = implode(',', $ ...

  4. C++ 中关于optional 使用过程中遇到的问题

    头文件:#include <boost/optional.hpp> using namespace boost; optional很像一个仅能存放一个元素的容器,它实现了"未初始 ...

  5. 新手介绍简单一下iOS开发中几种界面传值

    首先在处理iOS-UI中,也许在很多地方需要用到两种甚至多种不同界面之间的传值,相比这也是很多iOS入门成员头疼问题,同样作为新手的我在接触这类传值时候也一脸懵然,经过一段时间的研究,对于简单的传值有 ...

  6. 创建,删除DOM

    需求说明: 1.上传图片,有删除功能,可上传5张,至少上传一张 html代码如下 <div class="imgUpBox"> <div class=" ...

  7. bzoj2125 最短路

    Description 给一个N个点M条边的连通无向图,满足每条边最多属于一个环,有Q组询问,每次询问两点之间的最短路径. Input 输入的第一行包含三个整数,分别表示N和M和Q 下接M行,每行三个 ...

  8. PHP学习笔记-1

    PHP基本语法 php脚本可以放在文档的任意位置: php脚本以<? php开始,以?>结束: php文件通常包括Html标签和一些php脚本代码: 举个栗子: <!DOCTYPE ...

  9. IDEA 安装scala插件

    安装scala插件一般有两种方式,在IDEA里面下载或者手动安装 手动安装 首先是下载需要的插件包,官网下载实在太慢,这里提供我下载好的文件,会按时更新成最新版 https://pan.baidu.c ...

  10. routeProvider路由的使用

    先创建一个主程序文件index.html,内容如下: <!DOCTYPE html> <html ng-app="myApp"> <head> ...