1.统计机器翻译三要素 1.翻译模型 2.语言模型 3.排序模型 2.翻译流程 1.双语数据预处理 2.词对齐 3.构造短语翻译表 4.对短语翻译表进行概率估计 5.解码,beam search 6.评估…
本文是在Niutrans论坛中的系列教程中总结出来的. 1.语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字.日期.网址等,进行泛化处理.可以用正则方法或者其它方法.注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来. 其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式比较多变.从文本中抽取出来中文日期时间(或者更进一步的转化成标准的时间格式),有一个办法,就是用trie树进行抽取,相较于写一大堆翻乱的正则表达…
案例一:在某随机序例中,找到出现频度最高的3个元素,它们出现的次数是多少? from random import randint # 利用列表解析器生成随机序列,包含有30个元素 data = [randint(0, 20) for _ in range(30)] # 以data中的元素作为字典的键,以0作为值创建一个字典 my_dict = dict.fromkeys(data,0) # 对序列data进行迭代循环 for x in data: my_dict[x] += 1 # 对迭代的每个…
论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述 背景及问题 背景: 翻译: 翻译模型学习条件分布后,给定一个源句,通过搜索最大条件概率的句子,可以生成相应的翻译. 神经网络翻译:两个组件:第一个:合成一个源句子x:第二个:解码一个目标句子y. 问题:固定长度向量是编码器 - 解码器架构性能提升的瓶颈. 本文主要思想 本文提出:允许模型自动(软)搜索与预测目标单词相关的源句 --- 扩展的编码器…
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科.此领域探讨如何处理及运用自然语言.自然语言处理研究的内容包括但不限于如下分支领域:文本分类.信息抽取.自动摘要.智能问答.话题推荐.机器翻译.主题词识别.知识库构建.深度文本表示.命名实体识别.文本生成.文本分析(词法.句法.语法).语音识别与合成等.以下自然语言处理书籍由数…
如何运行Moses 1. Moses的历史 Moses是Pharaoh的升级版本,增加了许多功能.它是一个基于短语的统计机器翻译系统,整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Linux平台和Windows平台.它有两大特点: 1.1 Factored Translation Model 在Factored Translation Model中,一个单词不仅仅是一个符号(token),而是一个包含多个因子的向量,例如表面词形.词干.词性等.这些因子共同作用来刻画一个单词.…
自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正.内容来源主要参考黄志洪老师的自然语言处理课程.主要参考书为宗成庆老师的<统计自然语言处理>,虽然很多内容写的不清楚,但好像中文NLP书籍就这一本全一些,如果想看好的英文资料,可以到我的GitHub上下载:  http://github.com/lovesoft5/ml  下面直接开始正文: 一.自然语言处理概述           …
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-detail/242 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 本系列为斯坦福CS224n<自然语言处理与深度学习(Natural Language Processing with Deep Learning)>的全套学习笔记,对应的课程视频可以在 这里 查看…
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展.最近几年相关的论文,开源系统也是层出不穷.本文主要梳理了神经机器翻译入门.进阶所需要阅读的资料和论文,并提供了相关链接以及简单的介绍,以及总结了相关的开源系统和业界大牛,以便其他的小伙伴可以更快的了解神经机器翻译这一领域. 随着知识的逐步积累,本文后续会持续更新.请关注. 2 入门…
本文开始要写作的时候,翻译圈里出了一个“爆炸性”的事件.6月27日下午,一个同传译员在朋友圈里爆料:某AI公司请这位译员去“扮演”机器同传,制造人工智能取代人工同传的“震撼”效果. 这个事件瞬间在译员群体的朋友圈.微博.微信群引爆了隐忍已久的火药桶.因为过去几个月来,隔三差五就冒出一个号称要取代同声传译的翻译机,尤其是一篇题为<刚刚宣告:同声传译即将消亡!>的微信文章,在六月下旬铺天盖地的充满了一堆有关的或者无关的公众号,不知道带来了几个10万+.几乎每个翻译行业的从业者,都收到了朋友略带同情…