出国旅游措辞不通?翻译机随身带,沟通无障碍!

人工智能科普|机械翻译究竟是什么?_机械翻译_措辞 计算机

无论是在网页、APP还是其它带有翻译功能的软硬件,都用到了一项主要的人工智能技能——机器翻译。

本日就来为大家先容一下机器翻译的基本知识点。
干货满满,不要错过哦!

机器翻译的一样平常流程

机器翻译实在是利用打算机把一种自然措辞翻译成另一种自然措辞的过程,基本流程大概分为三块:预处理、核心翻译、后处理。

预处理是对措辞笔墨进行规整,把过长的句子通过标点符号分成几个短句子,过滤一些语气词和与意思无关的笔墨,将一些数字和表达不规范的地方,归整成符合规范的句子。

核心翻译模块是将输入的字符单元、序列翻译成目标措辞序列的过程,这是机器翻译中最关键最核心的地方。

后处理模块是将翻译结果进行大小写的转化、建模单元进行拼接,分外符号进行处理,使得翻译结果更加符合人们的阅读习气。

机器翻译的技能事理

在讲机器翻译的技能事理之前,我们先来看一张机器翻译技能发展历史图:

20世纪80年代基于规则的机器翻译开始走向运用,这是第一代机器翻译技能。
随着机器翻译的运用领域越来越繁芜,基于规则的机器翻译的局限性开始显现,运用处景越多,须要的规则也越来越多,规则之间的冲突也逐渐涌现。

于是很多科研学家开始思考,是否能让机器自动从数据库里学习相应的规则,1993年IBM提出基于词的统计翻译模型标志着第二代机器翻译技能的兴起。

2014年谷歌和蒙特利尔大学提出的第三代机器翻译技能,也便是基于端到真个神经机器翻译,标志着第三代机器翻译技能的到来。

看完了机器翻译技能的迭代发展,我们来理解下三代机器翻译的核心技能:规则机器翻译、统计机器翻译、神经机器翻译。

规则机器翻译

基于规则的机器翻译大概有三种技能路线,第一种是直接翻译的方法,对源措辞做完分词之后,将源措辞的每个词翻译成目标措辞的干系词语,然后拼接起来得出翻译结果。

由于源措辞和目标措辞并不在同一体系下,句法顺序有很大程度上的出入,直接拼接起来的翻译结果,效果每每并不理想。

于是科研职员提出了第二个规则机器翻译的方法,引用措辞学的干系知识,对源措辞的句子进行句法的剖析,由于运用了干系句法措辞学的知识,因此构建出来的目标译文是比较准确的。

但这里依然存在着其余一个问题,只有当措辞的规则性比较强,机器能够做法剖析的时候,这套方法才比较有效。

因此在此根本之上,还有科研职员提出,能否借助于人的大脑翻译来实现基于规则的机器翻译?

这里面涉及到中间措辞,首先将源措辞用中间措辞进行描述,然后借助于中间措辞翻译成我们的目标措辞。

但由于措辞的繁芜性,实在很难借助于一个中间措辞来实现源措辞和目标措辞的精确描述。

讲完了基于规则的机器翻译的三种技能路线,我们用一张图来总结下它的优缺陷:

统计机器翻译

机器翻译的第二代技能路线,是基于统计的机器翻译,其核心在于设计概率模型对翻译过程建模。

比如我们用x来表示原句子,用y来表示目标措辞的句子,任务便是找到一个翻译模型

θ 。

最早运用于统计翻译的模型是信源信道模型,在这个模型下假设我们看到的源措辞文本 x是由一段目标措辞文本 y 经由某种奇怪的编码得到的,那么翻译的目标便是要将 y 还原成 x,这也便是一个解码的过程。

以是我们的翻译目标函数可以设计成最大化Pr( │ ),通过贝叶斯公式,我们可以把Pr( │ )分成两项,Pr( ) 的措辞模型,Pr⁡( | )的翻译模型

如果将这个目标函数两边同取log,我们就可以得到对数线性模型,这也是我们在工程中实际采取的模型。

对数线性模型不仅包括了翻译模型、措辞模型,还包括了调序模型,扭曲模型和词数惩罚模型,通过这些模型共同约束来实现源措辞到目标措辞的翻译。

讲完了统计机器翻译的干系知识,我们来看下基于短语的统计翻译模型的三个基本步骤:

1、源短语切分:把源措辞句子切分成多少短语

2、源短语翻译:翻译每一个源短语

3、目标短语调序:按某顺序把目标短语组合成句子

末了,我们依旧用一张图来总结下基于统计机器翻译的优缺陷:

神经机器翻译

讲完了基于规则的机器翻译和基于统计的机器翻译,接下来我们来看下基于端到真个神经机器翻译。

神经机器翻译基本的建模框架是端到端序列天生模型,是将输入序列变换到输出序列的一种框架和方法。

其核心部分有两点,一是如何表征输入序列(编码),二是如何得到输出序列(解码)。

对付机器翻译而言不仅包括了编码和解码两个部分,还引入了额外的机制——把稳力机制,来帮助我们进行调序。

下面我们用一张示意图来看一下,基于RNN的神经机器翻译的流程:

首先我们通过分词得到输入源措辞词序列,接下来每个词都用一个词向量进行表示,得到相应的词向量序列,然后用前向的RNN神经网络得到它的正向编码表示。

再用一个反向的RNN,得到它的反向编码表示,末了将正向和反向的编码表示进行拼接,然后用把稳力机制来预测哪个时候须要翻译哪个词,通过不断地预测和翻译,就可以得到目标措辞的译文。