三千年前的古文字被AI破译MIT和谷歌开拓失落传措辞的机械系统_措辞_文字
大数据文摘出品
编译:刘俊寰
1886年,英国考古学家亚瑟·伊万斯有光阴创造了一块刻印着未知措辞的石头。得知这块石头来源于地中海的克里特岛后,伊万斯立马动身前往此处以征采更多证据。在那里,他立时就创造了许多字迹相似的石碑,这些石碑能追溯到公元前1400年旁边,这些刻字也就成为目前创造的最早的书写形式之一。伊万斯表示,这种线形形式是从早期艺术中粗糙的线条画演化而来,在措辞史上霸占主要地位。
伊万斯等人后来证明,石碑上的刻字是两种不同的笔墨系统。稍古老的一种称为A类线形笔墨,可以追溯到公元前1800年至1400年,此时克里特岛还处于青铜时期的米诺文明阶段。韶光上更近一点的笔墨系统称为B类线形笔墨,公元前1400年后才涌现,此时的克里特岛正被希腊大陆的迈锡尼人统治着。
许多年来,伊万斯等人一贯试图翻译这些古老的笔墨,但都无疾而终。
这个问题直到1953年,一个名叫迈克尔·文特里斯的业余措辞学家成功翻译B类线形笔墨之后,才得到办理。
两个假设
文特里斯的成功建立在两个决定性打破上。第一,他假设B类线形笔墨中重复涌现的词语是克里特岛的地名——这在其后被证明是精确的。第二,他假设这些刻字是古希腊语的早期形式——这让他能够立即翻译出B类线形笔墨的其他部分。在翻译过程中,文特里斯表示,古希腊语的书面表达形式比之前预想的还要早几个世纪。
文特里斯的事情成果是一项巨大的造诣。但像A类线形笔墨这样的更为古老的笔墨系统,到本日为止仍旧是措辞学上一个亟需办理的难题。
通过机器学习绘制特定措辞的联结
不难想象,近年来机器翻译的最新进展对此有所帮助。
短短几年内,注释数据库和让机器从中学习的技能让措辞学习发生了革命性变革,这使得机器翻译变得越来越普遍。只管翻译质量有待提高,但这也供应了思考措辞的一个全新角度。
来自麻省理工学院的罗家明(音译)和雷吉纳·巴尔齐莱,以及来自加州山景城谷歌人工智能实验室的曹源(音译),由他们组成的团队研发出了能够翻译失落传措辞的机器学习系统,并且使其翻译B类线形笔墨——第一次完备自动翻译——证明了系统可行性。
他们所利用的方法与标准机器翻译技能有着显著差异。首先须要知道,不管哪种措辞,机器翻译的关键都在于认识到笔墨间联结的相似性。因此全体过程是从绘制特定措辞的联结开始,这须要弘大的文本数据库,机器在这个文本数据库中查验每个字符与其他字符在多大频率上联结在一起。这种表现非常独特,它在多重参数空间上定义了这个词语。实际上,这个词语可以视为空间内一个向量,这个向量在机器对任何措辞的翻译结果中都起到主要的约束浸染。
这些向量遵照着大略的数学规则,举例而言,国王(king)-男性(man)+女性(woman)=王后(queen)。以是,一句话可以认为是由一系列向量排列形成的一条超过空间的轨迹。
完备对应地翻译
机器翻译的关键洞见在于,不同措辞中的词语在各自的参数空间内霸占着相同位置。这使得一种措辞能够完备对应地被翻译成另一种措辞。在这个意义上,翻译句子就变成探求那些超过空间的相似轨迹的过程,机器乃至不须要“知道”句子的详细含义。
这个过程须要依赖大数据集。但几年前,德国的一个研究者团队利用小型数据库帮忙翻译短缺大型文本数据库的罕有措辞,个中的窍门在于找到一种除数据库之外能够约束机器的方法。
利用措辞进化的约束
罗家明团队已经进一步展示了机器是若何翻译一门失落传措辞的,他们利用的约束与措辞随韶光的变革干系。任何措辞都因此某种办法变革的,比如,支属措辞中的符号以相似的分布涌现,干系词语有相同顺序的字符,等等。有了这些规则的约束,如果已知某种古老的措辞形式,那么翻译就会轻松许多。
罗家明团队利用这项技能测试了两种失落传措辞,B类线形笔墨和乌加里特语。措辞学家已经知道,古希腊语的早期形式是由B类线形笔墨编码得到,而在1929年创造的乌加里特语则是希伯来语的早期形式。
利用这些信息和措辞进化的约束,罗家明团队研发的机器能够以相称高的准确度完成上述两种措辞的翻译。“我们能够精确地将67.3%的B类线形笔墨中的同源词翻译成对应的希腊语”,他们说,“据我们所知,本次实验是最早考试测验自动翻译B类线形笔墨的。”而出色的事情成果将机器翻译提高到新的水平。但这也引发了关于其它失落传措辞的疑问——尤其是从未被翻译过的措辞,如A类线形笔墨。
在这篇文章中,A类线形笔墨的缺席显而易见,罗家明团队乃至没有提及A类线形笔墨,但和所有措辞学家一样,它肯定在他们心中挥之不去。不过可以确定的是,在A类线形笔墨能够被机器准确翻译之前,我们还须要一些主要的打破。举个例子,没人知道A类线形笔墨编码了哪种措辞,将它翻译成古希腊语的考试测验都失落败了。如果不知道祖措辞,新技能也起不了浸染。
但是基于机器的方法存在一个明显的上风,机器可以快速而不知疲倦地对每种措辞进行测试。因此罗家明团队或容许以用一种粗暴的方法占领A类线形笔墨的翻译难关——考试测验将它翻译成机器已经节制的每种措辞。如果终极成功,那一定是一项伟大的造诣,一项足以另迈克尔·文特里斯惊叹不已的造诣。
本文系作者个人观点,不代表本站立场,转载请注明出处!