三千年前的古文字被AI破译,MIT和谷歌开发失传语言的机器翻译系统

  • 时间:
  • 浏览:0
  • 来源:幸运快3_快3app争霸_幸运快3app争霸

1886年,英国考古学家亚瑟·伊万斯偶然间发现了一块刻印着未知语言的石头。得知这块石头来源于地中海的克里特岛后,伊万斯立马动身旁往此处以搜寻更多证据。在那里,他马上就发现了你你这一笔迹这一的石碑,哪些地方地方石碑能追溯到公元前160 年左右,哪些地方地方刻字也就成为目前发现的最早的书写形式之一。伊万斯表示,你你这一线形形式是从早期艺术中粗糙的线条画演变而来,在语言史上占有重要地位。

伊万斯等人刚刚 证实,石碑上的刻字是五种不同的文字系统。稍古老的五种称为A类线形文字,可都都都可以追溯到公元前160 0年至160 年,此时克里特岛还居于青铜时代的米诺文明阶段。时间上更近你你这一的文字系统称为B类线形文字,公元前160 年后才总是总是出现,此时的克里特岛正被希腊大陆的迈锡尼人统治着。

你你这一年来,伊万斯等人总是试图翻译哪些地方地方古老的文字,但都无疾而终。

你你这一间题直到1953年,有有另十个 叫兰迈克尔·文特里斯的业余语言学家成功翻译B类线形文字事先,才得到解决。

有有另十个 假设

文特里斯的成功建立在有有另十个 决定性突破上。第一,他假设B类线形文字中重复总是总是出现的词语是克里特岛的地名——这在其后被证明是正确的。第二,他假设哪些地方地方刻字是古希腊语的早期形式——这你上可上不利于立即翻译出B类线形文字的你你这一累积。在翻译过程中,文特里斯表示,古希腊语的书面表达形式比事先预想的须要早多少世纪。

文特里斯的工作成果是一项巨大的成就。但像A类线形文字从前的更为古老的文字系统,到今天为止仍然是语言学上有有另十个 亟需解决的间题。

通过机器学习绘制特定语言的联结

没能想象,近年来机器翻译的最新进展对此有所帮助。

短短几年内,注释数据库和让机器从中学习的技术让语言学习居于了革命性变化,这使得机器翻译变得如此普遍。尽管翻译质量有待提高,但这也提供了思考语言的有有另十个 全新淬硬层 。

来自麻省理工学院的罗家明(音译)和雷吉纳·巴尔齐莱,以及来自加州山景城谷歌人工智能实验室的曹源(音译),由我们我们我们我们我们都组成的团队研发出了都都都可以翻译失传语言的机器学习系统,而且 使其翻译B类线形文字——第一次完整版自动翻译——证明了系统可行性。

我们我们我们我们我们都所利用的方式与标准机器翻译技术有着显著区别。首先须要知道,不管哪种语言,机器翻译的关键都会于认识到文字间联结的这一性。而且 整个过程是从绘制特定语言的联结现在现在开始 ,这须要庞大的文本数据库,机器在你你这一文本数据库中查验每个字符与你你这一字符在多大频率上联结在并肩。你你这一表现非常独特,它在多重参数空间上定义了你你这一词语。实际上,你你这一词语可都都都可以视为空间内有有另十个 向量,你你这一向量在机器对任何语言的翻译结果中都起到重要的约束作用。

哪些地方地方向量遵循着简单的数学规则,举例而言,国王(king)-男性(man)+四十岁的女人 (woman)=王后(queen)。本来 ,的话可都都都可以认为是由一系列向量排列形成的一条跨越空间的轨迹。

完整版对应地翻译

机器翻译的关键洞见在于,不同语言中的词语在每人个的参数空间内居于着相同位置。这使得五种语言都都都可以完整版对应地被翻译成另五种语言。在你你这一意义上,翻译的话就变成寻找哪些地方地方跨越空间的这一轨迹的过程,机器甚至不须要“知道”的话的具体含义。

你你这一过程须要依赖大数据集。但几年前,德国的有有另十个 研究者团队利用小型数据库协助翻译缺少大型文本数据库的稀有语言,其中的窍门在于找到五种除数据库之外都都都可以约束机器的方式。

利用语言进化的约束

罗家明团队机会进一步展示了机器是如可翻译一门失传语言的,我们我们我们我们我们都使用的约束与语言随时间的变化相关。任何语言都会以五种方式变化的,比如,亲属语言中的符号以这一的分布总是总是出现,相关词语有相同顺序的字符,等等。有了哪些地方地方规则的约束,机会已知五种古老的语言形式,如此翻译就会轻松你你这一。

罗家明团队利用这项技术测试了五种失传语言,B类线形文字和乌加里特语。语言学家机会知道,古希腊语的早期形式是由B类线形文字编码得到,而在1929年发现的乌加里特语则是希伯来语的早期形式。

利用哪些地方地方信息和语言进化的约束,罗家明团队研发的机器都都都可以以相当高的准确度完成上述五种语言的翻译。“我们我们我们我们我们都都都可以正确地将67.3%的B类线形文字中的同源词翻译成对应的希腊语”,也许,“据我们我们我们我们我们都所知,本次实验是最早尝试自动翻译B类线形文字的。”而出色的工作成果将机器翻译提高到新的水平。但这也引发了关于其它失传语言的间题——尤其是从未被翻译过的语言,如A类线形文字。

在这篇文章中,A类线形文字的缺席显而易见,罗家明团队甚至如此提及A类线形文字,但和所有语言学家一样,它肯定在我们我们我们我们我们都心中挥之不去。不过可都都都可以选择的是,在A类线形文字都都都可以被机器准确翻译事先,我们我们我们我们我们都还须要你你这一重要的突破。举个例子,如此知道A类线形文字编码了哪种语言,将它翻译成古希腊语的尝试都失败了。机会我本来知道祖语言,新技术也起不了作用。

而且 基于机器的方式居于有有另十个 明显的优势,机器可都都都可以快速而不知疲倦地对累积语言进行测试。而且 罗家明团队或许可都都都可以用五种粗暴的方式攻克A类线形文字的翻译难关——尝试将它翻译成机器机会掌握的累积语言。机会最终成功,那一定是一项伟大的成就,一项足以另迈克尔·文特里斯赞叹不已的成就。