Google翻译好用的秘密：从「片语为本」进化到「类神经」机器翻译

发布时间：2021-02-17 14:56:57来源：

文：张俊盛

最近不乏人工智慧（AI）展现惊人突破的消息，大都围绕在类神经网路的再起，以及深度学习办得到，甚至超越人类能力的影像辨识或是棋赛。

2016年9月，Google又在一连串的进展上添加一笔，推出Google翻译上线10年来最大的突破与改版──Google类神经机器翻译（neural machine translation, NMT）。

NMT採用多层次的神经网路连结原文句与译文，输出的字词顾虑到全句文脉，一改Google翻译以往「片语为本的机器翻译」（phrase-based machine translation, PBMT）缺点，例如不考虑上下文、独立翻译一个个片语。

早在1943年，麦卡洛克和匹兹就提出类似人类神经系统的计算与学习模型：有输入、隐藏、输出等三层神经元，这些神经元逐层加权、整合、传递讯息以完成任务。1980年代，学者发现了反向扩散演算法，可运用输入、输出的训练资料自动调整权重，训练类神经网路。

1989年，纽约大学的杨立昆应用反向扩散演算法，在贝尔实验室提出三重隐藏层的类神经网路，能有效辨识手写的邮递区号。加拿大多伦多大学的辛顿推动神经网路亦不遗余力，他在1992年9月的Scientific American上清楚解释，反向扩散演算法就是透过神经网路输出层的误差，回头调整权重来训练网路，达到输出最佳化的目标。

有效的演算法，加上可推广的应用潜力，一时之间，类神经网路蔚为AI的显学。然而，受限于当时电脑的计算能力与稀少的数位化资料，多层次类神经网路的概念虽好，却难以突破实作上的瓶颈，使得效果不如人意。类神经网路的光辉渐渐褪色，被更简单有效的机器学习方法取代。

如今在巨量资料、高速计算的时代，类神经网路的深度学习技术终于否极泰来，藉各种延伸应用，证明比其他机器学习模型更有效。辛顿和杨立昆分别为Google和脸书效力，把深度学习的AI带入产业。

从1996年起，当学者开始探索NMT的可行性时，就发现最简单的NMT的效果也足以和PBMT并驾齐驱。之后，还有更多进展：包括罕见字处理、输入焦点、字根模型，以及提升执行的速度，终于使得NMT产品化。Google翻译的NMT採用特殊的递迴神经网路（recurrent neural network），把输入句的每一个字存起来，之后再透过另一个类似的网路逐字产生翻译结果。

从上方图表〈Google中翻英比较〉的例子，可以看出来NMT的翻译非常流畅，也几乎传达了原文要义。美中不足的是，NMT把「中加年度对话机制」和「与加拿大杜鲁多」两个片语的翻译，前后倒置，稍稍偏离原意。这凸显NMT不重视结构的缺失。为了处理好结构、词序，有不少学者提出多种同步文法的机器翻译模型，但都尚未能显着胜过PBMT。

机器翻译的典範一再转移，从未定于一尊。NMT当然距离专业翻译还有一大段距离，未来如何继续缩短差距仍然浑沌不明。是进一步延伸NMT，纳入语言的句法结构？还是加入其他型态的文法增强效果？或是出现整合NMT、PBMT等不同模型的混合式机器翻译系统？我们拭目以待。

本文获《科学人杂誌》、《科学人粉丝团》授权刊登，原文刊载于此

标签： Google翻译好用的秘密从片语为本进化到类神经机器翻译

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。

Google翻译好用的秘密：从「片语为本」进化到「类神经」机器翻译

相关阅读

猜你喜欢

生活经验

生活百科

生活常识

精选知识

最新滚动