谷歌神经机器翻译之我见

听说Google最近升级了翻译系统,算法已经从几年前的循环神经网络(RNN:Recurrent Neural Networks)升级到了神经机器翻译(GNMT:Google Neural Machine Translation),新的算法开始考虑翻译对象所处的上下文语境(Context)。Google官方称新的系统得出的翻译相比于之前的基于短语的生产系统(PBMT:Phrase-Based Machine Translation)实现了极大的提升。GNMT在多个主要语言对的翻译中将翻译误差降低了55%-85%以上。

对于自己这样一名业余的菜鸟翻译,这简直就是一条爆炸性新闻!尤其是继AlphaGo击败李世石和特斯拉无人驾驶汽车上路之后,一切的一切渐渐地变为可能,人工智能(AI:Artificial Intelligence)似乎也正在愈发地入侵着现实和人类。带着好奇而不安的心情,于是第一时间调教了Google Translate。擦,那心情完全就是18世纪纺织工人远远望见蒸汽机时的焦虑。

于是,一夜之间,中文互联网上雨后春笋般地充满“谷歌推出神经网络翻译中译英水平匹敌真人”“谷歌再掀机器翻译革命人工翻译何去何从?”的报道。Twitter上的许多外国人甚至直接开始用中文发推。

这很好理解。因为在这之前,驴唇不对马嘴的机器翻译(在线翻译)简直就是一个笑话。但是从今天开始,这个笑话就要成为历史。所以很多外媒在报道这次翻译技术革命的时候用到了“Milestone”(里程碑)一词。

赞誉归赞誉,美中仍有不足。Google在自己的官方博客(Google Research Blog)中也提到:GNMT仍然会做出一些人类翻译者永远不出做出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或页面的上下文。

自己也断断续续地调教了两天。我不太同意微博和知乎的某些网友们举的那些极端的反例,以此证明Google Translate仍旧无可救药。我相信任何一个外语系的学生只要亲身体验一下旧的在线翻译(比如目前的有道、金山或者百度)和现在的Google Translate,是可以明显地感觉到二者之间的差别。但是我仍旧认为,以Google Translate目前的水平,依然尚未达到中文媒体所吹捧的那种“可以替代人工翻译”的程度。不管是针对文学作品,还是学术论文,甚至日常的办公(比如网站的英文对照)来说。取得突破性进步并不是我们忽略瑕疵和不完美的理由。关于在一点,Google同样在其博客中给出了对比说明(见下图):

 

 

 

 

 

 

 

注:顶上虚线为完美的翻译;红线为人工翻译水平;绿线为谷歌神经机器翻译(GNMT)水平,蓝线为基于短语的机器翻译(PBMT)。

在给出的五个语言对中,我们可以明显地看到,同属于印欧语系的英语、法语和西班牙语在互译时,GNMT水平则更加接近于人工翻译水平。而汉语属于汉藏语系,所以不管是汉译英还是英译汉,GNMT和人工翻译之间尚有一定的差距。

具体来讲,我认为GNMT的困难之处仍有以下几个方面,这也可能是Google正在试图解决可以继续提升的方向(以下以中英翻译为例):

1. 成语、谚语、歇后语的翻译。Google需要将中英词典中现成的词条集成到自己的翻译数据库。这个对于Google来说难度不大。(知乎网友拿《百年孤独》的开头调教GNMT,简直太傻,他大概没想到Google Translate的爬虫可能早已爬过这句的各种译法并利用算法做了最佳优化。)

2. 流行语的翻译。这也是这次社交网络上网友们各种奇葩例子所诟病的。不过据说GNMT用的是和AlphaGo同样的一套智能系统,所以这个对于Google来说难度也不大。毕竟那条Alpha狗具有超强的自我学习能力,辅之以Google庞大的信息库,超越人类,指日可待。(有网友发现,“图样图森破”的翻译已经更新了。LOL)

3. 诗词的翻译。在目前翻译版本参差不齐和数据不全的情况下,这可能是一个难点。不过新版的GNMT提供了在线更正/更新功能供用户使用。有一点类似于维基百科的贡献与共享模式。众人拾柴火焰高,大家一起建立翻译记忆库(Translation Memory)。

4. 翻译时同义词、近义词的选择(尤其是形容词)困难。可能汉语作为一种表意语言,所以英译中时这个问题会更加突出和困难。尤其在文学作品的翻译中,这一点将会被更加明显地放大。这属于GNMT需要分析翻译对象所处的上下文语境(Context)的情况之一。

5. 中文语言中介词的模糊使用导致的翻译困难。不同于词性和语法清晰的英文,中文在太多的情景下,介词是模糊使用甚至省略的。亦可以说是中文状语要远远比英文状语表现地暧昧(包括时间、地点、方式等等)。所以这也是另一种需要分析上下文语境的情况。

6. 中英文时态和语态的差异给翻译带来的困难。众所周知,中文的动词本身不会因为时态的不同而产生变形,表达过去、现在和将来更多的是靠不同的助词或者叹词或者时间名词来完成(比如强调过去式或者完成式可能需要用“了”,而口头强调将来式通常并不会生硬地去讲“我将要如何”而是直接用“明天”一词辅助。)语态就更不用说,讲“挨骂”一定比“被骂”地道的多,使用频率也高。

7. 中英文句子结构和语法的差异带给GNMT的翻译困难。中文是有语法的,但是讲中文的时候我们又很少顾及语法。而英文不管是句子结构,还是语法,远比中文要来得严格缜密。这样大结构的差异则会带给Google Translate巨大的困难。所以如果你用新的GNMT分别测试简短的句子和复杂的长句,翻译表现则有云泥之别。

因此,Google Translate虽然在取得里程碑式的突破技术的同时,但要想达到人工翻译的水平,甚而向“完美的翻译”(Perfect Translation)看齐,仍有很长的路要走,很多的困难亟待解决。但是,以当前的科技(比如人工智能)发展速度推测,机器的进步和提升一定会越来越快,进而对相关行业产生颠覆性影响,比如可以遇见的便是,语言学习的必要性会越来越低,语言教师和翻译人员的需求同样会降低,再或者翻译公司和语言培训机构的倒闭,再近一点,计算机辅助翻译工具(CAT:Computer Aided Translation,比如当前流行的Trados、MemoQ、雪人等)的消失和各大高校MTI专业的不再吃香。

这也是历史发展的必然趋势,和18世纪蒸汽机的发明引起的第一次工业革命最终解放手工劳动有着相同的原理。


Reference:

1. Google Research Blog

2. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation

发表评论

电子邮件地址不会被公开。 必填项已用*标注