Auto ML Translate幕后的故事

AutoML Translate幕后的故事(来源于Google高级技术项目经理Bombassei)

简而言之,AutoML是“一种创建自定义模型的方法,而无需编写实际的代码”。例如,对于AutoML Translate,用户可以使用域内数据训练Google的通用NMT引擎,以便根据其用例进行自定义。

越接近翻译,模型的效果越好。

用户通过图形界面提供数据,不需要编码或命令行。在将数据上传到云端之后,训练需大约三个小时,具体取决于其复杂性,之后训练有素的模型便可以执行自定义翻译。 翻译实际上会使用你上传的词条、术语、字典,

AutoML适用于转移学习(transfer learning)和神经架构搜索(neural architecture search)。转移学习是一种使用机器学习模型作为培训的基础方法。

类比便是,如果你已经知道如何骑自行车,那么你骑摩托车会更加容易,因为你的大脑可以将一些已经学习的知识转移到新的东西上,同时,神经架构搜索“基本上使用了机器学习找到了最好的机器学习模型,并解决问题。

AutoML是以上两个元素的第一个商业应用。当然,第三个元素是用户提供的训练数据。

Bombassei表示,AutoML在软件和硬件方面正在处于领先地位。由于转移学习和神经架构搜索的计算要求非常高,谷歌已经提出了更适合这项任务的物理硬件芯片:TPU。

这些由Google专门设计的芯片,以最有效的方式执行此类计算。传统芯片和图形处理单元(CPU和GPU)在机器学习所需的计算方面效率非常低。在机器学习领域中,则需要高度并行,低精度的计算。

CPU和GPU非常擅长并行计算,但它们具有很高的精度,因此浪费了大量的能量来做不需要的事情。

所以才需要TPU,而且今年已经是谷歌的第三代TPU。在培训机器学习模型方面,它可以把效率提高10倍甚至更快。

摩尔定律基本上被判了死刑。

网络时代的小众语言

在互联网时代,当我们遇到语言障碍时,是有许多互联网资源可以解决问题的:翻译App、词典网站、各种语言版本的维基百科以及简单的“click to translate”选项。 当今世界上有大约7000种语言,其中前十余种有上亿人在讲; 但是最底端的三分之一却只有1000个或更少的人在使用。

但在朦胧的中间地带,有数百种语言,却也有数百万人在讲。这些中型语言仍然被广泛使用,但它们获得的在线支持却迥然不同。如瑞典语,拥有960万使用者,300多万篇文章的第三大维基百科,以及Google Translate、Bing Translate、Facebook、Siri,YouTube字幕的支持。但如Odia,这是印度Odisha邦的官方语言,拥有3800万使用者,但没有谷歌翻译。以及像Oromo,大约有3400万人(主要在埃塞俄比亚)使用的一种语言,其维基百科只有772篇文章。

为什么区区只有800万到1300万使用者的希腊语、捷克语、匈牙利语和瑞典语都有Google Translate的支持和强大的维基百科呈现,而使用者数量相同甚至更多的语言如Bhojpuri(5100万)、Fula(2400万)、Sylheti (1100万),Quechua(900万)和Kirundi(900万)却毫无技术支持?

部分原因当然希腊语、捷克语、匈牙利语和瑞典语是欧盟24种官方语言之一,这意味着每年都会有一小部分人工译员翻译欧洲议会的许多官方文件。人工翻译的文档为语言学家称之为平行语料库提供了一个很好的基础 ——大量的多语言平行文本——一个句子接着一个句子。机器翻译引擎使用这些平行语料库来找出语言之间的固定对应关系:如果“regering”或“kυáέρνηση”或“kormány”或“vláda”都经常与“政府”并行出现,那么机器则可以下结论这些词是对等的。

为了保证合理有效,机器翻译需要为每种语言提供巨大的平行语料库。理想情况下,这个语料库包含来自各种类型的文档:不仅是议会程序,还有新闻报道、小说、电影剧本等。如果仅通过正式的法律文件进行培训,该机器将无法很好地翻译非正式的社交网络的帖子。翻译工具已经在捡平行语料库的角料:在许多语言中,最大的平行翻译文本则是圣经,这直接导致了谷歌将无意义的音节翻译成了厄运的预言。

除了欧盟文件,瑞典语、希腊语、匈牙利语和捷克语还有丰富的语言资源。几个世纪以来,正是这些语言创造了人类。它们是整个民族国家的语言,国家电视和广播录音可以成为文本到语音模型的基础。他们的演讲者有可支配的收入,使媒体公司翻译流行小说和带字幕的外国电影和电视节目。它们出现在科技公司想象他们的客户可能居住的国家或者至少可以在度假时访问,这意味着是值得做本地化接口并将其添加为翻译选项。他们有正规化的拼写系统和字典,可以植入拼写检查和预测文本模型。他们拥有高素质的网络访问者,可以为维基百科等项目做出贡献。 (比如说瑞典语,其使用者甚至可以创建一个机器人来自动制作河流、山脉和其他自然特征的基本维基百科文章。)

语言资源不会从天而降。人们必须创造它们,但创造者需要被供养、浇灌、教育、安置和支持,无论是政府、企业还是个人的财富来做——让个人承担的打发时间的智力爱好。创造平行语料库和其他语言资源往往需要多年时间,而且真做的话,每种语言可能会花费数千万美元。

与此同时,我们知道灾难会定期在世界各地上演:地震、洪水、飓风、旋风、疾病、饥荒、火灾。其中一些将发生在人们使用较多、资源比较丰富的语言地区,组织当然会急于拯救。但是,未来世界上的一些危机也将会发生在那些中等规模但资源不足的语言地区,而且这种可能性很大。在这些情况下,救援组织和政府将面临紧迫的语言障碍。

问题是,我们不知道接下来哪种语言将需要全世界迫切的关注。 2010年地震袭击海地时,国际组织急切需要海地Creole的资源。西非的埃博拉疫情影响了斯瓦希里语、Nande、Mbuba、Krio、Mende和Themne等语言。来自中美洲的难民经常讲Zapotec、Q’anjob’al、K’iche’和Mam。这些使用者并非大型科技公司的理想客户。他们也没有闲暇时间来编辑维基百科。他们甚至可能不会用母语识字,而是通过语音记事而非短信进行交流。但当危机爆发时,互联网通信工具将至关重要。

美国国防部(Darpa)的研究人员决定通过重新思考我们翻译语言的方式来解决这个问题。 与创建特定语言的工具不同,他们试图构建与语言无关的工具,这些工具一旦创建,就可以在危机时刻发挥作用,并通过微调切换到任何语言——即使他们只是从社交网络中获得的单语文本而非认真翻译的平行语料库。

他们同样改变了目标。 Darpa信息创新办公室项目经理Boyan Onyshkevych博士表示,要想制作能够生产符合语言习惯的散文的成熟的机器翻译,这太难了。相反,他们开辟了更易于管理的任务,例如将段落中的所有专有名词与更广泛使用的语言中的等同词汇连接起来。以这种自动识别实体的方式可以帮助提供有关整体情况的线索——例如,哪些河流泛滥,哪些村庄受到爆发的影响,或者哪些人失踪了。

Darpa全年资助数十所大学和公司的研究人员,然后每年分两次对他们进行测试,在一次“语言危机模拟”活动中,研究小组以一种惊人的神秘语言翻译了想象中的灾难报告。对于第一轮,团队有24小时的时间从社交媒体、博客和新闻报道中获取尽可能多的有用信息,借助一些资源,如基本的字典和一小时与母语者在一起的时间。然后,Darpa增加了更多的社交媒体数据并给予演讲者与母语者在一起的更多时间,并且团队再次参与其中。之后,这些模拟的结果和数据集通常会在线发布,并最终可以将它们集成到Siri和Google Translate等工具中。

这些正是利用互联网时代的资源来解决互联网时代的问题的方式。小型的语言可能没有大量的书籍或议会记录来训练语言处理器;他们可能没有很多的专业翻译。但又确实有成千上万或成百万上千万的使用者在社交媒体上闲逛,并像我们所有人一样发布有关天气和他们午餐的帖子。如果发生灾难性的罢工,这些帖子则可能会播下自己生存的种子——他们的推文和博客文章可能会被挖掘出来,用以告诉世界剩余的角落如何伸出援手。


翻译:Nansey 来源:WIRED

冰岛没有火车

算起从冰岛回武汉,已经整整一个月过去。所以无论是游记也好,攻略也罢,这的确是一篇姗姗来迟的叙述。

三号从武汉出发,十三号再次回到武汉,算上在飞机上和转机机场里打酱油的时间,一共整整十天。而真正待在冰岛的时间只有八天的样子,时间并不是很充裕,所幸冰岛并不是一个很大的国家,环岛一号公路(Ring Road)的周长也只有1332公里。

决定自驾好像是自然而然的事情,冰岛并不是一个公共交通十分发达的国家。旅程快要结束的时候,我才突然想起来问老婆,我好想都没有看到过火车呢。我是这样一个后知后觉的人。刚才看了一下维基百科,冰岛的确是没有公共铁路交通的。

我又不是一个擅长或是喜欢做旅游攻略的人,哪怕是明天出发,我可能会在今晚买一张票,第二天背上包就走了。但是旅途就像生活,两个人毕竟和一个人不再一样。我于是真的开始乖乖地做起了攻略,包括各种景点、住宿、里程,还设计了专门的表格。

傻傻地做了很久,才终于差强人意。

这里想说一下Google Trips,今天的Google有多智能化呢,当我在Ebooker和Booking上订完机票和酒店后,Gmail收到confirmation的那一刻,Google Trips就可以同步帮你制定所有的旅行计划,计划不仅包括你的itinerary和酒店reservation、还包括当地的所有热门景点、美食、购物、货币、公共交通、医疗保险等信息,系统甚至会自动生成Day plans。包括你的过境国家和城市。

决定行程后的第一件事当然是订飞机票。很多人大概知道,机票订得越早,获得的优惠就会越大。我们开始决定预定已经是接近七月底了,因为十一期间又是旅游的旺季,老婆已经非常担心买不到票了,她是这样一个喜欢万事俱备的人,我自己常常是丢三落四,做事情虎头蛇尾。于是匆匆忙忙地订到了一张,两个人好像是拿到了最后一张登船票般的喜悦。过了几天,却发现武汉飞雷克雅未克的机票居然降价了。

网络上虽然有各种各样的应用和网站可以比较各家航空公司的机票价格与优势,个人还是比较推荐Skyscanner,支持App和Web,也支持在Chrome上添加插件,以及邮件订阅功能。设置完Price Alert之后,如果有更低的价格时,系统会自动发送提醒。当然啦,并不是价格优惠就一定更好,还得留心一下飞行时长。

订完机票当然是申请签证了。为了最快速地拿到签证,找了万能的淘宝。此时已是八月底的事情了。老婆说的对,我做什么都墨迹,不慌不忙。本以为付了款了提交资料和护照就万事大吉了。可惜冰岛大使馆规定所有的签证申请者必须亲自提交资料。于是第一时间买了武汉到北京的高铁,一天来回。北京的使馆人并不多,大厅里坐着的百分之九十都是大爷大妈。重新拍照(使馆规定签证照片不可以戴眼镜),排队等候,录指纹,递交资料的时候,忍不住问窗口工作人员:

“大概多久可以下来?”
“二十个工作日,”她冷冰冰地说。
“那么久吗?”我有一点失望。
“现在是十一高峰期。要提交吗?”
“交。”

竟然有一种放手一搏的感觉,毕竟万能的淘宝和签证顾问说是包过,而冰岛驻北京大使馆官方说法实在是模糊,窗口和官网完全是两个口径。老婆隔几天在微信里问我,问到后来,具体出发的日期眼看越来越近,官网的状态查询却一直是“Application Accepted“的状态,我竟然也有一点着急。豆瓣里甚至有因为签证没下来退掉住宿和机票的例子。我想到我们订的机票还是不可退型的,连改签都不行,包括那之前订的一堆酒店,也早已过了free cancellation的日期,越发有“尽人事知天命”的悲壮了。

我从前说,遇上她,一定是花光了我一生的好运气。所以现在和她在一起,也一定是拜她所赐,每一次在我们觉得最不可能的时候,总能在最后一刻化险为夷,平安度过。

我们的行程虽然定在了十月初,公司却要派遣她九月下旬去德国出差,两份签证的申请几乎撞在了同一时刻,一本护照到底是寄到德国大使馆还是冰岛大使馆,这个不亚于“生存还是死亡”的问题使得她嚎啕大哭一场。我理解这样的心情,一边是一生之中难得的蜜月旅行,一边是碍于各种理由无法放下的工作。

车到山前必有路,柳暗花明又一村。我们突然意识到冰岛和德国不都是欧盟成员国么,为什么还要傻傻地去申请两个签证。于是第二天的早晨第一时间联系了冰岛和德国驻华使馆。德国使馆的工作人员果然效率,几乎飞速地回复确认了,冰岛使馆接电话的小伙子中文说得像是没有睡醒,不过也可能他们的电话业务实在不多,不管怎样,两边使馆的确认终于使这个悬而未决的石头落地。

自己的签证最后也是在第10个工作日接到了电调,在打到我的私人电话之前,他们告诉我说预留的单位电话打了几次打不通。问到公司的前台居然说电话坏了,只能打出,不能打入。我想这真的又是一次冒险。签证在电调后两三天的样子就寄出了。

我不禁想起我们第一次去长白山旅行的经历,因为忘带了护照和身份证,却被南航的工作人员放上飞机后,我们屡屡过关斩将的经历。似乎也是如此。

关于个人申请冰岛的签证,现在回想起这一次的经历,淘宝并非一个很好的选择,毕竟非常多的申请材料需要个人提供,而且需要亲自去使馆录指纹提交材料,如果说签证顾问帮我做过什么,大概是做了一个行程计划表吧。

如果说冰岛给我留下的最深的印象是什么,当然有极光,有瀑布,有大海,有一望无际的公路,等等等等。但是除了这些之外,我想第一印象大概是风大,不管是出了机场的那一刻,还是在Hallgrim大教堂前,抑或是在火山湖Kerið的山口,包括离开前的最后一个晚上。风大到什么程度呢,在从租车公司取到车后,心想终于可以在地广人稀的土地上体验一把策马奔驰的感觉,刚开出机场不久,发现方向盘貌似有问题,车体总往一边偏,心想坏了,刚刚取车时只顾着检查外观了。过了许久,终于意识到,不是方向盘的问题,原来是风太大了,吹得车子左摇右晃。

前几天又听说有朋友要去冰岛,包括论坛里那些约着十二月要自驾的同学,我真是无比敬佩他们的勇气。毕竟十月初的天气,如果海拔稍微高一些,比如从首都去往黄金圈的某些山间地带,早已经开始大雪纷飞了。而且冰岛的公路虽然并不繁忙,但是却并不宽敞,拿一号公路来说,除了市内和市郊某些地方会有多车道,大部分的时候都是双向单车道的,南部和东部的某些过河桥梁,多数则只能同时容纳一辆车通过。甚至当我现在想起那一天下午我们在Hofn吃完龙虾大餐,为了抄近道去东部地区的Egilsstaðir,上了939公路还不到半小时就立马后悔了。山路崎岖而且陡峭,开到山顶竟然开始下雪,能见度越来越低,天色渐晚,路窄到掉头都是困难,就是那种灾难片里该有的氛围一切都有了。东部地区的一号公路基本都是沿海修建,半个小时前老婆赞不绝口的雪山,在我们决定掉头折返终于再次回到一号公路的时候,她说我再也不想看到雪山了,因为都是满满的恐惧感。大自然真的太可怕了。

939到底有多可怕呢,好奇如我晚上回到住宿就Google一下,发现走过的人都在感慨,“活着真好”。忍不住截图给她看,山顶上直接吓哭的她竟然哈哈哈哈笑到抽搐了。

大多数人去冰岛都会有一个比较重要的目的,那就是看极光。我们当然也不例外。但是看极光说到底,其实是一件运气加时机的事情。一般来说,最适合看极光的季节是9月中下旬开始至3月,但是8月底开始到4月中下旬都有可能在冰岛看到极光。这一次,拜她赐予的好运气,我们竟然在冰岛南岸几百人的小小的维克镇上实现了愿望。

那是在一个房东老太太推荐的本地餐厅等位就餐的时候,一个在门口抽烟的北京男人喊了一声“欧若拉”,于是餐厅所有的人如同发生地震般全部涌了出去,从开始一条短短的细细的绿色丝带开始,像是被风吹散的一缕青烟或是海面,几分钟内,绿色迅速地占据大半边天空,移动的速度非常快,以至于我才调好手机相机的快门和ISO,照了不到几张,它就迅速地消失了。

那个夜晚,我们是非常幸运的。因为在接下来长达一周的旅程中,我们再也没有看到过这样对比度高的极光了。哪怕同样是在冰岛的南岸,在大西洋海边的Fosshotel里,酒店的前台用电脑整晚地开着极光预报,酒店后的山顶上早已有人占好了据点,我也摆好了三脚架,天气非常冷,荒芜人烟的海边只剩下最后的一点来自客房的灯光,我们选择驱车一路向西,终于却还是一个平淡的夜晚。在北方的城市阿克雷里,在Akureyrarkirkja教堂前,我们一度看到穿过城市的北冰洋的对面的雪山上,开始有了极光的迹象,我们再一次驱车,一路向北,出了城很久,在伸手不见五指的黑暗里,只有远处的雪山和城市依稀可见。

即使这样,回忆起来,我还是会想念阿克雷里,你似乎也问我过同样的问题,我们亦有着同样的答案,那是关于我们老去以后。

冰岛的人口很少,像这样的小城人口则更少。一切都显得很慢。城市的中心便是北冰洋。海水纯洁如夕阳映照下的雪山。在阿克雷里是我们度过了最后一个夜晚,因为第二天就要从北方开长途赶去机场,于是一起去吃了一顿中餐,中餐厅的服务员告诉我们,常年在冰岛的中国人大概只有三百个。我有一些惊讶,这和其他国家的情况太不一样了。同样不一样的是,阿克雷里的红灯,在这座城市的旅游网站上,红灯被称作是THE HEARTS IN AKUREYRI,据说是为了缓解08年金融危机时居民的消极心理,阿市的红灯标识陆续出现了爱心的形状,政府希望通过简单的图标给社会一些积极的思考,什么才是生命中真正重要的东西。

真是一个可爱的城市,连红灯都是爱你的形状。

阿克雷里更像是冰岛的缩影,虽然有人说西部的斯奈山半岛更像。在冰岛的时光稍纵即逝,但是真正普通人的生活节奏又很慢,很多时候会有这样的感概,在工业和科技的发展上,这样的城市,这样的国家似乎永远也赶不上快节奏的中国。冰岛没有高速铁路,国家博物馆的服务人员会问我们身上穿的长款羽绒服怎么才可能买到,更不要说移动支付和共享单车了。但是在刷了十天的信用卡后,你会发现它丝毫不比微信支付和支付宝逊色,某种程度上说,它甚至要比后两者更加方便,因为丝毫不用担心网络和电量。那些大型超市更是过分,有一天,我们的电源转换插头坏掉了,就开着车顺着Google Maps找超市,到了超市才发现,他们要到十点十一点才营业。我想这大概也是冰岛能够常年名列World Happiness Report 前茅的原因吧。

因为时间有限,我们最终还是错过了行程中的斯奈山半岛、Blue Lagoon以及蓝冰洞。但又并不遗憾,像是在心里留下一些期待,或者念想。这样美丽的国度,常常让人联想起村上春树的那本书名,是世界尽头,又是冷酷仙境。

还未离开之前,你已经开始期冀着归来。

翻译动态:Transmart、微软NMT以及BasicCAT

腾讯发布人工智能辅助翻译,致敬人工翻译。

11 月 13 日,深圳 – 腾讯 AI Lab 发布了一款 AI 辅助翻译产品 ——「腾讯辅助翻译」(Transmart),可满足用户快速翻译的需求,用 AI 辅助人工翻译提高效率和质量。该产品由腾讯 AI Lab 的内部团队历时一年完成,采用了团队自研的人机交互式机器翻译技术,融合神经网络机器翻译、统计机器翻译、输入法、语义理解、数据挖掘等多项前沿技术,配合亿级双语平行数据,是一款人工智能辅助翻译互联网落地产品,可为用户提供实时智能翻译辅助,帮助用户更好更快地完成翻译任务。

1、内核是国内第一个公开的交互式机器翻译的互联网落地产品;
2、搭载了业内第一个公开的融合机器翻译的辅助翻译输入法。该产品融合了人工智能和传统辅助翻译技术,为用户提供更便捷、流畅的人工翻译体验。
3、千万级专业术语、亿级例句参照。腾讯 AI Lab 从几百 TB 的互联网文本中挖掘了数千万的专业术语翻译和亿级双语例句提供给用户作为翻译参考信息。
4、辅助翻译 API 与定制化服务。为合作伙伴开放交互式机器翻译、辅助翻译输入法、个性化机器翻译 API、定制化机器翻译等多个应用程序接口,提供定制化服务。


微软发布新一代神经机器翻译技术

2018年初,微软宣布推出第一个机器翻译系统,用于新闻的中译英,其质量和准确度与人类媲美。今天,Microsoft Translator将这些研究成果投产,并发布了新的中英、德英双向翻译系统,提高了翻译质量,扩充了应用场景。

基于使用行业标准测试集的人工评估发现,整体质量提高了11%。此项改进基于与之前的生产API对比。

这些改进是研究系统的结果,这些研究系统在今年早些时候在一组常用的新闻报道上实现了人类效果般的翻译,且现在已经兼容了生产API。这其中包括下一代的神经网络架构和双重学习。

微软举了几个中英文翻译质量改进例子。

新的系统已用于所有Microsoft Translator应用程序、插件、Office、必应翻译以及API,适用于企业和开发人员。

2019年初将推出基于此高级翻译系统的其他语言。

Microsoft Translator Blog: Microsoft Translator releases next-generation Neur…


上周五推荐的BasicCAT今天又分别在Mac和Windows上做了测试,测试的结果是其实这个工具还是挺好用的。

但是在配置的过程中还是需要花费一些功夫,尤其是对于很多翻译出身的技术小白来说会遇到各种问题(这并非产品本身的bug),比如用于语言检查的LanguageTool的配置,再比如用于交互式机器翻译的斯坦福自然语言处理工具Start CoreNLP Server的配置(很多时候下载、配置后利用BasicCAT用户文档里提供的测试地址进行测试发现服务器无法运行,衰)。很多同学前天反应软件频繁闪退,或者无法打开source源翻译文件,这里需要注意2个地方:1.Basic并不能够像Trados一样直接对单文档文件进行翻译处理,需要新建项目并且保存后再进行翻译文件的导入(新建项目需要注意语言方向);2.BasicCAT目前支持的文档格式比较有限(比如不能直接对word格式的处理):text、idml、xliff、pdf等。pdf目前仍然需要借助basic内嵌工具进行文本的抓取或者外部OCR工具处理。

个人测试过程中,机器翻译api的配置、划词取义、在线词典、以及word导出、双语对照这些高阶功能,以及入门功能中的记忆库、术语库的操作,和片段合并、分割等,则非常的顺利。 

Proz上开发者和外国译者针对BasicCAT的讨论

开发者目前也在bilibili同步释出学习教程


BasicCAT是一款开源的计算机辅助翻译软件,旨在为译员提供简单实用的翻译工具。取名BasicCAT,一是因为它简单易用,二是因为它使用Basic语言编写,普通人花上一段时间学习后也能掌握,从而在BasicCAT源代码的基础上修改出适合自己需要的软件。

软件具有以下功能:

翻译记忆
术语管理
语言检查
划词取义
快速填充
自动更正
交互式机器翻译
导出Word供外部审校
导出双语段落对照文件
句段分割与合并
调用多种在线词典
常见机器翻译服务的API调用
支持利用翻译记忆与机器翻译进行全文预翻译
支持常见源文件格式:txt, idml, xliff, gettext po
支持翻译记忆标准TMX、术语管理标准TBX和句段分割标准SRX
使用Git进行版本控制

软件下载:下载 – BasicCAT
入门和进阶操作学习:BasicCAT 使用手册

BasicCAT支持 Windows,Macintosh,Linux 三个平台;软件支持多种文件格式,支持机器翻译调用,支持多格式翻译记忆库和术语库,支持译文质量检查,支持导出双语对照文件,提供详细的使用帮助文件。

据说软件由北京大学2017级CAT学生开发,开发者大学本科是英语专业,硕士在北京大学软件与微电子学院学习计算机辅助翻译。英雄出少年!

大家如果在使用过程中有问题或者建议,可以在GitHub给开发者提issue

机器翻译的炒作艺术

百度公布了自己研发的 STACL 系统(Simultaneous Translation with Anticipation and Controllable Latency,带有预测和可控延迟的即时翻译),据称也能在译者开始讲话后几秒钟,而不是说完一段话后,就开始进行几乎同步的翻译。

如名称所示,刚刚讲到的「几秒钟」实际上是一个可控制的时长。当你需要在两种关联性相对较强的语言间互译时(比如说法语和西班牙语),STACL 差不多能做到隔开一个词就开始翻译。而当两种被译语言差距很大(比如中文和英文),系统在翻译前要等待的时间就可能会更久,只有这样才能保证更好的准确性。

百度官方发布的关于STACL系统的博客公告里提到STACL系统的重大技术突破:We tackled this challenge using an idea inspired by human simultaneous interpreters, who routinely anticipate or predict materials that the speaker is about to cover in a few seconds into the future. However, different from human interpreters, our model does not predict the source language words in the speaker’s speech but instead directly predict the target language words in the translation.

CNBC的报道里提到的重要一点,百度的预测功能是基于200万对中英语料库。

Baidu Research Blog:Baidu Research
Engadget报道:百度开发了自己的即时翻译系统
官方Demo视频演示:Demos for STACL (Simultaneous Translation with Int…
Paper地址:STACL: Simultaneous Translation with …


以上是10月27日,也就是STACL系统发布的第三天,我曾在「翻译技术交流与资源共享」微信群中向大家热烈做过的推荐。但是事实再次证明百度流氓与无耻的本性。Slator昨日发布批评性报道「The Art of Hyping Machine Translation」(机器翻译的炒作艺术),文章揭露:

百度PR部门将新闻稿、研究论文、以及GitHub演示页面打包发给了众多媒体机构(这其中就包括Slator)。几小时后,媒体报道铺天盖地:MIT Technology Review、Engadget、CNBC、SCMP、Fortune等等等等。

在Baidu Research的Github演示页面上甚至集中挂上了该论文获得的媒体报道链接和媒体Logo。虽然这些报道失实,但是由于是重要媒体站台,该报道得到了更多其他媒体的转载。

而作为PR的一部分,百度在11月1日的百度世界大会上进行了STACL的公开演示。大会期间,主显示屏两侧的两个屏幕分别显示了自动语音识别输出和STACL的即时翻译。

但是,现场直播中的同声传译仍然是由人工口译员提供。

关于STACL的翻译效果究竟如何?研究者分别做了英-德和中-英方向的任务实验。在wait-5-model模型(即系统等待5个单词后开始翻译)中,STACL的输出质量略差炒作效果。而在wait-3-model模型(即系统等待3个单词后开始翻译)中,系统预测的词则是完全错误的。

NMT领域的专家、Iconic Translation Machines的联合创始人和CEO John Tinsley表示:在判定每一项新研究是否为突破(breakthrough、即此次各大媒体在报道STACL时用到的词)时,我们仍需极其谨慎。

2018百度世界大会:2018百度世界大会-英文同传版全程回顾
Slator:The Art of Hyping Machine Translation