Posts

2018年上半年NMT研究产出风起云涌

Image
2017 年被认为是神经机器翻译( NMT )变得主流的一年,但这并不意味着 “ 问题被解决 ” ,而且远非如此的是,任何使用这种高级在线机器翻译网站且精通双语的人都可以证明这一点。 而且,没有成千上万也有成百上千的研究人员在研究该问题。到 2018 年中,神经机器翻译( NMT )研究与去年同期相比骤增了 115% 。 2017 年 1 月至 6 月, Slator 在康奈尔大学的自动化在线研究分发系统 Arxiv.org 上发现了 91 篇与神经机器翻译( NMT )相关的研究论文(标题或摘要带关键词 “ 神经机器翻译 ” )。 在今年同一时期,这一数字飙升至 196 。 正如我们之前所提醒的,有一些误报和神经机器翻译( NMT )作为一个活跃领域被提及或被用作测试与更大领域相关假设的实验,如自然语言处理( NLP )甚至机器学习和一般的深度学习。 还有重新提交的问题,即之前发布的研究论文的第一版更新了新信息或者做了更正。 虽然这些论文本身并非独一无二,但仍然会为在该领域开展的研究活动计数。 轻微降温 2018 年可谓是一个疯狂的春天,世界上的一些大型科技公司发表了数十篇论文后, 7 月份的(论文)提交活动与前几个月相比竟然有所放缓。 7 月份仅有 26 篇研究论文提交,其中只有 9 篇与神经机器翻译( NMT )直接相关,且并非之前提交的更新版本。 越来越多的研究论文会将神经机器翻译( NMT )作为最先进的神经网络技术基准而提及。 神经机器翻译研究产出 自 2014 年 1 月 1 日至 2018 年 7 月 31 日期间在 Arxiv.org 上发表的标题或摘要提及神经机器翻译( NMT )的研究论文 这对神经机器翻译( NMT )研究人员来说当然是个好兆头,但也意味着在搜索 Arxiv 数据库时会出现越来越多的误报。此外,随着研究人员更新他们的论文,以前发布版本的重新提交和更新的数量也在增加。 进化中的研究方向 假以时日,自神经机器翻译( NMT )成为主流以来,一般性的研究课题已经发生了变化。 2017 年 11 月 1 日至 2018 年 2 月 14 日期间, Arxiv 上的研究主要集中在这样几个议题上,即提高产出质量和解决训练数据限制(例如资源匮乏语言)。 看看那些参与了 2018 年...

翻译推荐:纸托邦

这大概是今年看到的最使我感动的非盈利项目,一个运行了10年的却可能鲜为人知的关于文学、出版、翻译的计划。它可能是目前为止英文世界观察中国文学最好的窗口。 站长艾瑞克,一个高个子美国人在中国呆了17年,热爱北京,热爱中国文学,中文说得很棒。他曾翻译过王小波、苏童、毕飞宇、阿乙、盛可以、徐则臣等中国作家的作品。 他曾获得美国笔会(PEN)翻译基金奖、美国国家艺术基金(NEA)翻译基金奖、美国文学翻译协会(ALTA)国家翻译奖短名单提名。 艾瑞克正在翻译鲁羊的短篇小说《银色老虎》,鲁羊则是一位上世纪90年代末期活跃于“断裂”文学运动的作家。 三个月后,《银色老虎》在《纽约客》年度夏季小说专刊上发表了,鲁羊是第三位在《纽约客》上发表小说作品的中国大陆作家,其他两位是莫言(2012年)和余华(2013年)。 纽约客Silver Tiger 链接(推荐阅读):“Silver Tiger” | The New Yorker 2011 年,纸托邦和《人民文学》杂志合作,在海外推出英文版的《路灯》(Pathlight)杂志,每年出 4 本。大家同样可以在Paper Republic和Twitter上关注Pathlight。 2017年,艾瑞克离开了北京。 同时推荐一些其他非常赞的非盈利翻译计划/项目,均可以通过rss或者newsletter订阅获取更新: One Piece翻译计划: ONES Piece 翻译计划 – 聚焦科技、创投和商业(科技、商业) China Law Translate:http://www.chinalawtranslate.com/(中国法律翻译) 译言古登堡计划:译言古登堡计划(外文引进,盈利) 掘金翻译计划:掘金 – juejin.im – 一个帮助开发者成长的社区(互联网开发)

泰坦尼克号上的最后一名幸存者

距离1912年4月14日夜里撞上冰山并于次日凌晨彻底沉睡于冰冷的3800米深北大西洋海底的泰坦尼克号沉船事故,整整106年的时光已经过去。 作为一艘奥林匹克级邮轮,泰坦尼克号是同级的3艘超级邮轮中的第2艘,与姐妹船奥林匹克号和不列颠号为白星航运公司的乘客们提供大西洋旅行。 这艘由位于北爱尔兰贝尔法斯特的哈兰•沃尔夫船厂兴建并成为当时最大的客运轮船,由于其规模相当一艘现代航空母舰,因而号称「上帝也沉没不了的巨型邮轮」。 但在其从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划横渡大西洋前往美国纽约市的处女航当中,因为人为的错误,最终邮轮不幸撞上冰山,导致超过1500人罹难,堪称20世纪最大的海难事件。 同样作为一场20世纪技术、资本、人力、时间共建的奇迹,泰坦尼克曾经让人看到一个世纪之初鼎盛的欧洲工业时代生产能力、社会阶级形态、审美风尚与生活文化。 但它的沉没,却更像是那个时代中某些光辉的陨落。 借助于现代科技与海洋探测技术的发展,人类最终于海难发生73年后的1985年9月1日成功定位这艘世纪巨轮的沉船遗址,其残骸被美国海洋学家罗伯•巴拉德发现。 然而,伴随着泰坦尼克号沉船发现以及残骸打捞的却是,当年幸免于难的乘客的相续离世。一百年后的二十一世纪初,泰坦尼克号仅剩3名幸存者,皆为女性。 2006年5月6日,一名见证事件的生还者逝世,终年99岁,事发当时5岁。 2007年10月16日,另外一位生还者逝世,终年96岁,事发当时她不足一岁,因此对事件没有回忆。 2009年5月31日,最后一名生还者密尔维娜•狄恩(Millvina Dean)逝世,享寿97岁,事故时她只有9周大,是泰坦尼克号船难中最年轻的生还者,她同样对事件没有记忆。 最后一名生还者逝世后,亦代表泰坦尼克号的所有乘客都已逝世。 关于密尔维娜,多年以来,因为回避众人的关注,而且她本人对其作为泰坦尼克号幸存者的身份避而不谈,所以外界对于她的故事知之甚少,幸而在其晚年的时候,她开始面对自己的那一段往事,并且参加了几次与泰坦尼克有关的活动。 也很少人知道,纵然密尔维娜在1912年这场海难中幸存了下来,但是她却因此失去了自己的父亲。甚至连乘坐泰坦尼克号这件事情本身就是一个错误。 那是1912年的2月,密尔维娜刚出生不久,她的父亲就决定移民到密苏里州堪萨斯市,他计划在那里开一家烟草店。一家人本打算乘坐白星...

童年

Image
第一次开车走小路回家,路途崎岖折叠,有好几次甚至迷了路。山间的公路起起伏伏,像是漂泊在海上的肠子。 我记不清上一次在家里是哪一个夏天,除了前年带你回家。再往前竟然全是南半球的冬天。 大概是这些年一直背井离乡,公路旁的白杨树明显比从前粗了许多,树叶也茂盛了。白杨后面是满眼绿色的稻田,一层又一层,从山腰蔓延到山脚。 我不能解释这样熟悉而又陌生的感受,夏天和童年的记忆仿佛一瞬间又全部回来。 午休的时候,思琪一直在旁边玩耍,一会儿要我陪她出去玩,一会儿要我念故事书给她听。她长大了,又像是没有长大。长大的感觉是从前每次风尘仆仆地从非洲回家,看她渐渐地从呱呱坠地到牙牙学语;没有长大的感觉是,哪怕是过了这么多年,这依然是个爱撒娇的小女孩,有时候还有一些调皮。 那个时候,我在Twitter里写: 「思琪慢慢地长大,想起去年回国她好像还不太会说话,今天发现她居然会唱《小苹果》了。姥姥训她的时候,带着哭腔的她似乎有一肚子的委屈要讲,可怜又可爱。」 「大概是女孩子的天赋,小思琪已然学会了撒娇。姥姥批评她的时候她便讲,我要去告诉舅舅。走到我面前,还没开口,自己已经破涕为笑了。」 那是14年的春天,她似乎连路还走不稳,我抱着她在屋后的春天里散步,也是第一次,明显地意识到母亲渐渐地老了。 从一代人到另一代人的过渡,从来都伴随着这样的无可奈何和无能为力。岁月无情。 屋子旧了,故乡陌生了。思琪长大了,妈妈却老了。我只觉得自己像那冬末春初的季节,青黄不接。 几乎是和姥姥度过了所有的童年的思琪,常常让我想起自己的小时候,那时爸妈一个离家出走的玩笑,我和姐姐便已经开始忍不住抹眼泪。 小孩子或许也懂得并且能够体会孤单的滋味,只是他们尚不知孤单这两个字怎么写。 傍晚的时候,带她去马路上玩耍,刚走到河边,她突然讲到,「记不记得我们从前在这里拍照?」我一时惊讶得讲不出话来。 这件微不足道的小事,我想了一下,已经明明是两年前的事情了。 她一边笑着跳着,一边学着布谷鸟的叫声。傍晚的天空中有飞机飞过,她又拉着我一遍一遍地喊着「飞机,飞机」。 看她这样的叽叽喳喳,心里忽然多出了许多安慰。她的童年和我的童年不太一样。但这一刻我觉得她是快乐的。心里长久以来的一些担心也慢慢地消解了。 回到家里,她突然翻箱倒柜地翻出一堆美术书,还要我陪她画画。虽然只是简单的涂鸦和上色,我却再次惊讶于她已经能够区分红色与粉色,蓝色与绿色,甚至在...

机器翻译时间轴

2018 Google I/O最后一日,Alphabet董事长John Hennessy亲口承认:Google Duplex已经在预约领域通过了图灵测试。 40年代,Warren Weaver在「翻译」备忘录里展现了机器翻译的可计算性,并提出了两个主要观点。第一个观点:他认为翻译类似于解读密码的过程,“翻译即解码”。第二个观点:他认为原文与译文“说的是同样的事情”。 80年代的机器翻译方法以转换方法为代表,开始普遍采用以分析为主,辅以语义分析的基于规则方法来进行翻译,采用抽象转换表示的分层实现策略。语法与算法的分开是这一时期机器翻译的另一个特点。 今天的机器翻译发展,已经加入深度学习等AI技术,不止于简单地将一个个单词翻译成另一种语言,而是可以像人工翻译一样,不断向前回顾理解结构复杂的句子,并且联系上下文进行翻译。 最为明显的就是,依赖于两种神经网络架构:一个是循环神经网络(RNN),另一个是卷积神经网络(CNN),现在的部分机器翻译软件已经可以理解每一个代词具体指代谁。

中兴制裁事件时间轴

2016年3月7日,美国政府以中兴向伊朗出口为由,宣布对中兴进行了出口管制。 2016年3月24日在中国政府和中兴企业的努力之下,美国商务部宣布给予中兴及负责中兴采购的公司中兴康讯临时许可。但临时许可只是到2016年6月30日。 在后续谈判中,美国方面两次延长了临时许可,一直到2017年3月7日。中兴宣布,公司已经与美国政府就美国政府出口管制调查案件达成和解。 中兴通讯与美国财政部海外资产控制办公室的协议签署即生效,与美国司法部的协议在美国德州北区法院批准后生效。法院批准后,美国商务部工业与安全局(简称BIS)签发其与中兴通讯和解命令。 作为和解协议的一部分,中兴通讯同意支付892,360,064美元的刑事和民事罚金。此外,还有给美国商务部工业与安全局300,000,000美元罚金被暂缓。是否支付,取决于未来七年公司对协议的遵守并继续接受独立的合规监管和审计。共计8.9236亿美元罚金+3亿美元延迟罚金。 作为和解协议的一部分,中兴同意解职其4位高级员工,并对35名其他员工减少奖金或处分。 中兴于2016年11月、2017年7月向美国政府提交的两封信中称,公司已经或即将对此前认定违规的39名员工进行了处分。 2018年2月,美国商务部工业和安全局要求中兴通讯提供阶段性报告,要求提供向美国政府提交的两封信中提到的所有员工的职位,权责,工资和奖金信息。 根据美方展开的调查,最终“中兴通讯承认,直到被要求阶段性报告一个月之后(即2018年3月),中兴并没有对员工开出处分信函,而且除了一名员工之外,所有相关员工都拿到了2016年的奖金。” 2018年3月13日,美国商务部工业和安全局发函告知中兴通讯,由于违反了和解协议中的待定条款,对中兴的待定制裁会生效。 美国商务部执行秘书长Richard R. Majauskas评估了中兴通讯的回应,加上根据美国商务部跨年调查期间中兴通讯对美国政府的应对,他认为中兴进行了欺骗之举,做出虚假陈述,还重复违反美国法律。最终,Majauskas签署了对中兴实施禁令的文件。 信函中给予了中兴通讯回应的机会,中兴于2018年3月16日作出了回应。 中兴在2018年3月承认,其解雇了4位高级员工,但没有对35名其他员工减少奖金或处分。 北京时间2018年4月17日凌晨,也就是美东时间4月16日,美国商务部在宣布,将禁止美国公司向中兴通讯销售零部件、...

关于《旅行青蛙》游戏流行的一点分析

先看一组数据: 据日媒《朝日周刊》报道,《旅行青蛙》在全球AppStore的总下载量已经达到1000万次,而按地区分其中日本占2%,美国为1%,而中国则达到了惊人的95%。也就是约950万的下载量归功于国内玩家,然而,该游戏在App Store和Google Play上却没有官方中文版。 这是二月初的数据。 而且也有数据显示,这款游戏在女性用户群体中最受欢迎,《旅行青蛙》开发商Hit-Point也表示在策划之初就是以女性玩家为目标的。但是对于《旅行青蛙》在中国的走红,Hit-Point一开始也是“一脸懵逼”。 关于Hit-Point公司,报道其实也相当多,该公司在2014年推出过热门游戏Neko Atsume,即猫咪后院。关于《旅行青蛙》的玩法,相信也无需我多言:一只青蛙坐在石屋里吃东西、看书,你则负责收集前院里的三叶草。三叶草可用来购买青蛙旅行时需要的食物。青蛙去旅行后,它会消失多久不确定。有时它会旅行几个小时,有时甚至几天。回来时,它会展示旅行时拍的照片和纪念品。 关于这款游戏在中国走红的原因,既有意外的偶然性,也有其必然性。偶然性不用说,下文将探讨几个方面的必然性。 •情感寄托这一点从该游戏刷屏微信、微博各大SNS可以看出。很多玩家都亲切地称青蛙为“蛙儿子”,很多90后女性会自称“老母亲”,甚至有玩家表示“不过养蛙算是体会到了我妈的心情,蛙在家的时候盼着它出门,出了门又盼它回来,大概跟我假期在家被我妈念是一样的。” •佛系生活自从去年12月“佛系”这个概念走红社交网络之后,越来越多的年轻人都把这个词当做了自己的标签。这一次的《旅行青蛙》恰好就踏准了这个点,因为作为一款放置类游戏,《旅行青蛙》没有任何养成元素,也没有任何游戏目标。这款游戏也没有什么“升级过关”的概念,一切都是那么随缘,是不是听上去就很“佛”系?说得再过一点,游戏也是迎合了当前年轻一代不争不抢、无欲无求的“丧”文化。 •社交媒体痴迷于日文ACG文化的微博/微信博主和这种亚文化的消费主体早期针对该游戏的自发宣传和推波助澜作用明显。这一点从微信指数搜索关键词“旅行青蛙”可以看出,针对该游戏的讨论在微信公众平台上于1月下旬达到了峰值。 •膜文化由于“青蛙”和“蛤”高度相似,有一些玩家甚至将养蛙游戏跟“膜文化”联系在了一起。“膜”是网络喜爱前国家领导人J现象的特定说法。“旅行青蛙”玩家中不乏“真正的粉丝”...

为什么说“泰坦尼克号”是一场人为的悲剧?

这是一篇阅读笔记。 把时钟拨回至于1912年4月14日夜里11点40分,由白星航运White-Star Line公司建造的号称“上帝也沉没不了的巨型邮轮”“泰坦尼克号”不幸撞上60英尺的冰山,并于2小时40分钟后,即4月15日凌晨02点20分,船裂成两半后沉入大西洋,死亡人数超越1500人,堪称20世纪最大的海难事件。 这也是“泰坦尼克号”的处女航,它从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划横渡大西洋前往美国纽约市。 一百零六年后的今天,当我在阅读这本由Madison Press Books出版的小册子“Amazing answers to your questions about the Titanic”时,关于这次海难更多的历史细节渐渐地浮出海面,进入我的脑海。我也开始明白,“泰坦尼克号”为什么被称为一场人为的悲剧的更多真实原因。 所以,下文中列出的所有关于此次海难的细节,也均是我在阅读这本小册子时所思考或者假设的,即如果这个细节被重视、被避免或者被纠正了,很大程度上讲,这场广为人知的海难也许就不会发生了。 1.救生艇演习 据说星期日(即1912年4月14日)的救生艇演习因为大风取消了,可能因为同样的原因没有向乘客发出警报。而且后来有一个船员作证,此类演习只在纽约停泊时举行过,因为英国法律没有强制要求举行演习。 救生艇演习不能从根本上避免此次海难的发生,但在某种程度上是一定可以挽救当时更多的生命。这一点可以从下降救生艇时的混乱以及早期救生艇乘客不足可以看出。 2.救生艇数量 船上的20条救生艇仅能供1178人使用,而船上总人数达2227人。这意味着大约1029个乘客,在“泰坦尼克号”的处女航中注定罹难。 1894年,英国海外贸易局规定1万吨以上的轮船必须配备至少16条救生船。但是船的规模在迅速变化,这些规定却一成不变。当时“泰坦尼克号”的重量为53,000吨,却只携带了20条救生船。 3.船长判断 二副莱托勒于下午6点钟开始值班,他让六副穆迪参考卡罗尼亚号的方位,估算出邮轮预计何时遇到浮冰。穆迪稍后告诉他,邮轮预计晚上11点钟左右遇到浮冰。 史密斯船长和莱托勒探讨过在这样一个风平浪静、视野清晰的夜晚是否可以观察到冰山。但是船长却并未命令莱托勒降低航速。船长说如果起雾,就要降低航速,但是没有雾时,他很确信瞭望员可以发现冰情,邮轮有足够的时...

谷歌翻译的浅薄之处

今天推荐《大西洋月刊》一篇 DOUGLAS HOFSTADTER 前段写的 The Shallowness of Google Translate 。和当下大多看好人工智能加持的机器翻译不同, DOUGLAS 的观点犀利而有趣。 文章从分别从几个不同语言的转换实例论证 Google Translate 的肤浅之处:一为 Google Translate 无法判别法语(德语同理)词中的 Gender ;二为在处理谚语如 One swallow does not thirst quench 时机器翻译所面临的困难;三为同义词的处理困难(如 ungerade” was almost always translated as “odd 、 “Wissenschaftler” means either “scientist” or “scholar. )和文学翻译中对于(专有)名词和词组的处理困难(文中举了《我们仨》片段的例子,汉藏与印欧语系的转换远远要比英法 / 英德的转换困难的多)。 所以作者理解的 Deep Mind 更趋向于其描述的 Whenever I translate, I first read the original text carefully and internalize the ideas as clearly as I can, letting them slosh back and forth in my mind. It’s not that the words of the original are sloshing back and forth; it’s the ideas that are triggering all sorts of related ideas, creating a rich halo of related scenarios in my mind. 而拥有更多数据的搜索引擎和神经机器翻译并不意味着对翻译中 idea 的理解带来任何帮助。大多数人之所以满足于 Google Translate 也正是基于机器翻译实现了 get the basic idea 的功能。这种转换在作者看来,距离 Translate 真正的含义是远远不够的。不过对于机器翻译的未来, DOUGLAS 并不悲观,它只是需要时间。 ...

谷歌翻译的音乐之旅

十一年前,为打破语言障碍,谷歌翻译得以创立。自那时起,它已促使全世界数十亿人和企业能以新的方式相互交谈,联络和理解。 最近,我们开始重新构想如何将翻译的使用与音乐联系起来。瑞典的音乐产业是世界上最成功的英国热门音乐出口商之一,艺术家如Abba,The Cardigans和Avicii均来自该国。但仍有许多才华横溢的瑞典艺术家,除了在北欧这样一个小国家,他们并没有得到应有的认可或成功。 这点亮了一个创意:是否有可能利用谷歌翻译将瑞典的乐队推向国际化? 所以,今天我们所要展示的翻译之旅,正是瑞典独立流行音乐集团Vita Bergen借助谷歌翻译使用三种不同的语言——英文、西班牙文和法文——在三个不同的欧洲城市街头演奏他们的新单曲“TändLjusen”。 而且很快,乐队将前往伦敦、巴黎和马德里,在大众面前演唱他们为当地改编的歌曲——旨在传播瑞典音乐文化,并邀请世界各地的人们走进乐队的欧洲独立流行音乐世界。 去年,谷歌翻译由基于短语的翻译(phrase-based translation)进化为谷歌神经机器翻译(Google Neural Machine Translation),这意味着翻译工具已经能够一次性翻译整个句子,而不再是只言片语的运作。更大范围语境的使用有助于其理解相关翻译,然后重新排列整合,使其变得更像是一个使用正确语法讲话的人。 版本更新后的谷歌翻译,使得这首歌的英文版、西班牙文版和法文版的翻译近于完美。而且随着系统被越来越多的人使用,翻译效果也日臻完善。 收听“Tänd Ljusen”的各个版本: 瑞典语版: http://dwz.cn/77ougx 英语版: http://dwz.cn/77ovFj 西班牙语版: http://dwz.cn/77owps 法语版: http://dwz.cn/77owhr 翻译: Nansey 来源: 谷歌翻译博客