Posts

冰岛没有火车

算起从冰岛回武汉,已经整整一个月过去。所以无论是游记也好,攻略也罢,这的确是一篇姗姗来迟的叙述。 三号从武汉出发,十三号再次回到武汉,算上在飞机上和转机机场里打酱油的时间,一共整整十天。而真正待在冰岛的时间只有八天的样子,时间并不是很充裕,所幸冰岛并不是一个很大的国家,环岛一号公路( Ring Road )的周长也只有 1332 公里。 决定自驾好像是自然而然的事情,冰岛并不是一个公共交通十分发达的国家。旅程快要结束的时候,我才突然想起来问老婆,我好想都没有看到过火车呢。我是这样一个后知后觉的人。刚才看了一下维基百科,冰岛的确是没有公共铁路交通的。 我又不是一个擅长或是喜欢做旅游攻略的人,哪怕是明天出发,我可能会在今晚买一张票,第二天背上包就走了。但是旅途就像生活,两个人毕竟和一个人不再一样。我于是真的开始乖乖地做起了攻略,包括各种景点、住宿、里程,还设计了专门的表格。 傻傻地做了很久,才终于差强人意。 这里想说一下 Google Trips ,今天的 Google 有多智能化呢,当我在 Ebooker 和 Booking 上订完机票和酒店后, Gmail 收到 confirmation 的那一刻, Google Trips 就可以同步帮你制定所有的旅行计划,计划不仅包括你的 itinerary 和酒店 reservation 、还包括当地的所有热门景点、美食、购物、货币、公共交通、医疗保险等信息,系统甚至会自动生成 Day plans 。包括你的过境国家和城市。 决定行程后的第一件事当然是订飞机票。很多人大概知道,机票订得越早,获得的优惠就会越大。我们开始决定预定已经是接近七月底了,因为十一期间又是旅游的旺季,老婆已经非常担心买不到票了,她是这样一个喜欢万事俱备的人,我自己常常是丢三落四,做事情虎头蛇尾。于是匆匆忙忙地订到了一张,两个人好像是拿到了最后一张登船票般的喜悦。过了几天,却发现武汉飞雷克雅未克的机票居然降价了。 网络上虽然有各种各样的应用和网站可以比较各家航空公司的机票价格与优势,个人还是比较推荐 Skyscanner ,支持 App 和 Web ,也支持在 Chrome 上添加插件,以及邮件订阅功能。设置完 Price Alert 之后,如果有更低的价格时,系统会自动发送提醒。当然啦,并不是价格优惠就一定更好,还得留心一下飞...

机器翻译的炒作艺术

百度公布了自己研发的 STACL 系统( Simultaneous Translation with Anticipation and Controllable Latency ,带有预测和可控延迟的即时翻译),据称也能在译者开始讲话后几秒钟,而不是说完一段话后,就开始进行几乎同步的翻译。 如名称所示,刚刚讲到的「几秒钟」实际上是一个可控制的时长。当你需要在两种关联性相对较强的语言间互译时(比如说法语和西班牙语), STACL 差不多能做到隔开一个词就开始翻译。而当两种被译语言差距很大(比如中文和英文),系统在翻译前要等待的时间就可能会更久,只有这样才能保证更好的准确性。 百度官方发布的关于 STACL 系统的博客公告里提到 STACL 系统的重大技术突破: We tackled this challenge using an idea inspired by human simultaneous interpreters, who routinely anticipate or predict materials that the speaker is about to cover in a few seconds into the future. However, different from human interpreters, our model does not predict the source language words in the speaker’s speech but instead directly predict the target language words in the translation. CNBC 的报道里提到的重要一点,百度的预测功能是基于 200 万对中英语料库。 Baidu Research Blog : Baidu Research Engadget 报道: 百度开发了自己的即时翻译系统 官方 Demo 视频演示: Demos for STACL (Simultaneous Translation with Int… Paper 地址: STACL: Simultaneous Translation with … 以上是 10 月 27 日,也就是 STACL 系统发布的第三天...

MIT:“无监督”语言翻译模型

目前,来自谷歌、 Facebook 、微软和亚马逊等公司的机器翻译系统,是监督式的机器翻译,需要大量的对齐语料。而对相对小众的小语种来说,对齐语料很少,数据的积累十分耗时且难以收集。 为了克服对齐语料稀缺的困难,最近几年出现了一些无监督机器翻译相关的研究,比如仅利用单语语料(即拥有分别拥有两种语言的大量语料,但没有互相之间的对齐和翻译数据),在训练中引入对偶学习( Dual Learning )、联合训练( Joint Training )、对齐嵌入空间等训练技巧,取得了不错的效果,有些论文的结果甚至可以与对齐语料训练出来的模型结果相近。但这些无监督机器翻译的一大缺点就是训练速度过于缓慢。比如对偶学习,如图,特殊的对偶结构,使得两个任务可以互相提供反馈信息,而这些反馈信息可以帮助更好地训练深度学习模型。本模型某一步可能翻译出错,反馈给另一模型之后,另一模型可以用自身的语言模型纠正(修改成符合自身语法的语句),然后经再次翻译之后反馈给本模型。这种学习模式需要大量反复的调整和学习,由此带来训练时间的大幅增加。 麻省理工学院的研究人员开发的这种新颖的 “ 无监督 ” 语言翻译模型,既不像监督式机器翻译任务一样需要对齐语料,同时又克服了无监督机器翻译任务耗时低效的缺点,实现更快捷、更有效的语言翻译,从而使更多的语言翻译可以通过计算机来完成。 本文发表在自然语言处理四大顶级会议之一的 EMNLP 会议上,两位作者 Tommi Jaakkola 和 David Alvarez-Melis 都是来自麻省理工学院计算机科学与人工智能实验室( CSAIL )的研究人员。 论文链接: https://arxiv.org/pdf/1809.00013.pdf 近年,研究人员一直在尝试研究无监督式的 “ 单语 ” 模型,不需要使用两种语言之间的翻译数据就可以实现语言的直接翻译。

2018年上半年NMT研究产出风起云涌

Image
2017 年被认为是神经机器翻译( NMT )变得主流的一年,但这并不意味着 “ 问题被解决 ” ,而且远非如此的是,任何使用这种高级在线机器翻译网站且精通双语的人都可以证明这一点。 而且,没有成千上万也有成百上千的研究人员在研究该问题。到 2018 年中,神经机器翻译( NMT )研究与去年同期相比骤增了 115% 。 2017 年 1 月至 6 月, Slator 在康奈尔大学的自动化在线研究分发系统 Arxiv.org 上发现了 91 篇与神经机器翻译( NMT )相关的研究论文(标题或摘要带关键词 “ 神经机器翻译 ” )。 在今年同一时期,这一数字飙升至 196 。 正如我们之前所提醒的,有一些误报和神经机器翻译( NMT )作为一个活跃领域被提及或被用作测试与更大领域相关假设的实验,如自然语言处理( NLP )甚至机器学习和一般的深度学习。 还有重新提交的问题,即之前发布的研究论文的第一版更新了新信息或者做了更正。 虽然这些论文本身并非独一无二,但仍然会为在该领域开展的研究活动计数。 轻微降温 2018 年可谓是一个疯狂的春天,世界上的一些大型科技公司发表了数十篇论文后, 7 月份的(论文)提交活动与前几个月相比竟然有所放缓。 7 月份仅有 26 篇研究论文提交,其中只有 9 篇与神经机器翻译( NMT )直接相关,且并非之前提交的更新版本。 越来越多的研究论文会将神经机器翻译( NMT )作为最先进的神经网络技术基准而提及。 神经机器翻译研究产出 自 2014 年 1 月 1 日至 2018 年 7 月 31 日期间在 Arxiv.org 上发表的标题或摘要提及神经机器翻译( NMT )的研究论文 这对神经机器翻译( NMT )研究人员来说当然是个好兆头,但也意味着在搜索 Arxiv 数据库时会出现越来越多的误报。此外,随着研究人员更新他们的论文,以前发布版本的重新提交和更新的数量也在增加。 进化中的研究方向 假以时日,自神经机器翻译( NMT )成为主流以来,一般性的研究课题已经发生了变化。 2017 年 11 月 1 日至 2018 年 2 月 14 日期间, Arxiv 上的研究主要集中在这样几个议题上,即提高产出质量和解决训练数据限制(例如资源匮乏语言)。 看看那些参与了 2018 年...

翻译推荐:纸托邦

这大概是今年看到的最使我感动的非盈利项目,一个运行了10年的却可能鲜为人知的关于文学、出版、翻译的计划。它可能是目前为止英文世界观察中国文学最好的窗口。 站长艾瑞克,一个高个子美国人在中国呆了17年,热爱北京,热爱中国文学,中文说得很棒。他曾翻译过王小波、苏童、毕飞宇、阿乙、盛可以、徐则臣等中国作家的作品。 他曾获得美国笔会(PEN)翻译基金奖、美国国家艺术基金(NEA)翻译基金奖、美国文学翻译协会(ALTA)国家翻译奖短名单提名。 艾瑞克正在翻译鲁羊的短篇小说《银色老虎》,鲁羊则是一位上世纪90年代末期活跃于“断裂”文学运动的作家。 三个月后,《银色老虎》在《纽约客》年度夏季小说专刊上发表了,鲁羊是第三位在《纽约客》上发表小说作品的中国大陆作家,其他两位是莫言(2012年)和余华(2013年)。 纽约客Silver Tiger 链接(推荐阅读):“Silver Tiger” | The New Yorker 2011 年,纸托邦和《人民文学》杂志合作,在海外推出英文版的《路灯》(Pathlight)杂志,每年出 4 本。大家同样可以在Paper Republic和Twitter上关注Pathlight。 2017年,艾瑞克离开了北京。 同时推荐一些其他非常赞的非盈利翻译计划/项目,均可以通过rss或者newsletter订阅获取更新: One Piece翻译计划: ONES Piece 翻译计划 – 聚焦科技、创投和商业(科技、商业) China Law Translate:http://www.chinalawtranslate.com/(中国法律翻译) 译言古登堡计划:译言古登堡计划(外文引进,盈利) 掘金翻译计划:掘金 – juejin.im – 一个帮助开发者成长的社区(互联网开发)

泰坦尼克号上的最后一名幸存者

距离1912年4月14日夜里撞上冰山并于次日凌晨彻底沉睡于冰冷的3800米深北大西洋海底的泰坦尼克号沉船事故,整整106年的时光已经过去。 作为一艘奥林匹克级邮轮,泰坦尼克号是同级的3艘超级邮轮中的第2艘,与姐妹船奥林匹克号和不列颠号为白星航运公司的乘客们提供大西洋旅行。 这艘由位于北爱尔兰贝尔法斯特的哈兰•沃尔夫船厂兴建并成为当时最大的客运轮船,由于其规模相当一艘现代航空母舰,因而号称「上帝也沉没不了的巨型邮轮」。 但在其从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划横渡大西洋前往美国纽约市的处女航当中,因为人为的错误,最终邮轮不幸撞上冰山,导致超过1500人罹难,堪称20世纪最大的海难事件。 同样作为一场20世纪技术、资本、人力、时间共建的奇迹,泰坦尼克曾经让人看到一个世纪之初鼎盛的欧洲工业时代生产能力、社会阶级形态、审美风尚与生活文化。 但它的沉没,却更像是那个时代中某些光辉的陨落。 借助于现代科技与海洋探测技术的发展,人类最终于海难发生73年后的1985年9月1日成功定位这艘世纪巨轮的沉船遗址,其残骸被美国海洋学家罗伯•巴拉德发现。 然而,伴随着泰坦尼克号沉船发现以及残骸打捞的却是,当年幸免于难的乘客的相续离世。一百年后的二十一世纪初,泰坦尼克号仅剩3名幸存者,皆为女性。 2006年5月6日,一名见证事件的生还者逝世,终年99岁,事发当时5岁。 2007年10月16日,另外一位生还者逝世,终年96岁,事发当时她不足一岁,因此对事件没有回忆。 2009年5月31日,最后一名生还者密尔维娜•狄恩(Millvina Dean)逝世,享寿97岁,事故时她只有9周大,是泰坦尼克号船难中最年轻的生还者,她同样对事件没有记忆。 最后一名生还者逝世后,亦代表泰坦尼克号的所有乘客都已逝世。 关于密尔维娜,多年以来,因为回避众人的关注,而且她本人对其作为泰坦尼克号幸存者的身份避而不谈,所以外界对于她的故事知之甚少,幸而在其晚年的时候,她开始面对自己的那一段往事,并且参加了几次与泰坦尼克有关的活动。 也很少人知道,纵然密尔维娜在1912年这场海难中幸存了下来,但是她却因此失去了自己的父亲。甚至连乘坐泰坦尼克号这件事情本身就是一个错误。 那是1912年的2月,密尔维娜刚出生不久,她的父亲就决定移民到密苏里州堪萨斯市,他计划在那里开一家烟草店。一家人本打算乘坐白星...

童年

Image
第一次开车走小路回家,路途崎岖折叠,有好几次甚至迷了路。山间的公路起起伏伏,像是漂泊在海上的肠子。 我记不清上一次在家里是哪一个夏天,除了前年带你回家。再往前竟然全是南半球的冬天。 大概是这些年一直背井离乡,公路旁的白杨树明显比从前粗了许多,树叶也茂盛了。白杨后面是满眼绿色的稻田,一层又一层,从山腰蔓延到山脚。 我不能解释这样熟悉而又陌生的感受,夏天和童年的记忆仿佛一瞬间又全部回来。 午休的时候,思琪一直在旁边玩耍,一会儿要我陪她出去玩,一会儿要我念故事书给她听。她长大了,又像是没有长大。长大的感觉是从前每次风尘仆仆地从非洲回家,看她渐渐地从呱呱坠地到牙牙学语;没有长大的感觉是,哪怕是过了这么多年,这依然是个爱撒娇的小女孩,有时候还有一些调皮。 那个时候,我在Twitter里写: 「思琪慢慢地长大,想起去年回国她好像还不太会说话,今天发现她居然会唱《小苹果》了。姥姥训她的时候,带着哭腔的她似乎有一肚子的委屈要讲,可怜又可爱。」 「大概是女孩子的天赋,小思琪已然学会了撒娇。姥姥批评她的时候她便讲,我要去告诉舅舅。走到我面前,还没开口,自己已经破涕为笑了。」 那是14年的春天,她似乎连路还走不稳,我抱着她在屋后的春天里散步,也是第一次,明显地意识到母亲渐渐地老了。 从一代人到另一代人的过渡,从来都伴随着这样的无可奈何和无能为力。岁月无情。 屋子旧了,故乡陌生了。思琪长大了,妈妈却老了。我只觉得自己像那冬末春初的季节,青黄不接。 几乎是和姥姥度过了所有的童年的思琪,常常让我想起自己的小时候,那时爸妈一个离家出走的玩笑,我和姐姐便已经开始忍不住抹眼泪。 小孩子或许也懂得并且能够体会孤单的滋味,只是他们尚不知孤单这两个字怎么写。 傍晚的时候,带她去马路上玩耍,刚走到河边,她突然讲到,「记不记得我们从前在这里拍照?」我一时惊讶得讲不出话来。 这件微不足道的小事,我想了一下,已经明明是两年前的事情了。 她一边笑着跳着,一边学着布谷鸟的叫声。傍晚的天空中有飞机飞过,她又拉着我一遍一遍地喊着「飞机,飞机」。 看她这样的叽叽喳喳,心里忽然多出了许多安慰。她的童年和我的童年不太一样。但这一刻我觉得她是快乐的。心里长久以来的一些担心也慢慢地消解了。 回到家里,她突然翻箱倒柜地翻出一堆美术书,还要我陪她画画。虽然只是简单的涂鸦和上色,我却再次惊讶于她已经能够区分红色与粉色,蓝色与绿色,甚至在...

机器翻译时间轴

2018 Google I/O最后一日,Alphabet董事长John Hennessy亲口承认:Google Duplex已经在预约领域通过了图灵测试。 40年代,Warren Weaver在「翻译」备忘录里展现了机器翻译的可计算性,并提出了两个主要观点。第一个观点:他认为翻译类似于解读密码的过程,“翻译即解码”。第二个观点:他认为原文与译文“说的是同样的事情”。 80年代的机器翻译方法以转换方法为代表,开始普遍采用以分析为主,辅以语义分析的基于规则方法来进行翻译,采用抽象转换表示的分层实现策略。语法与算法的分开是这一时期机器翻译的另一个特点。 今天的机器翻译发展,已经加入深度学习等AI技术,不止于简单地将一个个单词翻译成另一种语言,而是可以像人工翻译一样,不断向前回顾理解结构复杂的句子,并且联系上下文进行翻译。 最为明显的就是,依赖于两种神经网络架构:一个是循环神经网络(RNN),另一个是卷积神经网络(CNN),现在的部分机器翻译软件已经可以理解每一个代词具体指代谁。

中兴制裁事件时间轴

2016年3月7日,美国政府以中兴向伊朗出口为由,宣布对中兴进行了出口管制。 2016年3月24日在中国政府和中兴企业的努力之下,美国商务部宣布给予中兴及负责中兴采购的公司中兴康讯临时许可。但临时许可只是到2016年6月30日。 在后续谈判中,美国方面两次延长了临时许可,一直到2017年3月7日。中兴宣布,公司已经与美国政府就美国政府出口管制调查案件达成和解。 中兴通讯与美国财政部海外资产控制办公室的协议签署即生效,与美国司法部的协议在美国德州北区法院批准后生效。法院批准后,美国商务部工业与安全局(简称BIS)签发其与中兴通讯和解命令。 作为和解协议的一部分,中兴通讯同意支付892,360,064美元的刑事和民事罚金。此外,还有给美国商务部工业与安全局300,000,000美元罚金被暂缓。是否支付,取决于未来七年公司对协议的遵守并继续接受独立的合规监管和审计。共计8.9236亿美元罚金+3亿美元延迟罚金。 作为和解协议的一部分,中兴同意解职其4位高级员工,并对35名其他员工减少奖金或处分。 中兴于2016年11月、2017年7月向美国政府提交的两封信中称,公司已经或即将对此前认定违规的39名员工进行了处分。 2018年2月,美国商务部工业和安全局要求中兴通讯提供阶段性报告,要求提供向美国政府提交的两封信中提到的所有员工的职位,权责,工资和奖金信息。 根据美方展开的调查,最终“中兴通讯承认,直到被要求阶段性报告一个月之后(即2018年3月),中兴并没有对员工开出处分信函,而且除了一名员工之外,所有相关员工都拿到了2016年的奖金。” 2018年3月13日,美国商务部工业和安全局发函告知中兴通讯,由于违反了和解协议中的待定条款,对中兴的待定制裁会生效。 美国商务部执行秘书长Richard R. Majauskas评估了中兴通讯的回应,加上根据美国商务部跨年调查期间中兴通讯对美国政府的应对,他认为中兴进行了欺骗之举,做出虚假陈述,还重复违反美国法律。最终,Majauskas签署了对中兴实施禁令的文件。 信函中给予了中兴通讯回应的机会,中兴于2018年3月16日作出了回应。 中兴在2018年3月承认,其解雇了4位高级员工,但没有对35名其他员工减少奖金或处分。 北京时间2018年4月17日凌晨,也就是美东时间4月16日,美国商务部在宣布,将禁止美国公司向中兴通讯销售零部件、...

关于《旅行青蛙》游戏流行的一点分析

先看一组数据: 据日媒《朝日周刊》报道,《旅行青蛙》在全球AppStore的总下载量已经达到1000万次,而按地区分其中日本占2%,美国为1%,而中国则达到了惊人的95%。也就是约950万的下载量归功于国内玩家,然而,该游戏在App Store和Google Play上却没有官方中文版。 这是二月初的数据。 而且也有数据显示,这款游戏在女性用户群体中最受欢迎,《旅行青蛙》开发商Hit-Point也表示在策划之初就是以女性玩家为目标的。但是对于《旅行青蛙》在中国的走红,Hit-Point一开始也是“一脸懵逼”。 关于Hit-Point公司,报道其实也相当多,该公司在2014年推出过热门游戏Neko Atsume,即猫咪后院。关于《旅行青蛙》的玩法,相信也无需我多言:一只青蛙坐在石屋里吃东西、看书,你则负责收集前院里的三叶草。三叶草可用来购买青蛙旅行时需要的食物。青蛙去旅行后,它会消失多久不确定。有时它会旅行几个小时,有时甚至几天。回来时,它会展示旅行时拍的照片和纪念品。 关于这款游戏在中国走红的原因,既有意外的偶然性,也有其必然性。偶然性不用说,下文将探讨几个方面的必然性。 •情感寄托这一点从该游戏刷屏微信、微博各大SNS可以看出。很多玩家都亲切地称青蛙为“蛙儿子”,很多90后女性会自称“老母亲”,甚至有玩家表示“不过养蛙算是体会到了我妈的心情,蛙在家的时候盼着它出门,出了门又盼它回来,大概跟我假期在家被我妈念是一样的。” •佛系生活自从去年12月“佛系”这个概念走红社交网络之后,越来越多的年轻人都把这个词当做了自己的标签。这一次的《旅行青蛙》恰好就踏准了这个点,因为作为一款放置类游戏,《旅行青蛙》没有任何养成元素,也没有任何游戏目标。这款游戏也没有什么“升级过关”的概念,一切都是那么随缘,是不是听上去就很“佛”系?说得再过一点,游戏也是迎合了当前年轻一代不争不抢、无欲无求的“丧”文化。 •社交媒体痴迷于日文ACG文化的微博/微信博主和这种亚文化的消费主体早期针对该游戏的自发宣传和推波助澜作用明显。这一点从微信指数搜索关键词“旅行青蛙”可以看出,针对该游戏的讨论在微信公众平台上于1月下旬达到了峰值。 •膜文化由于“青蛙”和“蛤”高度相似,有一些玩家甚至将养蛙游戏跟“膜文化”联系在了一起。“膜”是网络喜爱前国家领导人J现象的特定说法。“旅行青蛙”玩家中不乏“真正的粉丝”...