Posts

年终总结:2018

这是一份迟到的年终总结。 当各个网站各个 App 各种书单各种总结纷至沓来的时候,这一年似乎又要悄无声息地流逝了。对于自己来说,这是有失去也有收获的一年。做了一些事情,也有很多的事情没做。 写了 18 篇 博客 ,读了 17 本 书 ,发了 110 条 Tweet ,输出了 255 期「 翻译圈 」主题分享,运营了 2 个近 900 人的 翻译群 ,接了 20 几万字的翻译,也开始接触翻译项目的管理。 和前几年比,书读得少了,博客写得少了,少了的还有一些头发。 17 年运行了整整一年的「 从海底出发 」被弃船了。坚持了几个月的单词计划在夏天还是放弃了。放弃的同时还有产品设计的学习以及断断续续更新的「 有人带来了雪意和五点钟 」。 十月想要故地重游的薄刀峰没有去,十二月想要滑雪的神龙架也要到明年了。计划中的翻译 Newsletter 和公众号计划还没有实施。 但学会了做简单的个人网站。又系统地学习了一遍 CAT ,发现了更多厉害而有趣的人,以及更多需要学习的软件和技术。机器翻译的领域日新月异,技术和工具带来舒适感的同时,也带来了更大的困惑和恐慌。 The more you know, the more you know you don’t know. 花费了一些时间在 RSS 和 Twitter 上,主要是行业动态和专业知识的获取。 翻译 几乎是这一年的重心,甚至包括工作内容本身。不论是知识星球,还是翻译项目,是兴趣爱好,也是无心插柳。 看了许多的 电影 ,和她一起。搞笑的,伤心的,恐怖的,悲伤的。是消遣时间的一种方式,更是促进交流的一种方式。去年的年度最佳是「海边的曼彻斯特」,今年是「狗十三」。 秋天的时候,舅舅离开了,大概是在我的婚礼之前,他的状况已经非常不好了。在蜜月旅行的最后一站,阿克雷里的夜晚还是早晨,妈妈罕见地打了长途电话过来。她向来也是不紧不慢的人,这一次她的语气显得焦急。 回国的飞机临时改签到成都,落地的第一时间给舅娘打了电话,她笑着说舅舅已经离开了。忍不住地流了眼泪。不知道是想起以前舅舅和爸爸之间的旧事,还是想到舅娘拉着三个孩子以后艰难的日子。 冬天的时候,有了第二个外甥女。妈妈可能既难过,又开心。我甚至心里想着这个小天使的到来是否可以冲淡她心里对于舅舅的思念。那是十一月底下班回家的路上,突然收到姐夫的信息...

婚礼

「爱是恒久忍耐,又有恩慈;爱是不嫉妒,爱是不自夸,不张狂,不作害羞的事,不求自己的益处,不轻易发怒,不计算人的恶,不喜欢不义,只喜欢真理;凡事包容,凡事相信,凡事盼望,凡事忍耐;爱是永不止息。」 虽然这是一句被人引用到过度的《圣经》中关于爱的箴言,那一天当葱头和明月念到这句时,还是忍不住眼圈泛红的感动。他们站在婚礼的舞台上,我站在观众席后面,你站在我的身边。 舞台和观众席后面,之间仅有几步之遥,我用了几秒钟就从台前走到台后,但是你从她们那里走到我的身边,我们从八千五百公里之外走到今天的肩并着肩,这中间足足用了七年。 这七年之间,她们是这一场旷日持久的爱恋的见证者,所以看到她们,像是看到所有我们过去闪闪发亮的时光,快乐的,伤心的,困难的,难忘的,等等等等。这是感动的起因。 葱头说,她仍然记得第一次你跟她提起小象这个名字的时候,那个欣喜的表情。我开始试图回忆起你第一次使我心里泛起涟漪的时刻。 可能你从来不相信,或者不愿意相信,在我第一眼看到你,甚至从那个远距离和你对话的时刻起,心里已经有了命中注定的感觉。 这种感觉并非意识到你和她之间注定将会坠入爱河厮守终身,而是彷佛在那一刻间有了突然的第六感,这种感觉却又是说不清道不明的,你只是觉得如芒刺在背,坐立不安。所以我才会在《 长白山的雪 》里引用胡兰成在《民国女子》里写他与张爱玲见面的情景,他觉得心里满满的,想要啸歌,想要说话,想必连那电灯儿见了都是要笑我的。 纵然你说你不喜欢胡兰成这个滥情的角色,但是我依然想要这样讲,它真实而贴切地形容了我最初对于你的感觉。即使是过了七年之后的今天,当我们回头再去看我们当初在社交网络上共同分享的那一段《情人》的开头:那个男人在一处公共场所的大厅里像那个年轻的女人走去,并对她说:我认识你,永远记得你。 我几乎开始怀疑所有世间的相遇都是这样的巧合。但是真实的感觉就是这般,我好像认识你很久了,但是又想不起我们在何时何地如何相遇。所以有人讲,这个世界上,谁与你结发妻,谁与你擦肩过,谁与你长相好,都是命数。芸芸众生,茫茫浮沉,都是事先写好的。 我们的相遇,我们的故事,也一定是早早就写好了的,所以哪怕是后来相处的这么多年里,即使也会像所有其他的情侣一样,有分歧,有争吵,有眼泪,有分分合合,有异国恋里无可避免的时间与空间上的差异,却还是注定走到了感情开花结果的今天。这...

Auto ML Translate 的幕后故事

AutoML Translate 幕后的故事(来源于 Google 高级技术项目经理 Bombassei ) 简而言之, AutoML 是 “ 一种创建自定义模型的方法,而无需编写实际的代码 ” 。例如,对于 AutoML Translate ,用户可以使用域内数据训练 Google 的通用 NMT 引擎,以便根据其用例进行自定义。 越接近翻译,模型的效果越好。 用户通过图形界面提供数据,不需要编码或命令行。在将数据上传到云端之后,训练需大约三个小时,具体取决于其复杂性,之后训练有素的模型便可以执行自定义翻译。 翻译实际上会使用你上传的词条、术语、字典, AutoML 适用于转移学习( transfer learning )和神经架构搜索( neural architecture search )。转移学习是一种使用机器学习模型作为培训的基础方法。 类比便是,如果你已经知道如何骑自行车,那么你骑摩托车会更加容易,因为你的大脑可以将一些已经学习的知识转移到新的东西上,同时,神经架构搜索 “ 基本上使用了机器学习找到了最好的机器学习模型,并解决问题。 AutoML 是以上两个元素的第一个商业应用。当然,第三个元素是用户提供的训练数据。 Bombassei 表示, AutoML 在软件和硬件方面正在处于领先地位。由于转移学习和神经架构搜索的计算要求非常高,谷歌已经提出了更适合这项任务的物理硬件芯片: TPU 。 这些由 Google 专门设计的芯片,以最有效的方式执行此类计算。传统芯片和图形处理单元( CPU 和 GPU )在机器学习所需的计算方面效率非常低。在机器学习领域中,则需要高度并行,低精度的计算。 CPU 和 GPU 非常擅长并行计算,但它们具有很高的精度,因此浪费了大量的能量来做不需要的事情。 所以才需要 TPU ,而且今年已经是谷歌的第三代 TPU 。在培训机器学习模型方面,它可以把效率提高 10 倍甚至更快。 摩尔定律基本上被判了死刑。

网络时代的小众语言

在互联网时代,当我们遇到语言障碍时,是有许多互联网资源可以解决问题的:翻译 App 、词典网站、各种语言版本的维基百科以及简单的 “click to translate” 选项。 当今世界上有大约 7000 种语言,其中前十余种有上亿人在讲; 但是最底端的三分之一却只有 1000 个或更少的人在使用。 但在朦胧的中间地带,有数百种语言,却也有数百万人在讲。这些中型语言仍然被广泛使用,但它们获得的在线支持却迥然不同。如瑞典语,拥有 960 万使用者, 300 多万篇文章的第三大维基百科,以及 Google Translate 、 Bing Translate 、 Facebook 、 Siri , YouTube 字幕的支持。但如 Odia ,这是印度 Odisha 邦的官方语言,拥有 3800 万使用者,但没有谷歌翻译。以及像 Oromo ,大约有 3400 万人(主要在埃塞俄比亚)使用的一种语言,其维基百科只有 772 篇文章。 为什么区区只有 800 万到 1300 万使用者的希腊语、捷克语、匈牙利语和瑞典语都有 Google Translate 的支持和强大的维基百科呈现,而使用者数量相同甚至更多的语言如 Bhojpuri ( 5100 万)、 Fula ( 2400 万)、 Sylheti ( 1100 万), Quechua ( 900 万)和 Kirundi ( 900 万)却毫无技术支持? 部分原因当然希腊语、捷克语、匈牙利语和瑞典语是欧盟 24 种官方语言之一,这意味着每年都会有一小部分人工译员翻译欧洲议会的许多官方文件。人工翻译的文档为语言学家称之为平行语料库提供了一个很好的基础 —— 大量的多语言平行文本 —— 一个句子接着一个句子。机器翻译引擎使用这些平行语料库来找出语言之间的固定对应关系:如果 “regering” 或 “kυáέρνηση” 或 “kormány” 或 “vláda” 都经常与 “ 政府 ” 并行出现,那么机器则可以下结论这些词是对等的。 为了保证合理有效,机器翻译需要为每种语言提供巨大的平行语料库。理想情况下,这个语料库包含来自各种类型的文档:不仅是议会程序,还有新闻报道、小说、电影剧本等。如果仅通过正式的法律文件进行培训,该机器将无法很好地翻译非正式的社交网络的帖子。翻译工具已经在捡平行语料库的角料:在...

冰岛没有火车

算起从冰岛回武汉,已经整整一个月过去。所以无论是游记也好,攻略也罢,这的确是一篇姗姗来迟的叙述。 三号从武汉出发,十三号再次回到武汉,算上在飞机上和转机机场里打酱油的时间,一共整整十天。而真正待在冰岛的时间只有八天的样子,时间并不是很充裕,所幸冰岛并不是一个很大的国家,环岛一号公路( Ring Road )的周长也只有 1332 公里。 决定自驾好像是自然而然的事情,冰岛并不是一个公共交通十分发达的国家。旅程快要结束的时候,我才突然想起来问老婆,我好想都没有看到过火车呢。我是这样一个后知后觉的人。刚才看了一下维基百科,冰岛的确是没有公共铁路交通的。 我又不是一个擅长或是喜欢做旅游攻略的人,哪怕是明天出发,我可能会在今晚买一张票,第二天背上包就走了。但是旅途就像生活,两个人毕竟和一个人不再一样。我于是真的开始乖乖地做起了攻略,包括各种景点、住宿、里程,还设计了专门的表格。 傻傻地做了很久,才终于差强人意。 这里想说一下 Google Trips ,今天的 Google 有多智能化呢,当我在 Ebooker 和 Booking 上订完机票和酒店后, Gmail 收到 confirmation 的那一刻, Google Trips 就可以同步帮你制定所有的旅行计划,计划不仅包括你的 itinerary 和酒店 reservation 、还包括当地的所有热门景点、美食、购物、货币、公共交通、医疗保险等信息,系统甚至会自动生成 Day plans 。包括你的过境国家和城市。 决定行程后的第一件事当然是订飞机票。很多人大概知道,机票订得越早,获得的优惠就会越大。我们开始决定预定已经是接近七月底了,因为十一期间又是旅游的旺季,老婆已经非常担心买不到票了,她是这样一个喜欢万事俱备的人,我自己常常是丢三落四,做事情虎头蛇尾。于是匆匆忙忙地订到了一张,两个人好像是拿到了最后一张登船票般的喜悦。过了几天,却发现武汉飞雷克雅未克的机票居然降价了。 网络上虽然有各种各样的应用和网站可以比较各家航空公司的机票价格与优势,个人还是比较推荐 Skyscanner ,支持 App 和 Web ,也支持在 Chrome 上添加插件,以及邮件订阅功能。设置完 Price Alert 之后,如果有更低的价格时,系统会自动发送提醒。当然啦,并不是价格优惠就一定更好,还得留心一下飞...

机器翻译的炒作艺术

百度公布了自己研发的 STACL 系统( Simultaneous Translation with Anticipation and Controllable Latency ,带有预测和可控延迟的即时翻译),据称也能在译者开始讲话后几秒钟,而不是说完一段话后,就开始进行几乎同步的翻译。 如名称所示,刚刚讲到的「几秒钟」实际上是一个可控制的时长。当你需要在两种关联性相对较强的语言间互译时(比如说法语和西班牙语), STACL 差不多能做到隔开一个词就开始翻译。而当两种被译语言差距很大(比如中文和英文),系统在翻译前要等待的时间就可能会更久,只有这样才能保证更好的准确性。 百度官方发布的关于 STACL 系统的博客公告里提到 STACL 系统的重大技术突破: We tackled this challenge using an idea inspired by human simultaneous interpreters, who routinely anticipate or predict materials that the speaker is about to cover in a few seconds into the future. However, different from human interpreters, our model does not predict the source language words in the speaker’s speech but instead directly predict the target language words in the translation. CNBC 的报道里提到的重要一点,百度的预测功能是基于 200 万对中英语料库。 Baidu Research Blog : Baidu Research Engadget 报道: 百度开发了自己的即时翻译系统 官方 Demo 视频演示: Demos for STACL (Simultaneous Translation with Int… Paper 地址: STACL: Simultaneous Translation with … 以上是 10 月 27 日,也就是 STACL 系统发布的第三天...

MIT:“无监督”语言翻译模型

目前,来自谷歌、 Facebook 、微软和亚马逊等公司的机器翻译系统,是监督式的机器翻译,需要大量的对齐语料。而对相对小众的小语种来说,对齐语料很少,数据的积累十分耗时且难以收集。 为了克服对齐语料稀缺的困难,最近几年出现了一些无监督机器翻译相关的研究,比如仅利用单语语料(即拥有分别拥有两种语言的大量语料,但没有互相之间的对齐和翻译数据),在训练中引入对偶学习( Dual Learning )、联合训练( Joint Training )、对齐嵌入空间等训练技巧,取得了不错的效果,有些论文的结果甚至可以与对齐语料训练出来的模型结果相近。但这些无监督机器翻译的一大缺点就是训练速度过于缓慢。比如对偶学习,如图,特殊的对偶结构,使得两个任务可以互相提供反馈信息,而这些反馈信息可以帮助更好地训练深度学习模型。本模型某一步可能翻译出错,反馈给另一模型之后,另一模型可以用自身的语言模型纠正(修改成符合自身语法的语句),然后经再次翻译之后反馈给本模型。这种学习模式需要大量反复的调整和学习,由此带来训练时间的大幅增加。 麻省理工学院的研究人员开发的这种新颖的 “ 无监督 ” 语言翻译模型,既不像监督式机器翻译任务一样需要对齐语料,同时又克服了无监督机器翻译任务耗时低效的缺点,实现更快捷、更有效的语言翻译,从而使更多的语言翻译可以通过计算机来完成。 本文发表在自然语言处理四大顶级会议之一的 EMNLP 会议上,两位作者 Tommi Jaakkola 和 David Alvarez-Melis 都是来自麻省理工学院计算机科学与人工智能实验室( CSAIL )的研究人员。 论文链接: https://arxiv.org/pdf/1809.00013.pdf 近年,研究人员一直在尝试研究无监督式的 “ 单语 ” 模型,不需要使用两种语言之间的翻译数据就可以实现语言的直接翻译。

2018年上半年NMT研究产出风起云涌

Image
2017 年被认为是神经机器翻译( NMT )变得主流的一年,但这并不意味着 “ 问题被解决 ” ,而且远非如此的是,任何使用这种高级在线机器翻译网站且精通双语的人都可以证明这一点。 而且,没有成千上万也有成百上千的研究人员在研究该问题。到 2018 年中,神经机器翻译( NMT )研究与去年同期相比骤增了 115% 。 2017 年 1 月至 6 月, Slator 在康奈尔大学的自动化在线研究分发系统 Arxiv.org 上发现了 91 篇与神经机器翻译( NMT )相关的研究论文(标题或摘要带关键词 “ 神经机器翻译 ” )。 在今年同一时期,这一数字飙升至 196 。 正如我们之前所提醒的,有一些误报和神经机器翻译( NMT )作为一个活跃领域被提及或被用作测试与更大领域相关假设的实验,如自然语言处理( NLP )甚至机器学习和一般的深度学习。 还有重新提交的问题,即之前发布的研究论文的第一版更新了新信息或者做了更正。 虽然这些论文本身并非独一无二,但仍然会为在该领域开展的研究活动计数。 轻微降温 2018 年可谓是一个疯狂的春天,世界上的一些大型科技公司发表了数十篇论文后, 7 月份的(论文)提交活动与前几个月相比竟然有所放缓。 7 月份仅有 26 篇研究论文提交,其中只有 9 篇与神经机器翻译( NMT )直接相关,且并非之前提交的更新版本。 越来越多的研究论文会将神经机器翻译( NMT )作为最先进的神经网络技术基准而提及。 神经机器翻译研究产出 自 2014 年 1 月 1 日至 2018 年 7 月 31 日期间在 Arxiv.org 上发表的标题或摘要提及神经机器翻译( NMT )的研究论文 这对神经机器翻译( NMT )研究人员来说当然是个好兆头,但也意味着在搜索 Arxiv 数据库时会出现越来越多的误报。此外,随着研究人员更新他们的论文,以前发布版本的重新提交和更新的数量也在增加。 进化中的研究方向 假以时日,自神经机器翻译( NMT )成为主流以来,一般性的研究课题已经发生了变化。 2017 年 11 月 1 日至 2018 年 2 月 14 日期间, Arxiv 上的研究主要集中在这样几个议题上,即提高产出质量和解决训练数据限制(例如资源匮乏语言)。 看看那些参与了 2018 年...

翻译推荐:纸托邦

这大概是今年看到的最使我感动的非盈利项目,一个运行了10年的却可能鲜为人知的关于文学、出版、翻译的计划。它可能是目前为止英文世界观察中国文学最好的窗口。 站长艾瑞克,一个高个子美国人在中国呆了17年,热爱北京,热爱中国文学,中文说得很棒。他曾翻译过王小波、苏童、毕飞宇、阿乙、盛可以、徐则臣等中国作家的作品。 他曾获得美国笔会(PEN)翻译基金奖、美国国家艺术基金(NEA)翻译基金奖、美国文学翻译协会(ALTA)国家翻译奖短名单提名。 艾瑞克正在翻译鲁羊的短篇小说《银色老虎》,鲁羊则是一位上世纪90年代末期活跃于“断裂”文学运动的作家。 三个月后,《银色老虎》在《纽约客》年度夏季小说专刊上发表了,鲁羊是第三位在《纽约客》上发表小说作品的中国大陆作家,其他两位是莫言(2012年)和余华(2013年)。 纽约客Silver Tiger 链接(推荐阅读):“Silver Tiger” | The New Yorker 2011 年,纸托邦和《人民文学》杂志合作,在海外推出英文版的《路灯》(Pathlight)杂志,每年出 4 本。大家同样可以在Paper Republic和Twitter上关注Pathlight。 2017年,艾瑞克离开了北京。 同时推荐一些其他非常赞的非盈利翻译计划/项目,均可以通过rss或者newsletter订阅获取更新: One Piece翻译计划: ONES Piece 翻译计划 – 聚焦科技、创投和商业(科技、商业) China Law Translate:http://www.chinalawtranslate.com/(中国法律翻译) 译言古登堡计划:译言古登堡计划(外文引进,盈利) 掘金翻译计划:掘金 – juejin.im – 一个帮助开发者成长的社区(互联网开发)

泰坦尼克号上的最后一名幸存者

距离1912年4月14日夜里撞上冰山并于次日凌晨彻底沉睡于冰冷的3800米深北大西洋海底的泰坦尼克号沉船事故,整整106年的时光已经过去。 作为一艘奥林匹克级邮轮,泰坦尼克号是同级的3艘超级邮轮中的第2艘,与姐妹船奥林匹克号和不列颠号为白星航运公司的乘客们提供大西洋旅行。 这艘由位于北爱尔兰贝尔法斯特的哈兰•沃尔夫船厂兴建并成为当时最大的客运轮船,由于其规模相当一艘现代航空母舰,因而号称「上帝也沉没不了的巨型邮轮」。 但在其从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划横渡大西洋前往美国纽约市的处女航当中,因为人为的错误,最终邮轮不幸撞上冰山,导致超过1500人罹难,堪称20世纪最大的海难事件。 同样作为一场20世纪技术、资本、人力、时间共建的奇迹,泰坦尼克曾经让人看到一个世纪之初鼎盛的欧洲工业时代生产能力、社会阶级形态、审美风尚与生活文化。 但它的沉没,却更像是那个时代中某些光辉的陨落。 借助于现代科技与海洋探测技术的发展,人类最终于海难发生73年后的1985年9月1日成功定位这艘世纪巨轮的沉船遗址,其残骸被美国海洋学家罗伯•巴拉德发现。 然而,伴随着泰坦尼克号沉船发现以及残骸打捞的却是,当年幸免于难的乘客的相续离世。一百年后的二十一世纪初,泰坦尼克号仅剩3名幸存者,皆为女性。 2006年5月6日,一名见证事件的生还者逝世,终年99岁,事发当时5岁。 2007年10月16日,另外一位生还者逝世,终年96岁,事发当时她不足一岁,因此对事件没有回忆。 2009年5月31日,最后一名生还者密尔维娜•狄恩(Millvina Dean)逝世,享寿97岁,事故时她只有9周大,是泰坦尼克号船难中最年轻的生还者,她同样对事件没有记忆。 最后一名生还者逝世后,亦代表泰坦尼克号的所有乘客都已逝世。 关于密尔维娜,多年以来,因为回避众人的关注,而且她本人对其作为泰坦尼克号幸存者的身份避而不谈,所以外界对于她的故事知之甚少,幸而在其晚年的时候,她开始面对自己的那一段往事,并且参加了几次与泰坦尼克有关的活动。 也很少人知道,纵然密尔维娜在1912年这场海难中幸存了下来,但是她却因此失去了自己的父亲。甚至连乘坐泰坦尼克号这件事情本身就是一个错误。 那是1912年的2月,密尔维娜刚出生不久,她的父亲就决定移民到密苏里州堪萨斯市,他计划在那里开一家烟草店。一家人本打算乘坐白星...