Posts

Showing posts from December, 2018

Auto ML Translate 的幕后故事

AutoML Translate 幕后的故事(来源于 Google 高级技术项目经理 Bombassei ) 简而言之, AutoML 是 “ 一种创建自定义模型的方法,而无需编写实际的代码 ” 。例如,对于 AutoML Translate ,用户可以使用域内数据训练 Google 的通用 NMT 引擎,以便根据其用例进行自定义。 越接近翻译,模型的效果越好。 用户通过图形界面提供数据,不需要编码或命令行。在将数据上传到云端之后,训练需大约三个小时,具体取决于其复杂性,之后训练有素的模型便可以执行自定义翻译。 翻译实际上会使用你上传的词条、术语、字典, AutoML 适用于转移学习( transfer learning )和神经架构搜索( neural architecture search )。转移学习是一种使用机器学习模型作为培训的基础方法。 类比便是,如果你已经知道如何骑自行车,那么你骑摩托车会更加容易,因为你的大脑可以将一些已经学习的知识转移到新的东西上,同时,神经架构搜索 “ 基本上使用了机器学习找到了最好的机器学习模型,并解决问题。 AutoML 是以上两个元素的第一个商业应用。当然,第三个元素是用户提供的训练数据。 Bombassei 表示, AutoML 在软件和硬件方面正在处于领先地位。由于转移学习和神经架构搜索的计算要求非常高,谷歌已经提出了更适合这项任务的物理硬件芯片: TPU 。 这些由 Google 专门设计的芯片,以最有效的方式执行此类计算。传统芯片和图形处理单元( CPU 和 GPU )在机器学习所需的计算方面效率非常低。在机器学习领域中,则需要高度并行,低精度的计算。 CPU 和 GPU 非常擅长并行计算,但它们具有很高的精度,因此浪费了大量的能量来做不需要的事情。 所以才需要 TPU ,而且今年已经是谷歌的第三代 TPU 。在培训机器学习模型方面,它可以把效率提高 10 倍甚至更快。 摩尔定律基本上被判了死刑。

网络时代的小众语言

在互联网时代,当我们遇到语言障碍时,是有许多互联网资源可以解决问题的:翻译 App 、词典网站、各种语言版本的维基百科以及简单的 “click to translate” 选项。 当今世界上有大约 7000 种语言,其中前十余种有上亿人在讲; 但是最底端的三分之一却只有 1000 个或更少的人在使用。 但在朦胧的中间地带,有数百种语言,却也有数百万人在讲。这些中型语言仍然被广泛使用,但它们获得的在线支持却迥然不同。如瑞典语,拥有 960 万使用者, 300 多万篇文章的第三大维基百科,以及 Google Translate 、 Bing Translate 、 Facebook 、 Siri , YouTube 字幕的支持。但如 Odia ,这是印度 Odisha 邦的官方语言,拥有 3800 万使用者,但没有谷歌翻译。以及像 Oromo ,大约有 3400 万人(主要在埃塞俄比亚)使用的一种语言,其维基百科只有 772 篇文章。 为什么区区只有 800 万到 1300 万使用者的希腊语、捷克语、匈牙利语和瑞典语都有 Google Translate 的支持和强大的维基百科呈现,而使用者数量相同甚至更多的语言如 Bhojpuri ( 5100 万)、 Fula ( 2400 万)、 Sylheti ( 1100 万), Quechua ( 900 万)和 Kirundi ( 900 万)却毫无技术支持? 部分原因当然希腊语、捷克语、匈牙利语和瑞典语是欧盟 24 种官方语言之一,这意味着每年都会有一小部分人工译员翻译欧洲议会的许多官方文件。人工翻译的文档为语言学家称之为平行语料库提供了一个很好的基础 —— 大量的多语言平行文本 —— 一个句子接着一个句子。机器翻译引擎使用这些平行语料库来找出语言之间的固定对应关系:如果 “regering” 或 “kυáέρνηση” 或 “kormány” 或 “vláda” 都经常与 “ 政府 ” 并行出现,那么机器则可以下结论这些词是对等的。 为了保证合理有效,机器翻译需要为每种语言提供巨大的平行语料库。理想情况下,这个语料库包含来自各种类型的文档:不仅是议会程序,还有新闻报道、小说、电影剧本等。如果仅通过正式的法律文件进行培训,该机器将无法很好地翻译非正式的社交网络的帖子。翻译工具已经在捡平行语料库的角料:在