网络时代的小众语言

在互联网时代,当我们遇到语言障碍时,是有许多互联网资源可以解决问题的:翻译App、词典网站、各种语言版本的维基百科以及简单的“click to translate”选项。 当今世界上有大约7000种语言,其中前十余种有上亿人在讲; 但是最底端的三分之一却只有1000个或更少的人在使用。

但在朦胧的中间地带,有数百种语言,却也有数百万人在讲。这些中型语言仍然被广泛使用,但它们获得的在线支持却迥然不同。如瑞典语,拥有960万使用者,300多万篇文章的第三大维基百科,以及Google Translate、Bing Translate、Facebook、Siri,YouTube字幕的支持。但如Odia,这是印度Odisha邦的官方语言,拥有3800万使用者,但没有谷歌翻译。以及像Oromo,大约有3400万人(主要在埃塞俄比亚)使用的一种语言,其维基百科只有772篇文章。

为什么区区只有800万到1300万使用者的希腊语、捷克语、匈牙利语和瑞典语都有Google Translate的支持和强大的维基百科呈现,而使用者数量相同甚至更多的语言如Bhojpuri(5100万)、Fula(2400万)、Sylheti (1100万),Quechua(900万)和Kirundi(900万)却毫无技术支持?

部分原因当然希腊语、捷克语、匈牙利语和瑞典语是欧盟24种官方语言之一,这意味着每年都会有一小部分人工译员翻译欧洲议会的许多官方文件。人工翻译的文档为语言学家称之为平行语料库提供了一个很好的基础 ——大量的多语言平行文本——一个句子接着一个句子。机器翻译引擎使用这些平行语料库来找出语言之间的固定对应关系:如果“regering”或“kυáέρνηση”或“kormány”或“vláda”都经常与“政府”并行出现,那么机器则可以下结论这些词是对等的。

为了保证合理有效,机器翻译需要为每种语言提供巨大的平行语料库。理想情况下,这个语料库包含来自各种类型的文档:不仅是议会程序,还有新闻报道、小说、电影剧本等。如果仅通过正式的法律文件进行培训,该机器将无法很好地翻译非正式的社交网络的帖子。翻译工具已经在捡平行语料库的角料:在许多语言中,最大的平行翻译文本则是圣经,这直接导致了谷歌将无意义的音节翻译成了厄运的预言。

除了欧盟文件,瑞典语、希腊语、匈牙利语和捷克语还有丰富的语言资源。几个世纪以来,正是这些语言创造了人类。它们是整个民族国家的语言,国家电视和广播录音可以成为文本到语音模型的基础。他们的演讲者有可支配的收入,使媒体公司翻译流行小说和带字幕的外国电影和电视节目。它们出现在科技公司想象他们的客户可能居住的国家或者至少可以在度假时访问,这意味着是值得做本地化接口并将其添加为翻译选项。他们有正规化的拼写系统和字典,可以植入拼写检查和预测文本模型。他们拥有高素质的网络访问者,可以为维基百科等项目做出贡献。 (比如说瑞典语,其使用者甚至可以创建一个机器人来自动制作河流、山脉和其他自然特征的基本维基百科文章。)

语言资源不会从天而降。人们必须创造它们,但创造者需要被供养、浇灌、教育、安置和支持,无论是政府、企业还是个人的财富来做——让个人承担的打发时间的智力爱好。创造平行语料库和其他语言资源往往需要多年时间,而且真做的话,每种语言可能会花费数千万美元。

与此同时,我们知道灾难会定期在世界各地上演:地震、洪水、飓风、旋风、疾病、饥荒、火灾。其中一些将发生在人们使用较多、资源比较丰富的语言地区,组织当然会急于拯救。但是,未来世界上的一些危机也将会发生在那些中等规模但资源不足的语言地区,而且这种可能性很大。在这些情况下,救援组织和政府将面临紧迫的语言障碍。

问题是,我们不知道接下来哪种语言将需要全世界迫切的关注。 2010年地震袭击海地时,国际组织急切需要海地Creole的资源。西非的埃博拉疫情影响了斯瓦希里语、Nande、Mbuba、Krio、Mende和Themne等语言。来自中美洲的难民经常讲Zapotec、Q’anjob’al、K’iche’和Mam。这些使用者并非大型科技公司的理想客户。他们也没有闲暇时间来编辑维基百科。他们甚至可能不会用母语识字,而是通过语音记事而非短信进行交流。但当危机爆发时,互联网通信工具将至关重要。

美国国防部(Darpa)的研究人员决定通过重新思考我们翻译语言的方式来解决这个问题。 与创建特定语言的工具不同,他们试图构建与语言无关的工具,这些工具一旦创建,就可以在危机时刻发挥作用,并通过微调切换到任何语言——即使他们只是从社交网络中获得的单语文本而非认真翻译的平行语料库。

他们同样改变了目标。 Darpa信息创新办公室项目经理Boyan Onyshkevych博士表示,要想制作能够生产符合语言习惯的散文的成熟的机器翻译,这太难了。相反,他们开辟了更易于管理的任务,例如将段落中的所有专有名词与更广泛使用的语言中的等同词汇连接起来。以这种自动识别实体的方式可以帮助提供有关整体情况的线索——例如,哪些河流泛滥,哪些村庄受到爆发的影响,或者哪些人失踪了。

Darpa全年资助数十所大学和公司的研究人员,然后每年分两次对他们进行测试,在一次“语言危机模拟”活动中,研究小组以一种惊人的神秘语言翻译了想象中的灾难报告。对于第一轮,团队有24小时的时间从社交媒体、博客和新闻报道中获取尽可能多的有用信息,借助一些资源,如基本的字典和一小时与母语者在一起的时间。然后,Darpa增加了更多的社交媒体数据并给予演讲者与母语者在一起的更多时间,并且团队再次参与其中。之后,这些模拟的结果和数据集通常会在线发布,并最终可以将它们集成到Siri和Google Translate等工具中。

这些正是利用互联网时代的资源来解决互联网时代的问题的方式。小型的语言可能没有大量的书籍或议会记录来训练语言处理器;他们可能没有很多的专业翻译。但又确实有成千上万或成百万上千万的使用者在社交媒体上闲逛,并像我们所有人一样发布有关天气和他们午餐的帖子。如果发生灾难性的罢工,这些帖子则可能会播下自己生存的种子——他们的推文和博客文章可能会被挖掘出来,用以告诉世界剩余的角落如何伸出援手。


翻译:Nansey 来源:WIRED

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注