百度无耻的岂止搜索引擎

读完方可成老师写的「搜索引擎已死」,勾起了一点关于百度往事的回忆。有感而发。


百度于10月24日公布了自己研发的 STACL 系统(Simultaneous Translation with Anticipation and Controllable Latency,带有预测和可控延迟的即时翻译),据称能在译者开始讲话后几秒钟,而不是说完一段话后,就开始进行几乎同步的翻译。

如名称所示,上面讲到的「几秒钟」实际上是一个可控制的时长。当你需要在两种关联性相对较强的语言间互译时(比如说法语和西班牙语),STACL 差不多能做到隔开一个词就开始翻译。而当两种被译语言差距很大时(比如中文和英文),系统在翻译前要等待的时间就可能会久一些,只有这样才能保证更好的准确性。

百度官方发布的关于STACL系统的博客公告里提到STACL系统的重大技术突破:

We tackled this challenge using an idea inspired by human simultaneous interpreters, who routinely anticipate or predict materials that the speaker is about to cover in a few seconds into the future. However, different from human interpreters, our model does not predict the source language words in the speaker’s speech but instead directly predict the target language words in the translation (我们受人类同声传译启发并采用这一想法来应对挑战,他们经常预知或预测说话者在接下来的几秒中讲的材料。 然而,与人类口译员不同,我们的模型并不预测说话者的源语言词汇,而是直接预测翻译中的目标语言词汇。) .

以下是百度解释的方式:

“wait-k”,即总是翻译说话者语音后面的k个单词以允许预测上下文。系统经过训练,使用源句子的可用前缀来决定翻译中的下一个单词。

在例子Bùshí Zǒngtǒng zài Mòsīkē(布什总统在莫斯科)和英译“President Bush”中,ķ=2,2个词落后于中文,我们的系统准确地预测,下一个翻译的单词必须是“会见”,因为布什很可能在莫斯科会见某人(例如普京),早在中文动词出现之前。

STACL的另一个关键优势是延迟灵活性。它可以设置得更低或更高,取决于两种语言的相关程度,例如,法语和西班牙语较低,英语和中文等远程语言较高,或英语和德语等不同单词顺序的语言较高。

“翻译质量更常见的是低延迟要求,但与传统的全句(例如非同步)翻译相比,我们的系统在质量上只有很小的损失,”百度写道,“考虑到低延迟要求,我们将继续提高翻译质量。”

那么STACL与人类口译员相比如何呢?根据百度的说法,它比传统的全句翻译少了3.4个BLEU点(bilingual evaluation understudy,“双语评估替补”的缩写,是评估机器翻译文本的标准指标)。在中英文同声传译中,AI系统落后于中文语音大约三秒钟,翻译质量比全句(非同步)翻译低3.4个BLEU点。

STACL翻译系统发布当天,立即引起了国内外各大知名媒体的纷纷报道:

其中评价最高的是「IEEE Spectrum」,认为百度开发的这个新系统,揭示了一种通过预测未来而保持稳定的翻译工具,可以与联合国会议期间提供同传服务的口译人员相媲美,让人们离软件巴别鱼又近了一步(The Chinese tech giant Baidu has invented a translation system that brings us one step closer to a software Babel fish)。
「南华早报」评论:随着百度新的翻译系统亮相,百度向谷歌发起了挑战(Baidu to debut simultaneous machine translation in latest challenge to Google)。
「量子位」评论:百度宣布AI同传最新突破!能预测,低延时,演示效果惊人,外媒称媲美人类翻译。
「凤凰网」科技:媲美联合国同传,百度听清在2018百度世界大会的挑战。
「Fortune」:Baidu Looks to Amaze With A.I. Translation in Real Time(百度AI实时翻译效果惊人!)
「CNBC」:China’s Baidu challenges Google with A.I. that translates languages in real-time.
Silicon Angle的标题就更吓人了:Baidu creates the world’s first simultaneous translation system.

听起来是不是很厉害?当天甚至由于报道的知名媒体过多,百度于是直接在其Demo视频演示的GitHub页面上挂上了各大媒体的Logo:

于是在10月27日,也就是STACL系统发布的第三天,我也没忍住兴高采烈地在两个「翻译技术交流与资源共享」微信群中向近一千名翻译朋友果断做了推荐。毕竟连CNBC的报道里也提到的这次突破的重要原因,百度的预测功能是基于200万对中英语料库。

然而,好景不长,眼见他起高楼,眼见他楼又塌了。就在中外媒体纷纷对这一“技术突破”奔走相告一周而已的11月2日,语言服务行业的重要媒体「Slator」发布批评性报道,「The Art of Hyping Machine Translation」(机器翻译的炒作艺术),文章再次揭露百度的流氓与无耻本性:

Baidu is China’s top search engine, one of the country’s leading proponents of artificial intelligence, and an excellent study in public relations handiwork.(作为中国最大的搜索引擎,百度不仅是该国人工智能的主要倡导之一,更是公关艺术的优秀专家。)

百度PR部门将新闻稿、研究论文、以及GitHub演示页面打包发给了众多媒体机构(这其中就包括Slator)。几小时后,媒体报道铺天盖地:MIT Technology Review、Engadget、CNBC、SCMP、Fortune等等等等。

在Baidu Research的Github演示页面上甚至集中挂上了该论文获得的媒体报道链接和媒体Logo。虽然这些报道失实,但是由于是重要媒体站台,该报道得到了更多其他媒体的疯狂转载。

而作为PR的一部分,百度在11月1日的百度世界大会上进行了STACL的公开演示。大会期间,主显示屏两侧的两个屏幕分别显示了自动语音识别输出和STACL的即时翻译。

 

 

 

 

 

 

 

但是,现场直播中的同声传译仍然是由人工口译员提供。

关于STACL的翻译效果究竟如何?研究者分别做了英-德和中-英方向的任务实验。在wait-5-model模型(即系统等待5个单词后开始翻译)中,STACL的输出质量略差于炒作效果。而在wait-3-model模型(即系统等待3个单词后开始翻译)中,系统预测的词则是完全错误的。

Slator同样采访到了NMT(神经机器翻译)领域的专家,请求他们发表对于STACL系统的看法:

NMT领域的专家、Iconic Translation Machines的联合创始人和CEO John Tinsley表示:在判定每一项新研究是否为突破(breakthrough、即此次各大媒体在报道STACL时用到的词)时,我们仍需极其谨慎。

都柏林城市大学Andy Way教授则表示:如果这(STACL)不是支持口译人员的工具,而是打算要取代他们,那么我认为,根据我的经验,你该了解我会对此说些什么(“If this is not a tool to support interpreters, but instead is intended to replace them, then I think you know based on my track record what I would say about that.” )。

而System Global的CTO Jean Senellart博士则直接表示:这根本不是什么科学突破(“Not a Scientific Breakthrough”)。百度的公告不过制造了很多噪音(”the announcement made a lot of noise “)。

写到这里,我还能说些什么。我向来不惮以最坏的恶意来揣测百度,却不曾料到他们竟然无耻到了这个地步!


Reference:

Baidu Research Blog:research.baidu.com/Blog/index-view?id=107
官方Demo演示:https://simultrans-demo.github.io/
Paper地址:https://arxiv.org/abs/1810.08398

CAT领域工具和库合集

在线术语库

  1. 中国关键词:http://www.china.org.cn/chinese/china_key_words/
  2. 中国特色话语对外翻译标准化术语库:http://210.72.20.108/index/index.jsp
  3. 中国核心词汇:https://www.cnkeywords.net/index
  4. 中国思想文化术语:http://www.chinesethought.cn/TermBase.aspx
  5. 联合国术语库:https://unterm.un.org/UNTERM/portal/welcome
  6. 术语在线:http://termonline.cn/index.htm
  7. 国家教育研究院术语库:http://terms.naer.edu.tw/download/
  8. 区块链相关术语:http://8btc.com/thread-17286-16-1.html
  9. 明代职官中英辞典: https://escholarship.org/uc/item/2bz3v185
  10. 中国规范术语: http://shuyu.cnki.net/index.aspx
  11. Grand Dictionnaire Terminologique http://www.granddictionnaire.com/
  12. TERMIUM http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-eng.html?lang=eng
  13. 语帆术语宝:http://termbox.lingosail.com/
  14. 微软术语库:https://www.microsoft.com/zh-cn/language
  15. 世界卫生组织术语库:http://www.who.int/substance_abuse/terminology/zh/
  16. 电子工程术语表:https://www.maximintegrated.com/cn/glossary/definitions.mvp/terms/all
  17. Mdict 100GB超大离线词库下载:https://downloads.freemdict.com/
  18. 一本词典:http://www.onedict.com/
  19. 国家标准《物流术语》 http://zizhan.mot.gov.cn/zhuantizhuanlan/gonglujiaotong/shoufeigongluzmk/zhengcefagui/201508/t20150814_1863913.html
  20. 冬奥会术语查询网站:http://owgt.lingosail.com/
  21. 音乐术语查询:http://dictionary.t-classical.com/
  22. European Union Language and terminologyhttps://europa.eu/european-union/documents-publications/language-and-terminology_en
  23. IATE (Interactive Terminology for Europe) EU’s terminology databasehttps://iate.europa.eu/home
  24. 香港法律中英术语:https://www.elegislation.gov.hk/glossary/chi
  25. Magic Searchhttp://magicsearch.org
  26. Microsoft Language Portalhttps://www.microsoft.com/en-us/language
  27. Lingueehttps://www.linguee.com/
  28. The Free Dictionaryhttp://www.thefreedictionary.com/
  29. Glosbehttps://glosbe.com/tmem/

在线语料库(国内)

  1. 语料库:http://yulk.org/
  2. BCC语料库:http://bcc.blcu.edu.cn/
  3. 语料库在线:http://www.cncorpus.org/
  4. 北京大学中国语言学研究中心:http://ccl.pku.edu.cn/corpus.asp
  5. 北外语料库语言学:http://www.bfsu-corpus.org/
  6. 现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus/
  7. 古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw
  8. 近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/
  9. 树图数据库:http://treebank.sinica.edu.tw/
  10. 搜文解字:http://words.sinica.edu.tw/
  11. 汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/
  12. 中国传媒大学文本语料库检索系统:http://ling.cuc.edu.cn/RawPub/
  13. 哈工大信息检索研究室对外共享语料库资源:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
  14. 香港教育学院语言资讯科学中心及其语料库实验室:http://www.livac.org/index.php?lang=sc
  15. 中文语言资源联盟:http://www.chineseldc.org/

在线语料库(国外)

  1. BNC——英国国家语料库(British National Corpus):http://www.natcorp.ox.ac.uk/
  2. BOE——柯林斯英语语料库(the Bank of English):http://www.collinslanguage.com/language-resources/dictionary-datasets/
  3. ANC——美国国家语料库(American National Corpus):http://www.anc.org/
  4. 兰开斯特汉语语料库 (LCMC)http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
  5. SKETCH ENGINE多语言语料库:www.sketchengine.co.uk
  6. BASE——英国学术口语语料库(British Academic Spoken English Corpus):http://www2.warwick.ac.uk/fac/soc/celte/research/base/
  7. Lextutorhttp://www.lextutor.ca/
  8. My Memoryhttps://mymemory.translated.net/
  9. TAUShttp://www.tausdata.org/index.php/language-search-engine
  10. TTMEMhttps://www.ttmem.com/terminology/download-translation-memory/
  11. TinyTMhttp://tinytm.sourceforge.net/
  12. DGT Translation Memoryhttps://magmatranslation.com/en/free-translation-memory/
  13. European Parliament Proceedings Parallel Corpus 1996-2011http://statmt.org/europarl/
  14. University of Maryland Parallel Corpus Project: The Biblehttp://users.umiacs.umd.edu/~resnik/parallel/bible.html
  15. Aligned Hansards of the 36th Parliament of Canadahttps://www.isi.edu/natural-language/download/hansard/
  16. EU Publication Officeshttps://publications.europa.eu/en/web/general-publications/publications
  17. Wikimedia Downloadshttps://dumps.wikimedia.org/backup-index.html
  18. Open Subtitleshttps://www.opensubtitles.org/en/search/subs
  19. United Nations Parallel Corpushttps://cms.unov.org/UNCorpus/
  20. European language pairshttp://www.statmt.org/wmt13/translation-task.html#download
  21. parallel corpus searchhttp://paralela.clarin-pl.eu/#
  22. UM-Corpus: A Large English-Chinese Parallel Corpushttp://nlp2ct.cis.umac.mo/um-corpus/um-corpus-license.html
  23. Clarin Parallel corporahttps://www.clarin.eu/resource-families/parallel-corpora
  24. The PKU 863 Chinese-English Parallel Corpushttps://www.lancaster.ac.uk/fass/projects/corpus/863parallel/
  25. 《红楼梦》汉英平行语料库:http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm
  26. 中央研究院近代汉语标记语料库:http://lingcorpus.iis.sinica.edu.tw/early/
  27. BYU corpora: https://corpus.byu.edu/

其他子语料库

  1. Books – A collection of translated literature
  2. DGT – A collection of EU Translation Memories provided by the JRC
  3. DOGC – Documents from the Catalan Goverment
  4. ECB – European Central Bank corpus
  5. EMEA – European Medicines Agency documents
  6. The EU bookshop corpus
  7. EUconst – The European constitution
  8. EUROPARL v7 – European Parliament Proceedings
  9. giga-fren – French-English Gigal-Word Corpus
  10. GNOME – GNOME localization files
  11. Global Voices – News stories in various languages
  12. The Croatian – English WaC corpus
  13. JRC-Acquis- legislative EU texts
  14. KDE4 – KDE4 localization files (v.2)
  15. KDEdoc – the KDE manual corpus
  16. MBS – Belgisch Staatsblad corpus
  17. memat – Xhosa/English parallel data
  18. MontenegrinSubs – Montenegrin movie subtitles
  19. MultiUN – Translated UN documents
  20. News Commentary, v9.0, v9.1
  21. OfisPublik – Breton – French parallel texts
  22. OO – the OpenOffice.org corpus
  23. OpenOffice.org 3 corpus
  24. OpenSubtitles – the opensubtitles.org corpus
  25. OpenSubtitles2011, OpenSubtitles2012, OpenSubtitles2013
  26. OpenSubtitles2016 – snapshot from 2016
  27. OpenSubtitles2018 – new complete version
  28. ParaCrawl corpus
  29. ParCor – A Parallel Pronoun-Coreference Corpus
  30. PHP – the PHP manual corpus
  31. Regeringsförklaringen – a tiny example corpus
  32. SETIMES – A parallel corpus of the Balkan languages
  33. SPC – Stockholm Parallel Corpora
  34. Tatoeba – A DB of translated sentences
  35. TedTalks hr-en
  36. TED Talks 2013
  37. Tanzil – A collection of Quran translations
  38. TEP – The Tehran English-Persian subtitle corpus
  39. Ubuntu – Ubuntu localization files
  40. UN – Translated UN documents
  41. Wikipedia – translated sentences from Wikipedia
  42. WikiSource – (small en-sv sample only
  43. WMT News Test Sets
  44. The Xhosa – English Navy corpus

主流CAT

  1. SDL Tradoshttps://www.sdltrados.cn/cn/products/trados-studio/free-trial.html
  2. Déjà Vuhttps://dejavux4.com/installers/DejaVuX3.Setup.exe
  3. MemoQhttps://www.memoq.com/downloads
  4. 雪人CAThttp://www.gcys.cn/
  5. OmegaThttp://omegat.org/download
  6. Acrosshttps://www.across.net/
  7. Transmatehttp://www.uedrive.com/
  8. WordFasthttp://www.wordfast.net/
  9. 雅信CAThttp://www.yxcat.com/
  10. Wordbeehttps://www.wordbee.com
  11. SmartCAThttps://www.smartcat.ai/
  12. MateCAThttps://www.matecat.com/

对齐工具

  1. WinAlignhttps://fix4dll.com/winalign_dll
  2. Abbyy Aligner: https://www.abbyy.com/en-eu/support/linguistic/aligner2/info/sr/
  3. TmxEditor: https://sourceforge.net/projects/tmxeditor/
  4. Okapi Olifant: http://okapi.sourceforge.net/downloads.html
  5. You Align: https://youalign.com/
  6. Transmate Aligner: http://5icat.cn/thread-4246-1-1.html
  7. BasicCAT Alignerhttps://www.basiccat.org/zh/new-tool-bitext-aligner/
  8. MemoQ LiveDocs:https://www.memoq.com/en/livedocs
  9. Super Alignhttp://sourceforge.net/projects/superalign
  10. hunalign (LGPL)http://mokk.bme.hu/resources/hunalign
  11. Europarl sentence aligner
  12. http://code.google.com/p/corpus-tools/downloads/list
  13. http://search.cpan.org/~achimru/Text-GaleChurch-1.00/lib/Text/GaleChurch.pm
  14. Gale & Church in Python: https://github.com/vchahun/galechurch
  15. Gargantuahttp://sourceforge.net/projects/gargantua/
  16. Melamed’s GMA (GPL)http://nlp.cs.nyu.edu/GMA/
  17. Bob Moore’s sentence aligner (Microsoft, licensehttp://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/
  18. LF aligner (based on hunalign)
  19. http://sourceforge.net/projects/aligner/
  20. http://traduccionymundolibre.com/wiki/LF_Aligner
  21. Bleualign: https://github.com/rsennrich/bleualign
  22. malignahttp://sourceforge.net/projects/align/
  23. tca-alignhttp://freeterm.wordpress.com/2010/06/30/tca2-parallel-text-processing-at-uib-no/
  24. Champollion in scala: https://github.com/jhclark/akerblad
  25. sentence aligner from Uplughttp://sourceforge.net/projects/uplug/
  26. Movie subtitle alignmenthttp://opus.lingfil.uu.se/tools.php
  27. AlignFactroy:http://www.terminotix.com/index.asp?name=AlignFactory
  28. free on-line aligner at: http://www.youalign.com/
  29. Comparisons of alignment performance:
  30. http://www.ims.uni-stuttgart.de/~fraser/pubs/braune_coling2010.pdf
  31. http://lium3.univ-lemans.fr/mtmarathon2010/ProjectFinalPresentation/SentenceAlignment/sentence_alignment.pdf
  32. Tools for book alignment: http://search.cpan.org/~andrefs/
  33. Extract parallel sentences from comparable corpora: http://jgosme.perso.info.unicaen.fr/sentpair.html
  34. Accurat toolkit: http://www.accurat-project.eu/index.php?p=accurat-toolkit
  35. yalign: https://github.com/machinalis/yalign

Machine Translation Tools (statistical)

  1. Moseshttp://www.statmt.org/moses/
  2. SMT toolkithttp://www-i6.informatik.rwth-aachen.de/jane/
  3. cdec SMT decoder http://cdec-decoder.org
  4. NiuTrans http://www.nlplab.com/NiuPlan/NiuTrans.html
  5. sinhue:
  6. http://www.cs.helsinki.fi/u/mtkaaria/
  7. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/sinuhe_v1.3_rc2.1.tar.gz
  8. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/models/
  9. Syntax-augmented SMT (SAMT): http://www.cs.cmu.edu/~zollmann/samt/
  10. Docent: https://github.com/chardmeier/docent/wiki
  11. A decoder in Perl: http://staff.science.uva.nl/~christof/html/software.html
  12. Apertium: http://wiki.apertium.org/wiki/Main_Page
  13. Thot (GPL): http://thot.sourceforge.net/
  14. Mood/MISTRAL/Ramses (GPL): http://smtmood.sourceforge.net/about
  15. svn co https://smtmood.svn.sourceforge.net/svnroot/smtmood/trunk/mood
  16. Joshua: http://cs.jhu.edu/~ccb/joshua/
  17. Thrax: http://cs.jhu.edu/~jonny/thrax/
  18. Phramer: http://www.phramer.org/
  19. OpenMaTrEx: http://www.openmatrex.org/
  20. n-code (n-gram based SMT) [http://perso.limsi.fr/Individu/jmcrego/bincoder/
  21. Other interesting stuff:
  22. http://www.worldwidelexicon.org/api
  23. http://blog.worldwidelexicon.org/
  24. http://code.google.com/p/m4loc/
  25. Phrase extraction toolkit: http://code.google.com/p/geppetto/

MT Evaluation Tools

  1. NIST BLEU ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v11b.pl
  2. METOR: http://www.cs.cmu.edu/~alavie/METEOR/
  3. The Asiya Open Toolkit for Automatic MT (Meta-)Evaluation http://www.lsi.upc.edu/~nlp/Asiya/
  4. TER: http://www.umiacs.umd.edu/~snover/terp/
  5. http://sourceforge.net/projects/tercpp
  6. Different metrics & significance testing: https://github.com/jhclark/multeval
  7. Combining various metrics in a simple script: http://kheafield.com/code/scoring.tar.gz
  8. visualization: https://github.com/mjdenkowski/meteor/tree/master/xray

Other tools and links

  1. significance tests: http://projectile.sv.cmu.edu/research/public/tools/bootStrap/tutorial.htm
  2. interactive BLEU: http://http://code.google.com/p/ibleu/
  3. XML wrapper: http://kheafield.com/code/scoring.tar.gz
  4. Apertium: http://wiki.apertium.org/wiki/Main_Page
  5. convert bitexts to tmx: http://sourceforge.net/projects/bitext2tmx/

以上合集由Nansey整理,维护和更新。转载请注明来自nansey.me

维基百科开始集成谷歌翻译

维基百科在所有Google产品中被广泛调用,包括搜索,助理和家庭使用的知识面板,以及YouTube中的事实检查。 Wikimedia现在正将Google Translate与其内置的编辑工具集成,以便用创建更多语言的文章。

Wikimedia基金会今天宣布(通过VentureBeat)与谷歌合作,整合了后者的旗舰翻译服务。维基百科的内容翻译工具将创建初始文章,其次由编辑进行查看,编辑和改进。

这个工具已经转换了近400,000篇文章,并且已在另外五个机器翻译系统中起到重要作用。今天的加持增加了对另外15种语言的支持 ——包括Hausa、Kurdish(Kurmanji)、Yoruba、和Zulu ——共计121种语言。

作为Google Translate支持的语言之一,Zulu在我们之前的内容翻译中却没有机器翻译支持。说祖鲁语的有1200万人,只有大约1,100篇维基百科文章。

增加谷歌翻译是编辑社区长期以来一直要求的功能,Wikimedia将其称为“当今最先进的机器翻译系统之一。”而且在隐私方面,没有共享任何个人数据。

我们很高兴与Google就内容翻译工具的这一新增功能进行合作。翻译将在免费许可下进行发布,且允许根据我们自己的许可政策将内容集成回维基百科。作为Google Translate与内容翻译工具集成的一部分,也将不会与Google或Wikimedia共享任何个人数据。

Auto ML Translate幕后的故事

AutoML Translate幕后的故事(来源于Google高级技术项目经理Bombassei)

简而言之,AutoML是“一种创建自定义模型的方法,而无需编写实际的代码”。例如,对于AutoML Translate,用户可以使用域内数据训练Google的通用NMT引擎,以便根据其用例进行自定义。

越接近翻译,模型的效果越好。

用户通过图形界面提供数据,不需要编码或命令行。在将数据上传到云端之后,训练需大约三个小时,具体取决于其复杂性,之后训练有素的模型便可以执行自定义翻译。 翻译实际上会使用你上传的词条、术语、字典,

AutoML适用于转移学习(transfer learning)和神经架构搜索(neural architecture search)。转移学习是一种使用机器学习模型作为培训的基础方法。

类比便是,如果你已经知道如何骑自行车,那么你骑摩托车会更加容易,因为你的大脑可以将一些已经学习的知识转移到新的东西上,同时,神经架构搜索“基本上使用了机器学习找到了最好的机器学习模型,并解决问题。

AutoML是以上两个元素的第一个商业应用。当然,第三个元素是用户提供的训练数据。

Bombassei表示,AutoML在软件和硬件方面正在处于领先地位。由于转移学习和神经架构搜索的计算要求非常高,谷歌已经提出了更适合这项任务的物理硬件芯片:TPU。

这些由Google专门设计的芯片,以最有效的方式执行此类计算。传统芯片和图形处理单元(CPU和GPU)在机器学习所需的计算方面效率非常低。在机器学习领域中,则需要高度并行,低精度的计算。

CPU和GPU非常擅长并行计算,但它们具有很高的精度,因此浪费了大量的能量来做不需要的事情。

所以才需要TPU,而且今年已经是谷歌的第三代TPU。在培训机器学习模型方面,它可以把效率提高10倍甚至更快。

摩尔定律基本上被判了死刑。

网络时代的小众语言

在互联网时代,当我们遇到语言障碍时,是有许多互联网资源可以解决问题的:翻译App、词典网站、各种语言版本的维基百科以及简单的“click to translate”选项。 当今世界上有大约7000种语言,其中前十余种有上亿人在讲; 但是最底端的三分之一却只有1000个或更少的人在使用。

但在朦胧的中间地带,有数百种语言,却也有数百万人在讲。这些中型语言仍然被广泛使用,但它们获得的在线支持却迥然不同。如瑞典语,拥有960万使用者,300多万篇文章的第三大维基百科,以及Google Translate、Bing Translate、Facebook、Siri,YouTube字幕的支持。但如Odia,这是印度Odisha邦的官方语言,拥有3800万使用者,但没有谷歌翻译。以及像Oromo,大约有3400万人(主要在埃塞俄比亚)使用的一种语言,其维基百科只有772篇文章。

为什么区区只有800万到1300万使用者的希腊语、捷克语、匈牙利语和瑞典语都有Google Translate的支持和强大的维基百科呈现,而使用者数量相同甚至更多的语言如Bhojpuri(5100万)、Fula(2400万)、Sylheti (1100万),Quechua(900万)和Kirundi(900万)却毫无技术支持?

部分原因当然希腊语、捷克语、匈牙利语和瑞典语是欧盟24种官方语言之一,这意味着每年都会有一小部分人工译员翻译欧洲议会的许多官方文件。人工翻译的文档为语言学家称之为平行语料库提供了一个很好的基础 ——大量的多语言平行文本——一个句子接着一个句子。机器翻译引擎使用这些平行语料库来找出语言之间的固定对应关系:如果“regering”或“kυáέρνηση”或“kormány”或“vláda”都经常与“政府”并行出现,那么机器则可以下结论这些词是对等的。

为了保证合理有效,机器翻译需要为每种语言提供巨大的平行语料库。理想情况下,这个语料库包含来自各种类型的文档:不仅是议会程序,还有新闻报道、小说、电影剧本等。如果仅通过正式的法律文件进行培训,该机器将无法很好地翻译非正式的社交网络的帖子。翻译工具已经在捡平行语料库的角料:在许多语言中,最大的平行翻译文本则是圣经,这直接导致了谷歌将无意义的音节翻译成了厄运的预言。

除了欧盟文件,瑞典语、希腊语、匈牙利语和捷克语还有丰富的语言资源。几个世纪以来,正是这些语言创造了人类。它们是整个民族国家的语言,国家电视和广播录音可以成为文本到语音模型的基础。他们的演讲者有可支配的收入,使媒体公司翻译流行小说和带字幕的外国电影和电视节目。它们出现在科技公司想象他们的客户可能居住的国家或者至少可以在度假时访问,这意味着是值得做本地化接口并将其添加为翻译选项。他们有正规化的拼写系统和字典,可以植入拼写检查和预测文本模型。他们拥有高素质的网络访问者,可以为维基百科等项目做出贡献。 (比如说瑞典语,其使用者甚至可以创建一个机器人来自动制作河流、山脉和其他自然特征的基本维基百科文章。)

语言资源不会从天而降。人们必须创造它们,但创造者需要被供养、浇灌、教育、安置和支持,无论是政府、企业还是个人的财富来做——让个人承担的打发时间的智力爱好。创造平行语料库和其他语言资源往往需要多年时间,而且真做的话,每种语言可能会花费数千万美元。

与此同时,我们知道灾难会定期在世界各地上演:地震、洪水、飓风、旋风、疾病、饥荒、火灾。其中一些将发生在人们使用较多、资源比较丰富的语言地区,组织当然会急于拯救。但是,未来世界上的一些危机也将会发生在那些中等规模但资源不足的语言地区,而且这种可能性很大。在这些情况下,救援组织和政府将面临紧迫的语言障碍。

问题是,我们不知道接下来哪种语言将需要全世界迫切的关注。 2010年地震袭击海地时,国际组织急切需要海地Creole的资源。西非的埃博拉疫情影响了斯瓦希里语、Nande、Mbuba、Krio、Mende和Themne等语言。来自中美洲的难民经常讲Zapotec、Q’anjob’al、K’iche’和Mam。这些使用者并非大型科技公司的理想客户。他们也没有闲暇时间来编辑维基百科。他们甚至可能不会用母语识字,而是通过语音记事而非短信进行交流。但当危机爆发时,互联网通信工具将至关重要。

美国国防部(Darpa)的研究人员决定通过重新思考我们翻译语言的方式来解决这个问题。 与创建特定语言的工具不同,他们试图构建与语言无关的工具,这些工具一旦创建,就可以在危机时刻发挥作用,并通过微调切换到任何语言——即使他们只是从社交网络中获得的单语文本而非认真翻译的平行语料库。

他们同样改变了目标。 Darpa信息创新办公室项目经理Boyan Onyshkevych博士表示,要想制作能够生产符合语言习惯的散文的成熟的机器翻译,这太难了。相反,他们开辟了更易于管理的任务,例如将段落中的所有专有名词与更广泛使用的语言中的等同词汇连接起来。以这种自动识别实体的方式可以帮助提供有关整体情况的线索——例如,哪些河流泛滥,哪些村庄受到爆发的影响,或者哪些人失踪了。

Darpa全年资助数十所大学和公司的研究人员,然后每年分两次对他们进行测试,在一次“语言危机模拟”活动中,研究小组以一种惊人的神秘语言翻译了想象中的灾难报告。对于第一轮,团队有24小时的时间从社交媒体、博客和新闻报道中获取尽可能多的有用信息,借助一些资源,如基本的字典和一小时与母语者在一起的时间。然后,Darpa增加了更多的社交媒体数据并给予演讲者与母语者在一起的更多时间,并且团队再次参与其中。之后,这些模拟的结果和数据集通常会在线发布,并最终可以将它们集成到Siri和Google Translate等工具中。

这些正是利用互联网时代的资源来解决互联网时代的问题的方式。小型的语言可能没有大量的书籍或议会记录来训练语言处理器;他们可能没有很多的专业翻译。但又确实有成千上万或成百万上千万的使用者在社交媒体上闲逛,并像我们所有人一样发布有关天气和他们午餐的帖子。如果发生灾难性的罢工,这些帖子则可能会播下自己生存的种子——他们的推文和博客文章可能会被挖掘出来,用以告诉世界剩余的角落如何伸出援手。


翻译:Nansey 来源:WIRED