CAT领域工具和库合集

在线术语库

  1. 中国关键词:http://www.china.org.cn/chinese/china_key_words/
  2. 中国特色话语对外翻译标准化术语库:http://210.72.20.108/index/index.jsp
  3. 中国核心词汇:https://www.cnkeywords.net/index
  4. 中国思想文化术语:http://www.chinesethought.cn/TermBase.aspx
  5. 联合国术语库:https://unterm.un.org/UNTERM/portal/welcome
  6. 术语在线:http://termonline.cn/index.htm
  7. 国家教育研究院术语库:http://terms.naer.edu.tw/download/
  8. 区块链相关术语:http://8btc.com/thread-17286-16-1.html
  9. 明代职官中英辞典: https://escholarship.org/uc/item/2bz3v185
  10. 中国规范术语: http://shuyu.cnki.net/index.aspx
  11. Grand Dictionnaire Terminologique http://www.granddictionnaire.com/
  12. TERMIUM http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-eng.html?lang=eng
  13. 语帆术语宝:http://termbox.lingosail.com/
  14. 微软术语库:https://www.microsoft.com/zh-cn/language
  15. 世界卫生组织术语库:http://www.who.int/substance_abuse/terminology/zh/
  16. 电子工程术语表:https://www.maximintegrated.com/cn/glossary/definitions.mvp/terms/all
  17. Mdict 100GB超大离线词库下载:https://downloads.freemdict.com/
  18. 一本词典:http://www.onedict.com/
  19. 国家标准《物流术语》 http://zizhan.mot.gov.cn/zhuantizhuanlan/gonglujiaotong/shoufeigongluzmk/zhengcefagui/201508/t20150814_1863913.html
  20. 冬奥会术语查询网站:http://owgt.lingosail.com/
  21. 音乐术语查询:http://dictionary.t-classical.com/
  22. European Union Language and terminologyhttps://europa.eu/european-union/documents-publications/language-and-terminology_en
  23. IATE (Interactive Terminology for Europe) EU’s terminology databasehttps://iate.europa.eu/home
  24. 香港法律中英术语:https://www.elegislation.gov.hk/glossary/chi
  25. Magic Searchhttp://magicsearch.org
  26. Microsoft Language Portalhttps://www.microsoft.com/en-us/language
  27. Lingueehttps://www.linguee.com/
  28. The Free Dictionaryhttp://www.thefreedictionary.com/
  29. Glosbehttps://glosbe.com/tmem/

在线语料库(国内)

  1. 语料库:http://yulk.org/
  2. BCC语料库:http://bcc.blcu.edu.cn/
  3. 语料库在线:http://www.cncorpus.org/
  4. 北京大学中国语言学研究中心:http://ccl.pku.edu.cn/corpus.asp
  5. 北外语料库语言学:http://www.bfsu-corpus.org/
  6. 现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus/
  7. 古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw
  8. 近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/
  9. 树图数据库:http://treebank.sinica.edu.tw/
  10. 搜文解字:http://words.sinica.edu.tw/
  11. 汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/
  12. 中国传媒大学文本语料库检索系统:http://ling.cuc.edu.cn/RawPub/
  13. 哈工大信息检索研究室对外共享语料库资源:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
  14. 香港教育学院语言资讯科学中心及其语料库实验室:http://www.livac.org/index.php?lang=sc
  15. 中文语言资源联盟:http://www.chineseldc.org/

在线语料库(国外)

  1. BNC——英国国家语料库(British National Corpus):http://www.natcorp.ox.ac.uk/
  2. BOE——柯林斯英语语料库(the Bank of English):http://www.collinslanguage.com/language-resources/dictionary-datasets/
  3. ANC——美国国家语料库(American National Corpus):http://www.anc.org/
  4. 兰开斯特汉语语料库 (LCMC)http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
  5. SKETCH ENGINE多语言语料库:www.sketchengine.co.uk
  6. BASE——英国学术口语语料库(British Academic Spoken English Corpus):http://www2.warwick.ac.uk/fac/soc/celte/research/base/
  7. Lextutorhttp://www.lextutor.ca/
  8. My Memoryhttps://mymemory.translated.net/
  9. TAUShttp://www.tausdata.org/index.php/language-search-engine
  10. TTMEMhttps://www.ttmem.com/terminology/download-translation-memory/
  11. TinyTMhttp://tinytm.sourceforge.net/
  12. DGT Translation Memoryhttps://magmatranslation.com/en/free-translation-memory/
  13. European Parliament Proceedings Parallel Corpus 1996-2011http://statmt.org/europarl/
  14. University of Maryland Parallel Corpus Project: The Biblehttp://users.umiacs.umd.edu/~resnik/parallel/bible.html
  15. Aligned Hansards of the 36th Parliament of Canadahttps://www.isi.edu/natural-language/download/hansard/
  16. EU Publication Officeshttps://publications.europa.eu/en/web/general-publications/publications
  17. Wikimedia Downloadshttps://dumps.wikimedia.org/backup-index.html
  18. Open Subtitleshttps://www.opensubtitles.org/en/search/subs
  19. United Nations Parallel Corpushttps://cms.unov.org/UNCorpus/
  20. European language pairshttp://www.statmt.org/wmt13/translation-task.html#download
  21. parallel corpus searchhttp://paralela.clarin-pl.eu/#
  22. UM-Corpus: A Large English-Chinese Parallel Corpushttp://nlp2ct.cis.umac.mo/um-corpus/um-corpus-license.html
  23. Clarin Parallel corporahttps://www.clarin.eu/resource-families/parallel-corpora
  24. The PKU 863 Chinese-English Parallel Corpushttps://www.lancaster.ac.uk/fass/projects/corpus/863parallel/
  25. 《红楼梦》汉英平行语料库:http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm
  26. 中央研究院近代汉语标记语料库:http://lingcorpus.iis.sinica.edu.tw/early/
  27. BYU corpora: https://corpus.byu.edu/

其他子语料库

  1. Books – A collection of translated literature
  2. DGT – A collection of EU Translation Memories provided by the JRC
  3. DOGC – Documents from the Catalan Goverment
  4. ECB – European Central Bank corpus
  5. EMEA – European Medicines Agency documents
  6. The EU bookshop corpus
  7. EUconst – The European constitution
  8. EUROPARL v7 – European Parliament Proceedings
  9. giga-fren – French-English Gigal-Word Corpus
  10. GNOME – GNOME localization files
  11. Global Voices – News stories in various languages
  12. The Croatian – English WaC corpus
  13. JRC-Acquis- legislative EU texts
  14. KDE4 – KDE4 localization files (v.2)
  15. KDEdoc – the KDE manual corpus
  16. MBS – Belgisch Staatsblad corpus
  17. memat – Xhosa/English parallel data
  18. MontenegrinSubs – Montenegrin movie subtitles
  19. MultiUN – Translated UN documents
  20. News Commentary, v9.0, v9.1
  21. OfisPublik – Breton – French parallel texts
  22. OO – the OpenOffice.org corpus
  23. OpenOffice.org 3 corpus
  24. OpenSubtitles – the opensubtitles.org corpus
  25. OpenSubtitles2011, OpenSubtitles2012, OpenSubtitles2013
  26. OpenSubtitles2016 – snapshot from 2016
  27. OpenSubtitles2018 – new complete version
  28. ParaCrawl corpus
  29. ParCor – A Parallel Pronoun-Coreference Corpus
  30. PHP – the PHP manual corpus
  31. Regeringsförklaringen – a tiny example corpus
  32. SETIMES – A parallel corpus of the Balkan languages
  33. SPC – Stockholm Parallel Corpora
  34. Tatoeba – A DB of translated sentences
  35. TedTalks hr-en
  36. TED Talks 2013
  37. Tanzil – A collection of Quran translations
  38. TEP – The Tehran English-Persian subtitle corpus
  39. Ubuntu – Ubuntu localization files
  40. UN – Translated UN documents
  41. Wikipedia – translated sentences from Wikipedia
  42. WikiSource – (small en-sv sample only
  43. WMT News Test Sets
  44. The Xhosa – English Navy corpus

主流CAT

  1. SDL Tradoshttps://www.sdltrados.cn/cn/products/trados-studio/free-trial.html
  2. Déjà Vuhttps://dejavux4.com/installers/DejaVuX3.Setup.exe
  3. MemoQhttps://www.memoq.com/downloads
  4. 雪人CAThttp://www.gcys.cn/
  5. OmegaThttp://omegat.org/download
  6. Acrosshttps://www.across.net/
  7. Transmatehttp://www.uedrive.com/
  8. WordFasthttp://www.wordfast.net/
  9. 雅信CAThttp://www.yxcat.com/
  10. Wordbeehttps://www.wordbee.com
  11. SmartCAThttps://www.smartcat.ai/
  12. MateCAThttps://www.matecat.com/

对齐工具

  1. WinAlignhttps://fix4dll.com/winalign_dll
  2. Abbyy Aligner: https://www.abbyy.com/en-eu/support/linguistic/aligner2/info/sr/
  3. TmxEditor: https://sourceforge.net/projects/tmxeditor/
  4. Okapi Olifant: http://okapi.sourceforge.net/downloads.html
  5. You Align: https://youalign.com/
  6. Transmate Aligner: http://5icat.cn/thread-4246-1-1.html
  7. BasicCAT Alignerhttps://www.basiccat.org/zh/new-tool-bitext-aligner/
  8. MemoQ LiveDocs:https://www.memoq.com/en/livedocs
  9. Super Alignhttp://sourceforge.net/projects/superalign
  10. hunalign (LGPL)http://mokk.bme.hu/resources/hunalign
  11. Europarl sentence aligner
  12. http://code.google.com/p/corpus-tools/downloads/list
  13. http://search.cpan.org/~achimru/Text-GaleChurch-1.00/lib/Text/GaleChurch.pm
  14. Gale & Church in Python: https://github.com/vchahun/galechurch
  15. Gargantuahttp://sourceforge.net/projects/gargantua/
  16. Melamed’s GMA (GPL)http://nlp.cs.nyu.edu/GMA/
  17. Bob Moore’s sentence aligner (Microsoft, licensehttp://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/
  18. LF aligner (based on hunalign)
  19. http://sourceforge.net/projects/aligner/
  20. http://traduccionymundolibre.com/wiki/LF_Aligner
  21. Bleualign: https://github.com/rsennrich/bleualign
  22. malignahttp://sourceforge.net/projects/align/
  23. tca-alignhttp://freeterm.wordpress.com/2010/06/30/tca2-parallel-text-processing-at-uib-no/
  24. Champollion in scala: https://github.com/jhclark/akerblad
  25. sentence aligner from Uplughttp://sourceforge.net/projects/uplug/
  26. Movie subtitle alignmenthttp://opus.lingfil.uu.se/tools.php
  27. AlignFactroy:http://www.terminotix.com/index.asp?name=AlignFactory
  28. free on-line aligner at: http://www.youalign.com/
  29. Comparisons of alignment performance:
  30. http://www.ims.uni-stuttgart.de/~fraser/pubs/braune_coling2010.pdf
  31. http://lium3.univ-lemans.fr/mtmarathon2010/ProjectFinalPresentation/SentenceAlignment/sentence_alignment.pdf
  32. Tools for book alignment: http://search.cpan.org/~andrefs/
  33. Extract parallel sentences from comparable corpora: http://jgosme.perso.info.unicaen.fr/sentpair.html
  34. Accurat toolkit: http://www.accurat-project.eu/index.php?p=accurat-toolkit
  35. yalign: https://github.com/machinalis/yalign

Machine Translation Tools (statistical)

  1. Moseshttp://www.statmt.org/moses/
  2. SMT toolkithttp://www-i6.informatik.rwth-aachen.de/jane/
  3. cdec SMT decoder http://cdec-decoder.org
  4. NiuTrans http://www.nlplab.com/NiuPlan/NiuTrans.html
  5. sinhue:
  6. http://www.cs.helsinki.fi/u/mtkaaria/
  7. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/sinuhe_v1.3_rc2.1.tar.gz
  8. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/models/
  9. Syntax-augmented SMT (SAMT): http://www.cs.cmu.edu/~zollmann/samt/
  10. Docent: https://github.com/chardmeier/docent/wiki
  11. A decoder in Perl: http://staff.science.uva.nl/~christof/html/software.html
  12. Apertium: http://wiki.apertium.org/wiki/Main_Page
  13. Thot (GPL): http://thot.sourceforge.net/
  14. Mood/MISTRAL/Ramses (GPL): http://smtmood.sourceforge.net/about
  15. svn co https://smtmood.svn.sourceforge.net/svnroot/smtmood/trunk/mood
  16. Joshua: http://cs.jhu.edu/~ccb/joshua/
  17. Thrax: http://cs.jhu.edu/~jonny/thrax/
  18. Phramer: http://www.phramer.org/
  19. OpenMaTrEx: http://www.openmatrex.org/
  20. n-code (n-gram based SMT) [http://perso.limsi.fr/Individu/jmcrego/bincoder/
  21. Other interesting stuff:
  22. http://www.worldwidelexicon.org/api
  23. http://blog.worldwidelexicon.org/
  24. http://code.google.com/p/m4loc/
  25. Phrase extraction toolkit: http://code.google.com/p/geppetto/

MT Evaluation Tools

  1. NIST BLEU ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v11b.pl
  2. METOR: http://www.cs.cmu.edu/~alavie/METEOR/
  3. The Asiya Open Toolkit for Automatic MT (Meta-)Evaluation http://www.lsi.upc.edu/~nlp/Asiya/
  4. TER: http://www.umiacs.umd.edu/~snover/terp/
  5. http://sourceforge.net/projects/tercpp
  6. Different metrics & significance testing: https://github.com/jhclark/multeval
  7. Combining various metrics in a simple script: http://kheafield.com/code/scoring.tar.gz
  8. visualization: https://github.com/mjdenkowski/meteor/tree/master/xray

Other tools and links

  1. significance tests: http://projectile.sv.cmu.edu/research/public/tools/bootStrap/tutorial.htm
  2. interactive BLEU: http://http://code.google.com/p/ibleu/
  3. XML wrapper: http://kheafield.com/code/scoring.tar.gz
  4. Apertium: http://wiki.apertium.org/wiki/Main_Page
  5. convert bitexts to tmx: http://sourceforge.net/projects/bitext2tmx/

以上合集由Nansey整理,维护和更新。转载请注明来自nansey.me

维基百科开始集成谷歌翻译

维基百科在所有Google产品中被广泛调用,包括搜索,助理和家庭使用的知识面板,以及YouTube中的事实检查。 Wikimedia现在正将Google Translate与其内置的编辑工具集成,以便用创建更多语言的文章。

Wikimedia基金会今天宣布(通过VentureBeat)与谷歌合作,整合了后者的旗舰翻译服务。维基百科的内容翻译工具将创建初始文章,其次由编辑进行查看,编辑和改进。

这个工具已经转换了近400,000篇文章,并且已在另外五个机器翻译系统中起到重要作用。今天的加持增加了对另外15种语言的支持 ——包括Hausa、Kurdish(Kurmanji)、Yoruba、和Zulu ——共计121种语言。

作为Google Translate支持的语言之一,Zulu在我们之前的内容翻译中却没有机器翻译支持。说祖鲁语的有1200万人,只有大约1,100篇维基百科文章。

增加谷歌翻译是编辑社区长期以来一直要求的功能,Wikimedia将其称为“当今最先进的机器翻译系统之一。”而且在隐私方面,没有共享任何个人数据。

我们很高兴与Google就内容翻译工具的这一新增功能进行合作。翻译将在免费许可下进行发布,且允许根据我们自己的许可政策将内容集成回维基百科。作为Google Translate与内容翻译工具集成的一部分,也将不会与Google或Wikimedia共享任何个人数据。

婚礼

「爱是恒久忍耐,又有恩慈;爱是不嫉妒,爱是不自夸,不张狂,不作害羞的事,不求自己的益处,不轻易发怒,不计算人的恶,不喜欢不义,只喜欢真理;凡事包容,凡事相信,凡事盼望,凡事忍耐;爱是永不止息。」

虽然这是一句被人引用到过度的《圣经》中关于爱的箴言,那一天当葱头和明月念到这句时,还是忍不住眼圈泛红的感动。他们站在婚礼的舞台上,我站在观众席后面,你站在我的身边。

舞台和观众席后面,之间仅有几步之遥,我用了几秒钟就从台前走到台后,但是你从她们那里走到我的身边,我们从八千五百公里之外走到今天的肩并着肩,这中间足足用了七年。

这七年之间,她们是这一场旷日持久的爱恋的见证者,所以看到她们,像是看到所有我们过去闪闪发亮的时光,快乐的,伤心的,困难的,难忘的,等等等等。这是感动的起因。

葱头说,她仍然记得第一次你跟她提起小象这个名字的时候,那个欣喜的表情。我开始试图回忆起你第一次使我心里泛起涟漪的时刻。

可能你从来不相信,或者不愿意相信,在我第一眼看到你,甚至从那个远距离和你对话的时刻起,心里已经有了命中注定的感觉。

这种感觉并非意识到你和她之间注定将会坠入爱河厮守终身,而是彷佛在那一刻间有了突然的第六感,这种感觉却又是说不清道不明的,你只是觉得如芒刺在背,坐立不安。所以我才会在《长白山的雪》里引用胡兰成在《民国女子》里写他与张爱玲见面的情景,他觉得心里满满的,想要啸歌,想要说话,想必连那电灯儿见了都是要笑我的。

纵然你说你不喜欢胡兰成这个滥情的角色,但是我依然想要这样讲,它真实而贴切地形容了我最初对于你的感觉。即使是过了七年之后的今天,当我们回头再去看我们当初在社交网络上共同分享的那一段《情人》的开头:那个男人在一处公共场所的大厅里像那个年轻的女人走去,并对她说:我认识你,永远记得你。

我几乎开始怀疑所有世间的相遇都是这样的巧合。但是真实的感觉就是这般,我好像认识你很久了,但是又想不起我们在何时何地如何相遇。所以有人讲,这个世界上,谁与你结发妻,谁与你擦肩过,谁与你长相好,都是命数。芸芸众生,茫茫浮沉,都是事先写好的。

我们的相遇,我们的故事,也一定是早早就写好了的,所以哪怕是后来相处的这么多年里,即使也会像所有其他的情侣一样,有分歧,有争吵,有眼泪,有分分合合,有异国恋里无可避免的时间与空间上的差异,却还是注定走到了感情开花结果的今天。这样的故事的结局,早就写在了两个人小说的开头里。

所爱隔山海,山海亦可平。这是婚礼的意义,是穿山越岭,跋山涉水后,时间给予两个人长久在一起的见证或者勋章。它既是纪念从前,也是嘉奖和期待以后。

从小到大,参加过很多场的婚礼,亲戚的,朋友的,同学的。也被很多的新人或者婚礼的现场打动过。我好像从来没有仔细地想过自己的婚礼是什么样的,我试图去想过,但是又想象不出那会是什么样子的。也听过很多的人讲,结婚是一种仪式,这种仪式甚至是做给别人看的。我也一度快要被这样的观念所洗脑。

直到自己也走到了这一天,而且作为主角站在了人群的中央,被所有前来的亲戚朋友所关注的时候,一切似乎和都自己的想象或者俗世的流行观念不太一样。

不一样的首先是自己,我有一些紧张,紧张的后面是幅员辽阔的激动。那种紧张像是一个人站在山顶,观众们纷纷站在山下看着你,激动则是人群后面漫无边际的原野,原野里的风犹如观众的声音,一股脑地向你吹来。观众们也只是看着你。你却在想,自己是如何站在这一刻的,那些日日夜夜,春夏秋冬,以及每一次两个人分别的场景,像是一场马拉松长跑,又像是一场攀岩。

你知道你终于等到了这一刻。

不一样的其次是我眼中的你。马拉松也好,攀岩也好,这并不是一个人的事情,也不是一群人的事情。从前的异国恋也好,或者从春天开始为婚礼做的一切准备也好,它像是心里长久以来的思念,思念犹如一根细细的线,你就在线的那一端,我拉一下,你也拉一下,两颗心便有了即时即刻的感知。你知道那个人就在山顶,就在马拉松长跑的尽头,或者说,她就是山顶和马拉松尽头的本身。她足以支撑你在这场攀岩或是长跑里克服面临的所有艰难困苦。

所以我从前说,「You are my way, my truth and my life」。

那一天,看着你从上面缓缓地走下来,在庄重而灿烂的婚纱里,在武汉秋天温暖和煦的阳光里,我觉得你像极了一只洁白无暇的天鹅,向我缓缓地游过来,水面在那一刻是平静的,世界在那一刻是安静的,连耳朵都像是失聪了一般,我只听得见自己的心跳。

之前你有担心茶色的婚纱是否适合那一天的现场布置,甚至因为这担心有给我看过这婚纱的手机照片。但是我想说,直到这婚纱穿在了你的身上,在你缓缓地从城堡一般的建筑物向我走来的时候,包括那场因为时间缘故略有匆忙的First Look的环节里,你都是我看过的最好的模样,是我今生看过的最美丽的新娘。

婚礼上,在我们面对面告白的时刻,虽然只对你讲了两句话,那两句话听起来甚至有一些俗里俗气,却又是心里真实的临场表达。你也知道,我并不是一个擅长口头表达的人。包括去年7月17日的那个求婚的夜晚,我们选择两人之间而非公众公开的方式。我有一些失语,我清清楚楚地明白心里对于你的爱意与感受,对于从两人关系的开始,到今天这样一种见证的时刻,或者说是一段新的漫长旅途的开始,我有无言无尽的话想对你说,我记得所有我们相识、相爱、相知、相处的细节。但是要把这样丰富的细节和深厚的感情浓缩在那现场的几分钟告白里,我觉得困难而乏力。

它并不足以表达我对你的欣赏、爱意,甚至我当下的感受。

但是就像我一直以来在所有关于你的文章里写到的那样,有了你,我是幸福的,我觉得自己的人生变得完整了,我因此而有了更大的生活动力和信心。这是婚礼的另一种意义。我想如果爸爸还在的话,他也一定会像妈妈,像叔叔,像所有的亲人一样为我,为我们感到安慰、骄傲和开心。

婚礼已经过去了将近三个月,我们也终于在最近收到了婚礼的照片,像是美好记忆的重放。照片里有记录爸爸妈妈、亲戚朋友拭眼角的时刻。你开玩笑说爸爸一定是眼睛不舒服了,我却更加坚信那是真情的流露,作为一个女儿的爸爸。

在新时代自由主义的时髦观念里,有太多关于自由婚姻的定义和倡导,我们也有考虑过婚礼的其他形式。但是回想起这一年来我们为婚礼所有的努力,或者说从去年的求婚开始,再或者说从16年我们决定有一个家开始,时间在我们前行的每一个步伐里留下印记。婚礼是喜庆之事,但并非容易之事。却也正是因为它的繁复与不易,当你事后回过头去看时,它才显得弥足珍贵,熠熠生辉。

我享受并且怀念这个过程。它使两个人开始一起用力,像是长久生活的开始,而且充满了分歧和考验,但你知道你们一定会胜利。

记得在结婚前九月的某一天,我们躺在沙发里,你若有所思又充满怀疑地问我,是不是现在甜言蜜语哄你开心只是为了把你娶回家。那一段日子我们常有分歧和争论,因为忙于婚礼的准备。我说,不是的,当然不是的。对于我来说,恋爱关系里的争论是因为两个人天然有着不同的属性,尤其是当他们开始真正生活在一起的时候。但是如果我娶一个人只是为了娶她,那么我一定是一只猪。那也一定不是两个人决定一起生活的意义。

如果非要说婚礼或者结婚对于我的意义,我想说,If I get married, I want to be very married.

Auto ML Translate幕后的故事

AutoML Translate幕后的故事(来源于Google高级技术项目经理Bombassei)

简而言之,AutoML是“一种创建自定义模型的方法,而无需编写实际的代码”。例如,对于AutoML Translate,用户可以使用域内数据训练Google的通用NMT引擎,以便根据其用例进行自定义。

越接近翻译,模型的效果越好。

用户通过图形界面提供数据,不需要编码或命令行。在将数据上传到云端之后,训练需大约三个小时,具体取决于其复杂性,之后训练有素的模型便可以执行自定义翻译。 翻译实际上会使用你上传的词条、术语、字典,

AutoML适用于转移学习(transfer learning)和神经架构搜索(neural architecture search)。转移学习是一种使用机器学习模型作为培训的基础方法。

类比便是,如果你已经知道如何骑自行车,那么你骑摩托车会更加容易,因为你的大脑可以将一些已经学习的知识转移到新的东西上,同时,神经架构搜索“基本上使用了机器学习找到了最好的机器学习模型,并解决问题。

AutoML是以上两个元素的第一个商业应用。当然,第三个元素是用户提供的训练数据。

Bombassei表示,AutoML在软件和硬件方面正在处于领先地位。由于转移学习和神经架构搜索的计算要求非常高,谷歌已经提出了更适合这项任务的物理硬件芯片:TPU。

这些由Google专门设计的芯片,以最有效的方式执行此类计算。传统芯片和图形处理单元(CPU和GPU)在机器学习所需的计算方面效率非常低。在机器学习领域中,则需要高度并行,低精度的计算。

CPU和GPU非常擅长并行计算,但它们具有很高的精度,因此浪费了大量的能量来做不需要的事情。

所以才需要TPU,而且今年已经是谷歌的第三代TPU。在培训机器学习模型方面,它可以把效率提高10倍甚至更快。

摩尔定律基本上被判了死刑。

网络时代的小众语言

在互联网时代,当我们遇到语言障碍时,是有许多互联网资源可以解决问题的:翻译App、词典网站、各种语言版本的维基百科以及简单的“click to translate”选项。 当今世界上有大约7000种语言,其中前十余种有上亿人在讲; 但是最底端的三分之一却只有1000个或更少的人在使用。

但在朦胧的中间地带,有数百种语言,却也有数百万人在讲。这些中型语言仍然被广泛使用,但它们获得的在线支持却迥然不同。如瑞典语,拥有960万使用者,300多万篇文章的第三大维基百科,以及Google Translate、Bing Translate、Facebook、Siri,YouTube字幕的支持。但如Odia,这是印度Odisha邦的官方语言,拥有3800万使用者,但没有谷歌翻译。以及像Oromo,大约有3400万人(主要在埃塞俄比亚)使用的一种语言,其维基百科只有772篇文章。

为什么区区只有800万到1300万使用者的希腊语、捷克语、匈牙利语和瑞典语都有Google Translate的支持和强大的维基百科呈现,而使用者数量相同甚至更多的语言如Bhojpuri(5100万)、Fula(2400万)、Sylheti (1100万),Quechua(900万)和Kirundi(900万)却毫无技术支持?

部分原因当然希腊语、捷克语、匈牙利语和瑞典语是欧盟24种官方语言之一,这意味着每年都会有一小部分人工译员翻译欧洲议会的许多官方文件。人工翻译的文档为语言学家称之为平行语料库提供了一个很好的基础 ——大量的多语言平行文本——一个句子接着一个句子。机器翻译引擎使用这些平行语料库来找出语言之间的固定对应关系:如果“regering”或“kυáέρνηση”或“kormány”或“vláda”都经常与“政府”并行出现,那么机器则可以下结论这些词是对等的。

为了保证合理有效,机器翻译需要为每种语言提供巨大的平行语料库。理想情况下,这个语料库包含来自各种类型的文档:不仅是议会程序,还有新闻报道、小说、电影剧本等。如果仅通过正式的法律文件进行培训,该机器将无法很好地翻译非正式的社交网络的帖子。翻译工具已经在捡平行语料库的角料:在许多语言中,最大的平行翻译文本则是圣经,这直接导致了谷歌将无意义的音节翻译成了厄运的预言。

除了欧盟文件,瑞典语、希腊语、匈牙利语和捷克语还有丰富的语言资源。几个世纪以来,正是这些语言创造了人类。它们是整个民族国家的语言,国家电视和广播录音可以成为文本到语音模型的基础。他们的演讲者有可支配的收入,使媒体公司翻译流行小说和带字幕的外国电影和电视节目。它们出现在科技公司想象他们的客户可能居住的国家或者至少可以在度假时访问,这意味着是值得做本地化接口并将其添加为翻译选项。他们有正规化的拼写系统和字典,可以植入拼写检查和预测文本模型。他们拥有高素质的网络访问者,可以为维基百科等项目做出贡献。 (比如说瑞典语,其使用者甚至可以创建一个机器人来自动制作河流、山脉和其他自然特征的基本维基百科文章。)

语言资源不会从天而降。人们必须创造它们,但创造者需要被供养、浇灌、教育、安置和支持,无论是政府、企业还是个人的财富来做——让个人承担的打发时间的智力爱好。创造平行语料库和其他语言资源往往需要多年时间,而且真做的话,每种语言可能会花费数千万美元。

与此同时,我们知道灾难会定期在世界各地上演:地震、洪水、飓风、旋风、疾病、饥荒、火灾。其中一些将发生在人们使用较多、资源比较丰富的语言地区,组织当然会急于拯救。但是,未来世界上的一些危机也将会发生在那些中等规模但资源不足的语言地区,而且这种可能性很大。在这些情况下,救援组织和政府将面临紧迫的语言障碍。

问题是,我们不知道接下来哪种语言将需要全世界迫切的关注。 2010年地震袭击海地时,国际组织急切需要海地Creole的资源。西非的埃博拉疫情影响了斯瓦希里语、Nande、Mbuba、Krio、Mende和Themne等语言。来自中美洲的难民经常讲Zapotec、Q’anjob’al、K’iche’和Mam。这些使用者并非大型科技公司的理想客户。他们也没有闲暇时间来编辑维基百科。他们甚至可能不会用母语识字,而是通过语音记事而非短信进行交流。但当危机爆发时,互联网通信工具将至关重要。

美国国防部(Darpa)的研究人员决定通过重新思考我们翻译语言的方式来解决这个问题。 与创建特定语言的工具不同,他们试图构建与语言无关的工具,这些工具一旦创建,就可以在危机时刻发挥作用,并通过微调切换到任何语言——即使他们只是从社交网络中获得的单语文本而非认真翻译的平行语料库。

他们同样改变了目标。 Darpa信息创新办公室项目经理Boyan Onyshkevych博士表示,要想制作能够生产符合语言习惯的散文的成熟的机器翻译,这太难了。相反,他们开辟了更易于管理的任务,例如将段落中的所有专有名词与更广泛使用的语言中的等同词汇连接起来。以这种自动识别实体的方式可以帮助提供有关整体情况的线索——例如,哪些河流泛滥,哪些村庄受到爆发的影响,或者哪些人失踪了。

Darpa全年资助数十所大学和公司的研究人员,然后每年分两次对他们进行测试,在一次“语言危机模拟”活动中,研究小组以一种惊人的神秘语言翻译了想象中的灾难报告。对于第一轮,团队有24小时的时间从社交媒体、博客和新闻报道中获取尽可能多的有用信息,借助一些资源,如基本的字典和一小时与母语者在一起的时间。然后,Darpa增加了更多的社交媒体数据并给予演讲者与母语者在一起的更多时间,并且团队再次参与其中。之后,这些模拟的结果和数据集通常会在线发布,并最终可以将它们集成到Siri和Google Translate等工具中。

这些正是利用互联网时代的资源来解决互联网时代的问题的方式。小型的语言可能没有大量的书籍或议会记录来训练语言处理器;他们可能没有很多的专业翻译。但又确实有成千上万或成百万上千万的使用者在社交媒体上闲逛,并像我们所有人一样发布有关天气和他们午餐的帖子。如果发生灾难性的罢工,这些帖子则可能会播下自己生存的种子——他们的推文和博客文章可能会被挖掘出来,用以告诉世界剩余的角落如何伸出援手。


翻译:Nansey 来源:WIRED