百度无耻的岂止搜索引擎

读完方可成老师写的「搜索引擎已死」,勾起了一点关于百度往事的回忆。有感而发。


百度于10月24日公布了自己研发的 STACL 系统(Simultaneous Translation with Anticipation and Controllable Latency,带有预测和可控延迟的即时翻译),据称能在译者开始讲话后几秒钟,而不是说完一段话后,就开始进行几乎同步的翻译。

如名称所示,上面讲到的「几秒钟」实际上是一个可控制的时长。当你需要在两种关联性相对较强的语言间互译时(比如说法语和西班牙语),STACL 差不多能做到隔开一个词就开始翻译。而当两种被译语言差距很大时(比如中文和英文),系统在翻译前要等待的时间就可能会久一些,只有这样才能保证更好的准确性。

百度官方发布的关于STACL系统的博客公告里提到STACL系统的重大技术突破:

We tackled this challenge using an idea inspired by human simultaneous interpreters, who routinely anticipate or predict materials that the speaker is about to cover in a few seconds into the future. However, different from human interpreters, our model does not predict the source language words in the speaker’s speech but instead directly predict the target language words in the translation (我们受人类同声传译启发并采用这一想法来应对挑战,他们经常预知或预测说话者在接下来的几秒中讲的材料。 然而,与人类口译员不同,我们的模型并不预测说话者的源语言词汇,而是直接预测翻译中的目标语言词汇。) .

以下是百度解释的方式:

“wait-k”,即总是翻译说话者语音后面的k个单词以允许预测上下文。系统经过训练,使用源句子的可用前缀来决定翻译中的下一个单词。

在例子Bùshí Zǒngtǒng zài Mòsīkē(布什总统在莫斯科)和英译“President Bush”中,ķ=2,2个词落后于中文,我们的系统准确地预测,下一个翻译的单词必须是“会见”,因为布什很可能在莫斯科会见某人(例如普京),早在中文动词出现之前。

STACL的另一个关键优势是延迟灵活性。它可以设置得更低或更高,取决于两种语言的相关程度,例如,法语和西班牙语较低,英语和中文等远程语言较高,或英语和德语等不同单词顺序的语言较高。

“翻译质量更常见的是低延迟要求,但与传统的全句(例如非同步)翻译相比,我们的系统在质量上只有很小的损失,”百度写道,“考虑到低延迟要求,我们将继续提高翻译质量。”

那么STACL与人类口译员相比如何呢?根据百度的说法,它比传统的全句翻译少了3.4个BLEU点(bilingual evaluation understudy,“双语评估替补”的缩写,是评估机器翻译文本的标准指标)。在中英文同声传译中,AI系统落后于中文语音大约三秒钟,翻译质量比全句(非同步)翻译低3.4个BLEU点。

STACL翻译系统发布当天,立即引起了国内外各大知名媒体的纷纷报道:

其中评价最高的是「IEEE Spectrum」,认为百度开发的这个新系统,揭示了一种通过预测未来而保持稳定的翻译工具,可以与联合国会议期间提供同传服务的口译人员相媲美,让人们离软件巴别鱼又近了一步(The Chinese tech giant Baidu has invented a translation system that brings us one step closer to a software Babel fish)。
「南华早报」评论:随着百度新的翻译系统亮相,百度向谷歌发起了挑战(Baidu to debut simultaneous machine translation in latest challenge to Google)。
「量子位」评论:百度宣布AI同传最新突破!能预测,低延时,演示效果惊人,外媒称媲美人类翻译。
「凤凰网」科技:媲美联合国同传,百度听清在2018百度世界大会的挑战。
「Fortune」:Baidu Looks to Amaze With A.I. Translation in Real Time(百度AI实时翻译效果惊人!)
「CNBC」:China’s Baidu challenges Google with A.I. that translates languages in real-time.
Silicon Angle的标题就更吓人了:Baidu creates the world’s first simultaneous translation system.

听起来是不是很厉害?当天甚至由于报道的知名媒体过多,百度于是直接在其Demo视频演示的GitHub页面上挂上了各大媒体的Logo:

于是在10月27日,也就是STACL系统发布的第三天,我也没忍住兴高采烈地在两个「翻译技术交流与资源共享」微信群中向近一千名翻译朋友果断做了推荐。毕竟连CNBC的报道里也提到的这次突破的重要原因,百度的预测功能是基于200万对中英语料库。

然而,好景不长,眼见他起高楼,眼见他楼又塌了。就在中外媒体纷纷对这一“技术突破”奔走相告一周而已的11月2日,语言服务行业的重要媒体「Slator」发布批评性报道,「The Art of Hyping Machine Translation」(机器翻译的炒作艺术),文章再次揭露百度的流氓与无耻本性:

Baidu is China’s top search engine, one of the country’s leading proponents of artificial intelligence, and an excellent study in public relations handiwork.(作为中国最大的搜索引擎,百度不仅是该国人工智能的主要倡导之一,更是公关艺术的优秀专家。)

百度PR部门将新闻稿、研究论文、以及GitHub演示页面打包发给了众多媒体机构(这其中就包括Slator)。几小时后,媒体报道铺天盖地:MIT Technology Review、Engadget、CNBC、SCMP、Fortune等等等等。

在Baidu Research的Github演示页面上甚至集中挂上了该论文获得的媒体报道链接和媒体Logo。虽然这些报道失实,但是由于是重要媒体站台,该报道得到了更多其他媒体的疯狂转载。

而作为PR的一部分,百度在11月1日的百度世界大会上进行了STACL的公开演示。大会期间,主显示屏两侧的两个屏幕分别显示了自动语音识别输出和STACL的即时翻译。

 

 

 

 

 

 

 

但是,现场直播中的同声传译仍然是由人工口译员提供。

关于STACL的翻译效果究竟如何?研究者分别做了英-德和中-英方向的任务实验。在wait-5-model模型(即系统等待5个单词后开始翻译)中,STACL的输出质量略差于炒作效果。而在wait-3-model模型(即系统等待3个单词后开始翻译)中,系统预测的词则是完全错误的。

Slator同样采访到了NMT(神经机器翻译)领域的专家,请求他们发表对于STACL系统的看法:

NMT领域的专家、Iconic Translation Machines的联合创始人和CEO John Tinsley表示:在判定每一项新研究是否为突破(breakthrough、即此次各大媒体在报道STACL时用到的词)时,我们仍需极其谨慎。

都柏林城市大学Andy Way教授则表示:如果这(STACL)不是支持口译人员的工具,而是打算要取代他们,那么我认为,根据我的经验,你该了解我会对此说些什么(“If this is not a tool to support interpreters, but instead is intended to replace them, then I think you know based on my track record what I would say about that.” )。

而System Global的CTO Jean Senellart博士则直接表示:这根本不是什么科学突破(“Not a Scientific Breakthrough”)。百度的公告不过制造了很多噪音(”the announcement made a lot of noise “)。

写到这里,我还能说些什么。我向来不惮以最坏的恶意来揣测百度,却不曾料到他们竟然无耻到了这个地步!


Reference:

Baidu Research Blog:research.baidu.com/Blog/index-view?id=107
官方Demo演示:https://simultrans-demo.github.io/
Paper地址:https://arxiv.org/abs/1810.08398

年终总结:2018

这是一份迟到的年终总结。

当各个网站各个App各种书单各种总结纷至沓来的时候,这一年似乎又要悄无声息地流逝了。对于自己来说,这是有失去也有收获的一年。做了一些事情,也有很多的事情没做。

写了18博客,读了17,发了110Tweet,输出了255期「翻译圈」主题分享,运营了2个近900人的翻译群,接了20几万字的翻译,也开始接触翻译项目的管理。

和前几年比,书读得少了,博客写得少了,少了的还有一些头发。17年运行了整整一年的「从海底出发」被弃船了。坚持了几个月的单词计划在夏天还是放弃了。放弃的同时还有产品设计的学习以及断断续续更新的「有人带来了雪意和五点钟」。

十月想要故地重游的薄刀峰没有去,十二月想要滑雪的神龙架也要到明年了。计划中的翻译Newsletter和公众号计划还没有实施。

但学会了做简单的个人网站。又系统地学习了一遍CAT,发现了更多厉害而有趣的人,以及更多需要学习的软件和技术。机器翻译的领域日新月异,技术和工具带来舒适感的同时,也带来了更大的困惑和恐慌。

The more you know, the more you know you don’t know.

花费了一些时间在RSSTwitter上,主要是行业动态和专业知识的获取。翻译几乎是这一年的重心,甚至包括工作内容本身。不论是知识星球,还是翻译项目,是兴趣爱好,也是无心插柳。

看了许多的电影,和她一起。搞笑的,伤心的,恐怖的,悲伤的。是消遣时间的一种方式,更是促进交流的一种方式。去年的年度最佳是「海边的曼彻斯特」,今年是「狗十三」。

秋天的时候,舅舅离开了,大概是在我的婚礼之前,他的状况已经非常不好了。在蜜月旅行的最后一站,阿克雷里的夜晚还是早晨,妈妈罕见地打了长途电话过来。她向来也是不紧不慢的人,这一次她的语气显得焦急。

回国的飞机临时改签到成都,落地的第一时间给舅娘打了电话,她笑着说舅舅已经离开了。忍不住地流了眼泪。不知道是想起以前舅舅和爸爸之间的旧事,还是想到舅娘拉着三个孩子以后艰难的日子。

冬天的时候,有了第二个外甥女。妈妈可能既难过,又开心。我甚至心里想着这个小天使的到来是否可以冲淡她心里对于舅舅的思念。那是十一月底下班回家的路上,突然收到姐夫的信息,我想到自己又一次做了舅舅。那天我在Twitter里写道:

「想起思琪出生的那年,我一个人风尘仆仆地坐火车回家。一转眼,很多年过去了。
思琪和妈妈一起长大,我和姐姐常年在外,回家的日子越来越少。
有时候会想起和姐姐一起度过的童年,如今她才终于有了妈妈的模样。」

当然,最重要的,这一年我也开始有了一个属于自己的小小的家庭,以及那个赏心悦目陪伴终身的人。关于婚礼,写了这篇「婚礼」,关于冰岛的蜜月旅行,写了这篇「冰岛没有火车」。你说蜜月游记写的犹如小学生水平,婚礼则写得很好。

你可能并不知道,在写那篇「婚礼」的时候,我有很多次回想起那篇「武汉爱情故事」,以及再早一些的「时光倒流二十年」,里面有好几次我们曾经见面又分别的场景,包括类似于爱情像是没有地基的房子一般的悲伤比喻。但是这么多年过去了,我们的确经历了分分合合,却又最终走到了一起。如果说真有什么样句子可以表达这样时过境迁的心情,我想是这些写在「时光」里的预言:

「我有认真地想过,我们曾经在过去里遥望过现在,在倡导速食和干货的时代,那样的遥望看起来漫长到没有尽头。在巨大的时空差距里,这段关系于别人听起来简直不可思议。谁会等一个多年远行的人,谁又会在多年的远行之后想起当初那个人。自己亦偶尔站在今天往回看,看那来时走过的曲折而坎坷的路,一路充满了荆棘与眼泪,心酸与惦念。所有这些听起来有些失落的情感,却早已经构成了一段关系里的重要部分,你想感谢时间,感激它最终原谅了所有的争吵和歧路,使破碎的心得以治愈,使分开的人得以相爱。若是在这走过的路与度过的时间里还有什么遗憾,那也只是相见恨晚,遗憾童年时代的不曾相识,错过了青梅竹马的当初。但又是因为这时间,两个孑然独立的人最终得以在茫茫宇宙之中相遇,从而有了相互搀扶和相伴终身的可能。」

2019年,希望自己可以像张楚在接受许知远采访时讲的那样,「不要太浪漫,要勤奋一点」。

希望自己可以读更多的好书。写更多有质量的博客。「翻译圈」有更多的输出和分享。可以做到更多的翻译项目。当然,翻译的公众号和考试的事情不可以再拖了。另外,希望可以在摄影技术上有所突破。

如果有什么漏掉或者需要更新,那么回头再补充或者调整吧。

附一份2018年的读书列表,虽然评价只有简单粗暴的星星。也希望今年读书的时候,可以写写简单的评论或者笔记,不仅是为了记录读书的那一刻真实的心情或者感受,也是为了年底再写读书总结的时候,总不至于太过空洞。

人类简史 : 从动物到上帝 ★★★★★
未来简史 ★★★
今日简史 : 人类命运大议题 ★★★
区块链技术指南 ★★★
区块链原理、设计与应用 ★★★
区块链技术驱动金融 : 数字货币与智能合约技术 ★★★★
阿勒泰的角落 ★★★
我的阿勒泰 ★★★
冬牧场 ★★★★
东京一年 ★★
梁家河 ★★
882 1/2 Amazing Answers to Your Questions about the Titanic ★★★
禅与摩托车维修艺术 ★★★★
浪潮之巅 ★★★
非暴力沟通 ★★★
一九八四 ★★★★★
了凡四训 ★★

CAT领域工具和库合集

在线术语库

  1. 中国关键词:http://www.china.org.cn/chinese/china_key_words/
  2. 中国特色话语对外翻译标准化术语库:http://210.72.20.108/index/index.jsp
  3. 中国核心词汇:https://www.cnkeywords.net/index
  4. 中国思想文化术语:http://www.chinesethought.cn/TermBase.aspx
  5. 联合国术语库:https://unterm.un.org/UNTERM/portal/welcome
  6. 术语在线:http://termonline.cn/index.htm
  7. 国家教育研究院术语库:http://terms.naer.edu.tw/download/
  8. 区块链相关术语:http://8btc.com/thread-17286-16-1.html
  9. 明代职官中英辞典: https://escholarship.org/uc/item/2bz3v185
  10. 中国规范术语: http://shuyu.cnki.net/index.aspx
  11. Grand Dictionnaire Terminologique http://www.granddictionnaire.com/
  12. TERMIUM http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-eng.html?lang=eng
  13. 语帆术语宝:http://termbox.lingosail.com/
  14. 微软术语库:https://www.microsoft.com/zh-cn/language
  15. 世界卫生组织术语库:http://www.who.int/substance_abuse/terminology/zh/
  16. 电子工程术语表:https://www.maximintegrated.com/cn/glossary/definitions.mvp/terms/all
  17. Mdict 100GB超大离线词库下载:https://downloads.freemdict.com/
  18. 一本词典:http://www.onedict.com/
  19. 国家标准《物流术语》 http://zizhan.mot.gov.cn/zhuantizhuanlan/gonglujiaotong/shoufeigongluzmk/zhengcefagui/201508/t20150814_1863913.html
  20. 冬奥会术语查询网站:http://owgt.lingosail.com/
  21. 音乐术语查询:http://dictionary.t-classical.com/
  22. European Union Language and terminologyhttps://europa.eu/european-union/documents-publications/language-and-terminology_en
  23. IATE (Interactive Terminology for Europe) EU’s terminology databasehttps://iate.europa.eu/home
  24. 香港法律中英术语:https://www.elegislation.gov.hk/glossary/chi
  25. Magic Searchhttp://magicsearch.org
  26. Microsoft Language Portalhttps://www.microsoft.com/en-us/language
  27. Lingueehttps://www.linguee.com/
  28. The Free Dictionaryhttp://www.thefreedictionary.com/
  29. Glosbehttps://glosbe.com/tmem/

在线语料库(国内)

  1. 语料库:http://yulk.org/
  2. BCC语料库:http://bcc.blcu.edu.cn/
  3. 语料库在线:http://www.cncorpus.org/
  4. 北京大学中国语言学研究中心:http://ccl.pku.edu.cn/corpus.asp
  5. 北外语料库语言学:http://www.bfsu-corpus.org/
  6. 现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus/
  7. 古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw
  8. 近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/
  9. 树图数据库:http://treebank.sinica.edu.tw/
  10. 搜文解字:http://words.sinica.edu.tw/
  11. 汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/
  12. 中国传媒大学文本语料库检索系统:http://ling.cuc.edu.cn/RawPub/
  13. 哈工大信息检索研究室对外共享语料库资源:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
  14. 香港教育学院语言资讯科学中心及其语料库实验室:http://www.livac.org/index.php?lang=sc
  15. 中文语言资源联盟:http://www.chineseldc.org/

在线语料库(国外)

  1. BNC——英国国家语料库(British National Corpus):http://www.natcorp.ox.ac.uk/
  2. BOE——柯林斯英语语料库(the Bank of English):http://www.collinslanguage.com/language-resources/dictionary-datasets/
  3. ANC——美国国家语料库(American National Corpus):http://www.anc.org/
  4. 兰开斯特汉语语料库 (LCMC)http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
  5. SKETCH ENGINE多语言语料库:www.sketchengine.co.uk
  6. BASE——英国学术口语语料库(British Academic Spoken English Corpus):http://www2.warwick.ac.uk/fac/soc/celte/research/base/
  7. Lextutorhttp://www.lextutor.ca/
  8. My Memoryhttps://mymemory.translated.net/
  9. TAUShttp://www.tausdata.org/index.php/language-search-engine
  10. TTMEMhttps://www.ttmem.com/terminology/download-translation-memory/
  11. TinyTMhttp://tinytm.sourceforge.net/
  12. DGT Translation Memoryhttps://magmatranslation.com/en/free-translation-memory/
  13. European Parliament Proceedings Parallel Corpus 1996-2011http://statmt.org/europarl/
  14. University of Maryland Parallel Corpus Project: The Biblehttp://users.umiacs.umd.edu/~resnik/parallel/bible.html
  15. Aligned Hansards of the 36th Parliament of Canadahttps://www.isi.edu/natural-language/download/hansard/
  16. EU Publication Officeshttps://publications.europa.eu/en/web/general-publications/publications
  17. Wikimedia Downloadshttps://dumps.wikimedia.org/backup-index.html
  18. Open Subtitleshttps://www.opensubtitles.org/en/search/subs
  19. United Nations Parallel Corpushttps://cms.unov.org/UNCorpus/
  20. European language pairshttp://www.statmt.org/wmt13/translation-task.html#download
  21. parallel corpus searchhttp://paralela.clarin-pl.eu/#
  22. UM-Corpus: A Large English-Chinese Parallel Corpushttp://nlp2ct.cis.umac.mo/um-corpus/um-corpus-license.html
  23. Clarin Parallel corporahttps://www.clarin.eu/resource-families/parallel-corpora
  24. The PKU 863 Chinese-English Parallel Corpushttps://www.lancaster.ac.uk/fass/projects/corpus/863parallel/
  25. 《红楼梦》汉英平行语料库:http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm
  26. 中央研究院近代汉语标记语料库:http://lingcorpus.iis.sinica.edu.tw/early/
  27. BYU corpora: https://corpus.byu.edu/

其他子语料库

  1. Books – A collection of translated literature
  2. DGT – A collection of EU Translation Memories provided by the JRC
  3. DOGC – Documents from the Catalan Goverment
  4. ECB – European Central Bank corpus
  5. EMEA – European Medicines Agency documents
  6. The EU bookshop corpus
  7. EUconst – The European constitution
  8. EUROPARL v7 – European Parliament Proceedings
  9. giga-fren – French-English Gigal-Word Corpus
  10. GNOME – GNOME localization files
  11. Global Voices – News stories in various languages
  12. The Croatian – English WaC corpus
  13. JRC-Acquis- legislative EU texts
  14. KDE4 – KDE4 localization files (v.2)
  15. KDEdoc – the KDE manual corpus
  16. MBS – Belgisch Staatsblad corpus
  17. memat – Xhosa/English parallel data
  18. MontenegrinSubs – Montenegrin movie subtitles
  19. MultiUN – Translated UN documents
  20. News Commentary, v9.0, v9.1
  21. OfisPublik – Breton – French parallel texts
  22. OO – the OpenOffice.org corpus
  23. OpenOffice.org 3 corpus
  24. OpenSubtitles – the opensubtitles.org corpus
  25. OpenSubtitles2011, OpenSubtitles2012, OpenSubtitles2013
  26. OpenSubtitles2016 – snapshot from 2016
  27. OpenSubtitles2018 – new complete version
  28. ParaCrawl corpus
  29. ParCor – A Parallel Pronoun-Coreference Corpus
  30. PHP – the PHP manual corpus
  31. Regeringsförklaringen – a tiny example corpus
  32. SETIMES – A parallel corpus of the Balkan languages
  33. SPC – Stockholm Parallel Corpora
  34. Tatoeba – A DB of translated sentences
  35. TedTalks hr-en
  36. TED Talks 2013
  37. Tanzil – A collection of Quran translations
  38. TEP – The Tehran English-Persian subtitle corpus
  39. Ubuntu – Ubuntu localization files
  40. UN – Translated UN documents
  41. Wikipedia – translated sentences from Wikipedia
  42. WikiSource – (small en-sv sample only
  43. WMT News Test Sets
  44. The Xhosa – English Navy corpus

主流CAT

  1. SDL Tradoshttps://www.sdltrados.cn/cn/products/trados-studio/free-trial.html
  2. Déjà Vuhttps://dejavux4.com/installers/DejaVuX3.Setup.exe
  3. MemoQhttps://www.memoq.com/downloads
  4. 雪人CAThttp://www.gcys.cn/
  5. OmegaThttp://omegat.org/download
  6. Acrosshttps://www.across.net/
  7. Transmatehttp://www.uedrive.com/
  8. WordFasthttp://www.wordfast.net/
  9. 雅信CAThttp://www.yxcat.com/
  10. Wordbeehttps://www.wordbee.com
  11. SmartCAThttps://www.smartcat.ai/
  12. MateCAThttps://www.matecat.com/

对齐工具

  1. WinAlignhttps://fix4dll.com/winalign_dll
  2. Abbyy Aligner: https://www.abbyy.com/en-eu/support/linguistic/aligner2/info/sr/
  3. TmxEditor: https://sourceforge.net/projects/tmxeditor/
  4. Okapi Olifant: http://okapi.sourceforge.net/downloads.html
  5. You Align: https://youalign.com/
  6. Transmate Aligner: http://5icat.cn/thread-4246-1-1.html
  7. BasicCAT Alignerhttps://www.basiccat.org/zh/new-tool-bitext-aligner/
  8. MemoQ LiveDocs:https://www.memoq.com/en/livedocs
  9. Super Alignhttp://sourceforge.net/projects/superalign
  10. hunalign (LGPL)http://mokk.bme.hu/resources/hunalign
  11. Europarl sentence aligner
  12. http://code.google.com/p/corpus-tools/downloads/list
  13. http://search.cpan.org/~achimru/Text-GaleChurch-1.00/lib/Text/GaleChurch.pm
  14. Gale & Church in Python: https://github.com/vchahun/galechurch
  15. Gargantuahttp://sourceforge.net/projects/gargantua/
  16. Melamed’s GMA (GPL)http://nlp.cs.nyu.edu/GMA/
  17. Bob Moore’s sentence aligner (Microsoft, licensehttp://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/
  18. LF aligner (based on hunalign)
  19. http://sourceforge.net/projects/aligner/
  20. http://traduccionymundolibre.com/wiki/LF_Aligner
  21. Bleualign: https://github.com/rsennrich/bleualign
  22. malignahttp://sourceforge.net/projects/align/
  23. tca-alignhttp://freeterm.wordpress.com/2010/06/30/tca2-parallel-text-processing-at-uib-no/
  24. Champollion in scala: https://github.com/jhclark/akerblad
  25. sentence aligner from Uplughttp://sourceforge.net/projects/uplug/
  26. Movie subtitle alignmenthttp://opus.lingfil.uu.se/tools.php
  27. AlignFactroy:http://www.terminotix.com/index.asp?name=AlignFactory
  28. free on-line aligner at: http://www.youalign.com/
  29. Comparisons of alignment performance:
  30. http://www.ims.uni-stuttgart.de/~fraser/pubs/braune_coling2010.pdf
  31. http://lium3.univ-lemans.fr/mtmarathon2010/ProjectFinalPresentation/SentenceAlignment/sentence_alignment.pdf
  32. Tools for book alignment: http://search.cpan.org/~andrefs/
  33. Extract parallel sentences from comparable corpora: http://jgosme.perso.info.unicaen.fr/sentpair.html
  34. Accurat toolkit: http://www.accurat-project.eu/index.php?p=accurat-toolkit
  35. yalign: https://github.com/machinalis/yalign

Machine Translation Tools (statistical)

  1. Moseshttp://www.statmt.org/moses/
  2. SMT toolkithttp://www-i6.informatik.rwth-aachen.de/jane/
  3. cdec SMT decoder http://cdec-decoder.org
  4. NiuTrans http://www.nlplab.com/NiuPlan/NiuTrans.html
  5. sinhue:
  6. http://www.cs.helsinki.fi/u/mtkaaria/
  7. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/sinuhe_v1.3_rc2.1.tar.gz
  8. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/models/
  9. Syntax-augmented SMT (SAMT): http://www.cs.cmu.edu/~zollmann/samt/
  10. Docent: https://github.com/chardmeier/docent/wiki
  11. A decoder in Perl: http://staff.science.uva.nl/~christof/html/software.html
  12. Apertium: http://wiki.apertium.org/wiki/Main_Page
  13. Thot (GPL): http://thot.sourceforge.net/
  14. Mood/MISTRAL/Ramses (GPL): http://smtmood.sourceforge.net/about
  15. svn co https://smtmood.svn.sourceforge.net/svnroot/smtmood/trunk/mood
  16. Joshua: http://cs.jhu.edu/~ccb/joshua/
  17. Thrax: http://cs.jhu.edu/~jonny/thrax/
  18. Phramer: http://www.phramer.org/
  19. OpenMaTrEx: http://www.openmatrex.org/
  20. n-code (n-gram based SMT) [http://perso.limsi.fr/Individu/jmcrego/bincoder/
  21. Other interesting stuff:
  22. http://www.worldwidelexicon.org/api
  23. http://blog.worldwidelexicon.org/
  24. http://code.google.com/p/m4loc/
  25. Phrase extraction toolkit: http://code.google.com/p/geppetto/

MT Evaluation Tools

  1. NIST BLEU ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v11b.pl
  2. METOR: http://www.cs.cmu.edu/~alavie/METEOR/
  3. The Asiya Open Toolkit for Automatic MT (Meta-)Evaluation http://www.lsi.upc.edu/~nlp/Asiya/
  4. TER: http://www.umiacs.umd.edu/~snover/terp/
  5. http://sourceforge.net/projects/tercpp
  6. Different metrics & significance testing: https://github.com/jhclark/multeval
  7. Combining various metrics in a simple script: http://kheafield.com/code/scoring.tar.gz
  8. visualization: https://github.com/mjdenkowski/meteor/tree/master/xray

Other tools and links

  1. significance tests: http://projectile.sv.cmu.edu/research/public/tools/bootStrap/tutorial.htm
  2. interactive BLEU: http://http://code.google.com/p/ibleu/
  3. XML wrapper: http://kheafield.com/code/scoring.tar.gz
  4. Apertium: http://wiki.apertium.org/wiki/Main_Page
  5. convert bitexts to tmx: http://sourceforge.net/projects/bitext2tmx/

以上合集由Nansey整理,维护和更新。转载请注明来自nansey.me

维基百科开始集成谷歌翻译

维基百科在所有Google产品中被广泛调用,包括搜索,助理和家庭使用的知识面板,以及YouTube中的事实检查。 Wikimedia现在正将Google Translate与其内置的编辑工具集成,以便用创建更多语言的文章。

Wikimedia基金会今天宣布(通过VentureBeat)与谷歌合作,整合了后者的旗舰翻译服务。维基百科的内容翻译工具将创建初始文章,其次由编辑进行查看,编辑和改进。

这个工具已经转换了近400,000篇文章,并且已在另外五个机器翻译系统中起到重要作用。今天的加持增加了对另外15种语言的支持 ——包括Hausa、Kurdish(Kurmanji)、Yoruba、和Zulu ——共计121种语言。

作为Google Translate支持的语言之一,Zulu在我们之前的内容翻译中却没有机器翻译支持。说祖鲁语的有1200万人,只有大约1,100篇维基百科文章。

增加谷歌翻译是编辑社区长期以来一直要求的功能,Wikimedia将其称为“当今最先进的机器翻译系统之一。”而且在隐私方面,没有共享任何个人数据。

我们很高兴与Google就内容翻译工具的这一新增功能进行合作。翻译将在免费许可下进行发布,且允许根据我们自己的许可政策将内容集成回维基百科。作为Google Translate与内容翻译工具集成的一部分,也将不会与Google或Wikimedia共享任何个人数据。

婚礼

「爱是恒久忍耐,又有恩慈;爱是不嫉妒,爱是不自夸,不张狂,不作害羞的事,不求自己的益处,不轻易发怒,不计算人的恶,不喜欢不义,只喜欢真理;凡事包容,凡事相信,凡事盼望,凡事忍耐;爱是永不止息。」

虽然这是一句被人引用到过度的《圣经》中关于爱的箴言,那一天当葱头和明月念到这句时,还是忍不住眼圈泛红的感动。他们站在婚礼的舞台上,我站在观众席后面,你站在我的身边。

舞台和观众席后面,之间仅有几步之遥,我用了几秒钟就从台前走到台后,但是你从她们那里走到我的身边,我们从八千五百公里之外走到今天的肩并着肩,这中间足足用了七年。

这七年之间,她们是这一场旷日持久的爱恋的见证者,所以看到她们,像是看到所有我们过去闪闪发亮的时光,快乐的,伤心的,困难的,难忘的,等等等等。这是感动的起因。

葱头说,她仍然记得第一次你跟她提起小象这个名字的时候,那个欣喜的表情。我开始试图回忆起你第一次使我心里泛起涟漪的时刻。

可能你从来不相信,或者不愿意相信,在我第一眼看到你,甚至从那个远距离和你对话的时刻起,心里已经有了命中注定的感觉。

这种感觉并非意识到你和她之间注定将会坠入爱河厮守终身,而是彷佛在那一刻间有了突然的第六感,这种感觉却又是说不清道不明的,你只是觉得如芒刺在背,坐立不安。所以我才会在《长白山的雪》里引用胡兰成在《民国女子》里写他与张爱玲见面的情景,他觉得心里满满的,想要啸歌,想要说话,想必连那电灯儿见了都是要笑我的。

纵然你说你不喜欢胡兰成这个滥情的角色,但是我依然想要这样讲,它真实而贴切地形容了我最初对于你的感觉。即使是过了七年之后的今天,当我们回头再去看我们当初在社交网络上共同分享的那一段《情人》的开头:那个男人在一处公共场所的大厅里像那个年轻的女人走去,并对她说:我认识你,永远记得你。

我几乎开始怀疑所有世间的相遇都是这样的巧合。但是真实的感觉就是这般,我好像认识你很久了,但是又想不起我们在何时何地如何相遇。所以有人讲,这个世界上,谁与你结发妻,谁与你擦肩过,谁与你长相好,都是命数。芸芸众生,茫茫浮沉,都是事先写好的。

我们的相遇,我们的故事,也一定是早早就写好了的,所以哪怕是后来相处的这么多年里,即使也会像所有其他的情侣一样,有分歧,有争吵,有眼泪,有分分合合,有异国恋里无可避免的时间与空间上的差异,却还是注定走到了感情开花结果的今天。这样的故事的结局,早就写在了两个人小说的开头里。

所爱隔山海,山海亦可平。这是婚礼的意义,是穿山越岭,跋山涉水后,时间给予两个人长久在一起的见证或者勋章。它既是纪念从前,也是嘉奖和期待以后。

从小到大,参加过很多场的婚礼,亲戚的,朋友的,同学的。也被很多的新人或者婚礼的现场打动过。我好像从来没有仔细地想过自己的婚礼是什么样的,我试图去想过,但是又想象不出那会是什么样子的。也听过很多的人讲,结婚是一种仪式,这种仪式甚至是做给别人看的。我也一度快要被这样的观念所洗脑。

直到自己也走到了这一天,而且作为主角站在了人群的中央,被所有前来的亲戚朋友所关注的时候,一切似乎和都自己的想象或者俗世的流行观念不太一样。

不一样的首先是自己,我有一些紧张,紧张的后面是幅员辽阔的激动。那种紧张像是一个人站在山顶,观众们纷纷站在山下看着你,激动则是人群后面漫无边际的原野,原野里的风犹如观众的声音,一股脑地向你吹来。观众们也只是看着你。你却在想,自己是如何站在这一刻的,那些日日夜夜,春夏秋冬,以及每一次两个人分别的场景,像是一场马拉松长跑,又像是一场攀岩。

你知道你终于等到了这一刻。

不一样的其次是我眼中的你。马拉松也好,攀岩也好,这并不是一个人的事情,也不是一群人的事情。从前的异国恋也好,或者从春天开始为婚礼做的一切准备也好,它像是心里长久以来的思念,思念犹如一根细细的线,你就在线的那一端,我拉一下,你也拉一下,两颗心便有了即时即刻的感知。你知道那个人就在山顶,就在马拉松长跑的尽头,或者说,她就是山顶和马拉松尽头的本身。她足以支撑你在这场攀岩或是长跑里克服面临的所有艰难困苦。

所以我从前说,「You are my way, my truth and my life」。

那一天,看着你从上面缓缓地走下来,在庄重而灿烂的婚纱里,在武汉秋天温暖和煦的阳光里,我觉得你像极了一只洁白无暇的天鹅,向我缓缓地游过来,水面在那一刻是平静的,世界在那一刻是安静的,连耳朵都像是失聪了一般,我只听得见自己的心跳。

之前你有担心茶色的婚纱是否适合那一天的现场布置,甚至因为这担心有给我看过这婚纱的手机照片。但是我想说,直到这婚纱穿在了你的身上,在你缓缓地从城堡一般的建筑物向我走来的时候,包括那场因为时间缘故略有匆忙的First Look的环节里,你都是我看过的最好的模样,是我今生看过的最美丽的新娘。

婚礼上,在我们面对面告白的时刻,虽然只对你讲了两句话,那两句话听起来甚至有一些俗里俗气,却又是心里真实的临场表达。你也知道,我并不是一个擅长口头表达的人。包括去年7月17日的那个求婚的夜晚,我们选择两人之间而非公众公开的方式。我有一些失语,我清清楚楚地明白心里对于你的爱意与感受,对于从两人关系的开始,到今天这样一种见证的时刻,或者说是一段新的漫长旅途的开始,我有无言无尽的话想对你说,我记得所有我们相识、相爱、相知、相处的细节。但是要把这样丰富的细节和深厚的感情浓缩在那现场的几分钟告白里,我觉得困难而乏力。

它并不足以表达我对你的欣赏、爱意,甚至我当下的感受。

但是就像我一直以来在所有关于你的文章里写到的那样,有了你,我是幸福的,我觉得自己的人生变得完整了,我因此而有了更大的生活动力和信心。这是婚礼的另一种意义。我想如果爸爸还在的话,他也一定会像妈妈,像叔叔,像所有的亲人一样为我,为我们感到安慰、骄傲和开心。

婚礼已经过去了将近三个月,我们也终于在最近收到了婚礼的照片,像是美好记忆的重放。照片里有记录爸爸妈妈、亲戚朋友拭眼角的时刻。你开玩笑说爸爸一定是眼睛不舒服了,我却更加坚信那是真情的流露,作为一个女儿的爸爸。

在新时代自由主义的时髦观念里,有太多关于自由婚姻的定义和倡导,我们也有考虑过婚礼的其他形式。但是回想起这一年来我们为婚礼所有的努力,或者说从去年的求婚开始,再或者说从16年我们决定有一个家开始,时间在我们前行的每一个步伐里留下印记。婚礼是喜庆之事,但并非容易之事。却也正是因为它的繁复与不易,当你事后回过头去看时,它才显得弥足珍贵,熠熠生辉。

我享受并且怀念这个过程。它使两个人开始一起用力,像是长久生活的开始,而且充满了分歧和考验,但你知道你们一定会胜利。

记得在结婚前九月的某一天,我们躺在沙发里,你若有所思又充满怀疑地问我,是不是现在甜言蜜语哄你开心只是为了把你娶回家。那一段日子我们常有分歧和争论,因为忙于婚礼的准备。我说,不是的,当然不是的。对于我来说,恋爱关系里的争论是因为两个人天然有着不同的属性,尤其是当他们开始真正生活在一起的时候。但是如果我娶一个人只是为了娶她,那么我一定是一只猪。那也一定不是两个人决定一起生活的意义。

如果非要说婚礼或者结婚对于我的意义,我想说,If I get married, I want to be very married.