一款帮助丈夫“翻译”妻子行为的App在日本问世

一款旨在帮助丈夫“翻译”妻子行为的日本App引起了强烈反对。

日本最大的糖果制造商之一Ezaki Glico,在2月初发布了Kope App,以鼓励伴侣分担抚养孩子的义务。

但是,据《每日电讯报》报道,一个为推广该App而建立的网站因其对丈夫有争议的建议而引起了众怒。

它认为男人和女人可能会因为大脑不同而发生冲突。“由于男性大脑和女性大脑在回路和信号的结构上有所不同,即使他们得到了相同的输入,也会有不同的输出,”它说。

其中还包括进一步的建议,这种建议被描述为“翻译母亲对父亲的感情”,当妻子生气时,这种建议追踪了八种潜在的行为模式,并“翻译”了男人不可信的话语。

该App声称,当女人说“我们在一起毫无意义”时,她实际上是在问,“你对我到底什么感觉?”

而评论“这真的很难”,实际上意味着“你需要对我所做的表达赞赏”。

该App建议男人道歉,如果女人问:“对你、你的工作或你的家庭来说,哪一个更重要?”它会建议回答“我很抱歉让你感到孤独”。

它还建议男人应该迅速将话题转移到他在工作中遇到的问题上,以避开女人的提问。

据《朝日新闻》报道,这款App是由Ezaki Glico的女性员工在内部开发,但是是在Ihoko Kurokawa的编辑监督下开发的,Ihoko Kurokawa已经写了很多关于人际关系的书。其中一本书名就是:《驭妻指南》。

该App在社交媒体上引起了强烈的批评——一名评论员抨击该公司“公开表达对女性的蔑视,因为这不是在认真对待女性的话,而是在惺惺作态地表达同情或感激”。

这家总部位于大阪的公司已修改了App和网站的部分内容,但没有对出版物发表任何评论。“我们会将顾客的意见铭记于心,并每天努力改进,”该公司在一份声明中说。

此前的上个月,一家日本杂志发表文章,就女子大学的学生在酒会上被睡服的难易程度进行排名,随后即被要求为此道歉。

周刊《Spa!》印刷版采访了相亲网站Lion Project的经理Keiji Isogimi,正是该网站对五所大学进行了排名,他说这些大学生在酒会上被睡服很容易。

他还描述了如何“哄”女人,并根据女人的衣着和外表来判断她是否有过性行为。

在社交媒体强烈反弹和一份收集了52000个签名的请愿书指控该文章“对女性进行性化、物化和不尊重”之后,他们发布了一份道歉信。

该杂志的发言人Takashi Inukai说,该出版物针对性写的是男性参与者向女性付费的酒会,他说这样的酒会目前在女大学生中很受欢迎。

在反对性骚扰和性侵的全球#MeToo运动觉醒后,日本发现他们最近正处在尚未承认性别平等的公众视线中。在政治和商业领域的女性代表比例上,东亚国家在七国集团中排名垫底。

去年,日本的一些医科大学承认干预入学考试分数,故意让女性申请人处于不利地位。


翻译:Nansey 来源:INSIDER

字幕翻译笔记:字幕提取

工作缘故,最近需要对公司一个产品的视频宣传片的字幕进行翻译。任务需求很简单,就是中文到英文的转换,视频也不是很长,十分钟都不到。

我没有在字幕组工作过,之前也没有太多这方面的经验,有的只是零星阅读过相关的教程或者网贴,但是早已忘到九霄云外,甚至在拿到任务时候,连应该去下载和使用哪个软件也没有概念。

直觉和热衷各种软件的经验告诉自己,这大概只是使用软件的问题而已。但是很快,我发现我错了。印象里YouTube对于字幕的处理功能和自己困难重重的实操形成了鲜明的对比,我高估了自己的智商。

下面我会讲到在这次字幕处理的过程中遇到的各种问题,这些问题可能是借助搜索引擎并没有那么容易找到解决办法,或者网络上给出了解决办法,但实际的操作却是另一种回事的情况。我不会像大多数网贴一样去不厌其烦地重复各种软件操作的步骤,毕竟那些网帖已经讲得够多够清楚了。

声明一下,我只是字幕处理领域的初学者,所以接下来的写作难免会有纰漏,还望各位多多批评指正。

此次任务使用或者涉及的软件(附下载链接):

gMKVExtractGUI:https://sourceforge.net/projects/gmkvextractgui/
My MP4Box GUI: https://www.videohelp.com/software/My-MP4Box-GUI
Pot Player:https://potplayer.daum.net/
LAV Filter: https://www.videohelp.com/software/LAV-Filters
Codec Tweak Tool:https://www.videohelp.com/software/Codec-Tweak-Tool 

Format Factory:http://www.pcgeshi.com/
esrXP:
https://www.videohelp.com/software/esrXP
Srt Sub Master:
https://mjpclab.net/submaster.html
Abbyy FineReader:
https://pan.baidu.com/s/1RXzDBbD_vrhkw8tHLfbvDA

字幕提取的原理(硬字幕):

1.使用esrXP跑视频抓字幕OCR
2.使用Abbyy FineReader等OCR软件提取文字
3.使用esrXP或Srt Sub Master对字幕进行校对并导出为字幕文件

1. 硬字幕与软字幕

我拿到的视频虽然是高清的(1920*1080),但却是硬字幕。

什么是硬字幕呢?就是字幕像是水印一样嵌在了视频里,使用普通的软件是无法直接提取字幕文件的。和硬字幕对应的概念是软字幕,即视频文件和字幕文件是分离的,可以利用某些专门的软件直接提取。比如Pot Player,比如gMKVExtractGUI(mkv格式视频),再比如My MP4Box GUI(mp4格式视频)等等。

(Pot Player提取软字幕,图片来源于网络)

 

 

 

 

 

(gMKVExtractGUI提取软字幕,图片来源于网络)

 

(My MP4Box GUI提取软字幕,图片来源于网络)

 

 

2. esrXP

对于硬字幕的提取目前普遍使用的软件是esrXP,一个非常古老却又十分有效的工具。有效的同时,调教的过程中又几乎必然会出现种种屡试不爽的「人为bug」,我一度有想砸电脑的冲动。

问题1:视频无法载入,即过滤器页面没有视频预览或者主页面无法运行「开始」。

解决办法: 1.安装LAV Filter解码器; 2.安装并使用Codec Tweak Tool工具设置系统默认解码器(将视频解码托管到LAV Filter); 3.文件名有特殊符号导致无法加载(将文件名改成纯英文或数字即可,网友贡献提示)

那么,执行了问题1解决办法中的步骤后,是否就一定能保证esrXP能够预览和开始处理视频了呢?答案是否定的。视频解码是一方面,另一方面,esrXP并不能够保证对于大多数视频格式的支持(相反的,我觉得这种兼容性比较差)。自己测试了对于mkv/mpg/avi等格式在LAV Filter托管了系统解码后是没有问题的,但碍于时间有限,其他的一些格式并没有进行测试。不过即使是格式不被支持的情况下,使用Format Factory进行格式的转换也是一种解决方式,目前网络上流行的格式不外乎mp4/avi/3gp/rmvb/wmv/mkv/mpg/vob/mov/flv等等,转换时候可能需要注意一下目标视频格式的大小(如果一个较长的视频,采用了体积较大的目标格式,而电脑配置又很一般的话,那将是一种不可描述的灾难),以及屏幕的大小设置(大的屏幕输出对于后期清晰地OCR更加方便,但并非越大越大)。

视频格式与大小的分类:

最小:mkv/flv/rmvb/wmv(流媒体)
其次:mp4/3gp(手机格式)
再次: mpg/vcd/dvd/mov
最大:avi(无压缩)

问题2:视频在可以预览的情况下,esrXP也可以正常运行OCR截屏,但是截出来的字幕全是糊的。

解决办法: 这是我在此次视频处理任务中遇到的最大问题之一,甚至在问了几个朋友后也没有得到答案。网络上给出了各种各样的参数,但也都是针对某个具体视频的方案,并不是一个普适性的解决办法。事实上,对于不同的视频,也没有一个普适的参数设置。

(进阶设置,图片来源于网络)

 

 

 

 

 

 

 

过滤器的进阶设置,这里像是一个高级的复合型滤镜,参数设置得好的话,可以减少后期非常多的校对工作。我的建议是「启动过滤器」进行实时参数调整的效果预览。我只使用了边线和第一阶段的「最高光度」2个参数来调整,最后拿到了满意的输出效果,这也得益于拿到的任务是一个黑条白字的视频,相对于那种字幕浮于视频上面的复杂情况要容易处理的多。

esrXP的过滤原理主要是通过颜色的判断来完成的,且过滤器使用了“HSL色彩模型”,HSL分别对应:

H(hue)=色相 指的是人眼所能感知的颜色范围,这些颜色分布在一个平面的色相环上,取值范围是0°到360°的圆心角,每个角度可以代表一种颜色。

S(saturation)=饱和度 指的是色彩的饱和度,它用0%至100%的值描述了相同色相、明度下色彩纯度的变化。数值越大,颜色中的灰色越少,颜色越鲜艳,呈现一种从理性(灰度)到感性(纯色)的变化。

L(lightness)=亮度 指的是色彩的亮度,作用是控制色彩的明暗变化。它同样使用了0%至100%的取值范围。数值越小,色彩越暗,越接近于黑色;数值越大,色彩越亮,越接近于白色。

了解了HSL色彩模型是什么之后,除RGB差距外,每个过滤选项就可以和HSL对应起来了:

色度差距(H) = 所选颜色的色相差距大于设定值,则会被过滤
RGB差距 = 所选颜色的RGB差距大于设定值,则会被过滤
最低光度(L) = 亮度小于设定值,则会被过滤
最高光度(L) = 亮度大于设定值,则会被过滤
最低色泽(S) = 饱和度小于设定值,则会被过滤
最高色泽(S) = 饱和度大于设定值,则会被过滤;

关于HSL和RGB的背景知识(供参考学习):

HSL:https://en.wikipedia.org/wiki/HSL_and_HSV
RGB:https://en.wikipedia.org/wiki/RGB_color_model

(后处理,图片来源于网络)

关于过滤器中的「后处理」

「后处理」同样会对抓取的字幕产生较大的影响,这里的参数设置也需要考虑到「进阶设置」中设定的效果来进行选择和调整。比如我已经通过「进阶设置」拿到了比较好的预览效果,那么这里的设置就不用再做太多的工作。但是如果「进阶设置」拿到的效果较差,比如说字幕在设置参数后仍然有很多的杂点,这个时候就需要通过移除像素或是区块来优化了。

(字幕管理,图片来源于网络)

关于「字幕管理」中的「高质量」

在抓到所有的字幕帧后,「高质量」对于输出清晰的字幕作用同样非常明显,这将直接影响到OCR的识别率。点选「高质量」可以感受前后的对比效果,这个效果有些像是打印和低质量的复印甚至手写的差别。对于出现的多余相同字幕可以进行合并,多余的杂色和空白字幕行则可以执行去除和删除。

这些工作完成后,可以将字幕进行导出。 esrXP支持导出的文件有:

.esr(保存当前抓取的图像信息以及时间轴)
.ssa(保存ssa字幕文件,且只含有时间轴)
.srt(保存srt字幕文件,且只含有时间轴)
.idx,.sub(保存图形字幕文件,可直接作为字幕观看)
.bmp(位图,用来OCR成文本)

我的处理方式是将字幕文件导出为OCR图片,再使用Abbyy FineReader(当然你可以使用其他的OCR软件)进行文字的提取。提取的文字复制粘贴回esrXP或者直接放进Srt Sub Master进行包括时间轴的校对。

补充一点,导出的过程中需要注意的是,最好在导出之前保存一份.esr工程文件。esrXP作为一个古老的软件,对于大视频的处理,难免有崩溃的可能。一旦崩溃,又得从头再跑一遍,关键很有可能你已经不记得之前设置的参数了。

在Srt Sub Master中则可以直接对着视频进行字幕的调整/翻译/时间轴校对。完成后导出字幕文件即可。

(Srt Sub Master,图片来源于网络)

到这里,硬字幕的提取或者说英文/双语字幕的制作已经完成。至于如何将制作好的字幕完美地封装到之前的视频里进行字幕的替换,对于一个没有什么视频编辑经验的翻译来讲,我好像遇到了一个更大的问题。

不过没有关系,就当这是一个契机,迫使自己去学习翻译领域之外的相关知识,学完后我会继续和各位分享,就像这次学习字幕的提取一样。

百度无耻的岂止搜索引擎

读完方可成老师写的「搜索引擎已死」,勾起了一点关于百度往事的回忆。有感而发。


百度于10月24日公布了自己研发的 STACL 系统(Simultaneous Translation with Anticipation and Controllable Latency,带有预测和可控延迟的即时翻译),据称能在译者开始讲话后几秒钟,而不是说完一段话后,就开始进行几乎同步的翻译。

如名称所示,上面讲到的「几秒钟」实际上是一个可控制的时长。当你需要在两种关联性相对较强的语言间互译时(比如说法语和西班牙语),STACL 差不多能做到隔开一个词就开始翻译。而当两种被译语言差距很大时(比如中文和英文),系统在翻译前要等待的时间就可能会久一些,只有这样才能保证更好的准确性。

百度官方发布的关于STACL系统的博客公告里提到STACL系统的重大技术突破:

We tackled this challenge using an idea inspired by human simultaneous interpreters, who routinely anticipate or predict materials that the speaker is about to cover in a few seconds into the future. However, different from human interpreters, our model does not predict the source language words in the speaker’s speech but instead directly predict the target language words in the translation (我们受人类同声传译启发并采用这一想法来应对挑战,他们经常预知或预测说话者在接下来的几秒中讲的材料。 然而,与人类口译员不同,我们的模型并不预测说话者的源语言词汇,而是直接预测翻译中的目标语言词汇。) .

以下是百度解释的方式:

“wait-k”,即总是翻译说话者语音后面的k个单词以允许预测上下文。系统经过训练,使用源句子的可用前缀来决定翻译中的下一个单词。

在例子Bùshí Zǒngtǒng zài Mòsīkē(布什总统在莫斯科)和英译“President Bush”中,ķ=2,2个词落后于中文,我们的系统准确地预测,下一个翻译的单词必须是“会见”,因为布什很可能在莫斯科会见某人(例如普京),早在中文动词出现之前。

STACL的另一个关键优势是延迟灵活性。它可以设置得更低或更高,取决于两种语言的相关程度,例如,法语和西班牙语较低,英语和中文等远程语言较高,或英语和德语等不同单词顺序的语言较高。

“翻译质量更常见的是低延迟要求,但与传统的全句(例如非同步)翻译相比,我们的系统在质量上只有很小的损失,”百度写道,“考虑到低延迟要求,我们将继续提高翻译质量。”

那么STACL与人类口译员相比如何呢?根据百度的说法,它比传统的全句翻译少了3.4个BLEU点(bilingual evaluation understudy,“双语评估替补”的缩写,是评估机器翻译文本的标准指标)。在中英文同声传译中,AI系统落后于中文语音大约三秒钟,翻译质量比全句(非同步)翻译低3.4个BLEU点。

STACL翻译系统发布当天,立即引起了国内外各大知名媒体的纷纷报道:

其中评价最高的是「IEEE Spectrum」,认为百度开发的这个新系统,揭示了一种通过预测未来而保持稳定的翻译工具,可以与联合国会议期间提供同传服务的口译人员相媲美,让人们离软件巴别鱼又近了一步(The Chinese tech giant Baidu has invented a translation system that brings us one step closer to a software Babel fish)。
「南华早报」评论:随着百度新的翻译系统亮相,百度向谷歌发起了挑战(Baidu to debut simultaneous machine translation in latest challenge to Google)。
「量子位」评论:百度宣布AI同传最新突破!能预测,低延时,演示效果惊人,外媒称媲美人类翻译。
「凤凰网」科技:媲美联合国同传,百度听清在2018百度世界大会的挑战。
「Fortune」:Baidu Looks to Amaze With A.I. Translation in Real Time(百度AI实时翻译效果惊人!)
「CNBC」:China’s Baidu challenges Google with A.I. that translates languages in real-time.
Silicon Angle的标题就更吓人了:Baidu creates the world’s first simultaneous translation system.

听起来是不是很厉害?当天甚至由于报道的知名媒体过多,百度于是直接在其Demo视频演示的GitHub页面上挂上了各大媒体的Logo:

于是在10月27日,也就是STACL系统发布的第三天,我也没忍住兴高采烈地在两个「翻译技术交流与资源共享」微信群中向近一千名翻译朋友果断做了推荐。毕竟连CNBC的报道里也提到的这次突破的重要原因,百度的预测功能是基于200万对中英语料库。

然而,好景不长,眼见他起高楼,眼见他楼又塌了。就在中外媒体纷纷对这一“技术突破”奔走相告一周而已的11月2日,语言服务行业的重要媒体「Slator」发布批评性报道,「The Art of Hyping Machine Translation」(机器翻译的炒作艺术),文章再次揭露百度的流氓与无耻本性:

Baidu is China’s top search engine, one of the country’s leading proponents of artificial intelligence, and an excellent study in public relations handiwork.(作为中国最大的搜索引擎,百度不仅是该国人工智能的主要倡导之一,更是公关艺术的优秀专家。)

百度PR部门将新闻稿、研究论文、以及GitHub演示页面打包发给了众多媒体机构(这其中就包括Slator)。几小时后,媒体报道铺天盖地:MIT Technology Review、Engadget、CNBC、SCMP、Fortune等等等等。

在Baidu Research的Github演示页面上甚至集中挂上了该论文获得的媒体报道链接和媒体Logo。虽然这些报道失实,但是由于是重要媒体站台,该报道得到了更多其他媒体的疯狂转载。

而作为PR的一部分,百度在11月1日的百度世界大会上进行了STACL的公开演示。大会期间,主显示屏两侧的两个屏幕分别显示了自动语音识别输出和STACL的即时翻译。

 

 

 

 

 

 

 

但是,现场直播中的同声传译仍然是由人工口译员提供。

关于STACL的翻译效果究竟如何?研究者分别做了英-德和中-英方向的任务实验。在wait-5-model模型(即系统等待5个单词后开始翻译)中,STACL的输出质量略差于炒作效果。而在wait-3-model模型(即系统等待3个单词后开始翻译)中,系统预测的词则是完全错误的。

Slator同样采访到了NMT(神经机器翻译)领域的专家,请求他们发表对于STACL系统的看法:

NMT领域的专家、Iconic Translation Machines的联合创始人和CEO John Tinsley表示:在判定每一项新研究是否为突破(breakthrough、即此次各大媒体在报道STACL时用到的词)时,我们仍需极其谨慎。

都柏林城市大学Andy Way教授则表示:如果这(STACL)不是支持口译人员的工具,而是打算要取代他们,那么我认为,根据我的经验,你该了解我会对此说些什么(“If this is not a tool to support interpreters, but instead is intended to replace them, then I think you know based on my track record what I would say about that.” )。

而System Global的CTO Jean Senellart博士则直接表示:这根本不是什么科学突破(“Not a Scientific Breakthrough”)。百度的公告不过制造了很多噪音(”the announcement made a lot of noise “)。

写到这里,我还能说些什么。我向来不惮以最坏的恶意来揣测百度,却不曾料到他们竟然无耻到了这个地步!


Reference:

Baidu Research Blog:research.baidu.com/Blog/index-view?id=107
官方Demo演示:https://simultrans-demo.github.io/
Paper地址:https://arxiv.org/abs/1810.08398

年终总结:2018

这是一份迟到的年终总结。

当各个网站各个App各种书单各种总结纷至沓来的时候,这一年似乎又要悄无声息地流逝了。对于自己来说,这是有失去也有收获的一年。做了一些事情,也有很多的事情没做。

写了18博客,读了17,发了110Tweet,输出了255期「翻译圈」主题分享,运营了2个近900人的翻译群,接了20几万字的翻译,也开始接触翻译项目的管理。

和前几年比,书读得少了,博客写得少了,少了的还有一些头发。17年运行了整整一年的「从海底出发」被弃船了。坚持了几个月的单词计划在夏天还是放弃了。放弃的同时还有产品设计的学习以及断断续续更新的「有人带来了雪意和五点钟」。

十月想要故地重游的薄刀峰没有去,十二月想要滑雪的神龙架也要到明年了。计划中的翻译Newsletter和公众号计划还没有实施。

但学会了做简单的个人网站。又系统地学习了一遍CAT,发现了更多厉害而有趣的人,以及更多需要学习的软件和技术。机器翻译的领域日新月异,技术和工具带来舒适感的同时,也带来了更大的困惑和恐慌。

The more you know, the more you know you don’t know.

花费了一些时间在RSSTwitter上,主要是行业动态和专业知识的获取。翻译几乎是这一年的重心,甚至包括工作内容本身。不论是知识星球,还是翻译项目,是兴趣爱好,也是无心插柳。

看了许多的电影,和她一起。搞笑的,伤心的,恐怖的,悲伤的。是消遣时间的一种方式,更是促进交流的一种方式。去年的年度最佳是「海边的曼彻斯特」,今年是「狗十三」。

秋天的时候,舅舅离开了,大概是在我的婚礼之前,他的状况已经非常不好了。在蜜月旅行的最后一站,阿克雷里的夜晚还是早晨,妈妈罕见地打了长途电话过来。她向来也是不紧不慢的人,这一次她的语气显得焦急。

回国的飞机临时改签到成都,落地的第一时间给舅娘打了电话,她笑着说舅舅已经离开了。忍不住地流了眼泪。不知道是想起以前舅舅和爸爸之间的旧事,还是想到舅娘拉着三个孩子以后艰难的日子。

冬天的时候,有了第二个外甥女。妈妈可能既难过,又开心。我甚至心里想着这个小天使的到来是否可以冲淡她心里对于舅舅的思念。那是十一月底下班回家的路上,突然收到姐夫的信息,我想到自己又一次做了舅舅。那天我在Twitter里写道:

「想起思琪出生的那年,我一个人风尘仆仆地坐火车回家。一转眼,很多年过去了。
思琪和妈妈一起长大,我和姐姐常年在外,回家的日子越来越少。
有时候会想起和姐姐一起度过的童年,如今她才终于有了妈妈的模样。」

当然,最重要的,这一年我也开始有了一个属于自己的小小的家庭,以及那个赏心悦目陪伴终身的人。关于婚礼,写了这篇「婚礼」,关于冰岛的蜜月旅行,写了这篇「冰岛没有火车」。你说蜜月游记写的犹如小学生水平,婚礼则写得很好。

你可能并不知道,在写那篇「婚礼」的时候,我有很多次回想起那篇「武汉爱情故事」,以及再早一些的「时光倒流二十年」,里面有好几次我们曾经见面又分别的场景,包括类似于爱情像是没有地基的房子一般的悲伤比喻。但是这么多年过去了,我们的确经历了分分合合,却又最终走到了一起。如果说真有什么样句子可以表达这样时过境迁的心情,我想是这些写在「时光」里的预言:

「我有认真地想过,我们曾经在过去里遥望过现在,在倡导速食和干货的时代,那样的遥望看起来漫长到没有尽头。在巨大的时空差距里,这段关系于别人听起来简直不可思议。谁会等一个多年远行的人,谁又会在多年的远行之后想起当初那个人。自己亦偶尔站在今天往回看,看那来时走过的曲折而坎坷的路,一路充满了荆棘与眼泪,心酸与惦念。所有这些听起来有些失落的情感,却早已经构成了一段关系里的重要部分,你想感谢时间,感激它最终原谅了所有的争吵和歧路,使破碎的心得以治愈,使分开的人得以相爱。若是在这走过的路与度过的时间里还有什么遗憾,那也只是相见恨晚,遗憾童年时代的不曾相识,错过了青梅竹马的当初。但又是因为这时间,两个孑然独立的人最终得以在茫茫宇宙之中相遇,从而有了相互搀扶和相伴终身的可能。」

2019年,希望自己可以像张楚在接受许知远采访时讲的那样,「不要太浪漫,要勤奋一点」。

希望自己可以读更多的好书。写更多有质量的博客。「翻译圈」有更多的输出和分享。可以做到更多的翻译项目。当然,翻译的公众号和考试的事情不可以再拖了。另外,希望可以在摄影技术上有所突破。

如果有什么漏掉或者需要更新,那么回头再补充或者调整吧。

附一份2018年的读书列表,虽然评价只有简单粗暴的星星。也希望今年读书的时候,可以写写简单的评论或者笔记,不仅是为了记录读书的那一刻真实的心情或者感受,也是为了年底再写读书总结的时候,总不至于太过空洞。

人类简史 : 从动物到上帝 ★★★★★
未来简史 ★★★
今日简史 : 人类命运大议题 ★★★
区块链技术指南 ★★★
区块链原理、设计与应用 ★★★
区块链技术驱动金融 : 数字货币与智能合约技术 ★★★★
阿勒泰的角落 ★★★
我的阿勒泰 ★★★
冬牧场 ★★★★
东京一年 ★★
梁家河 ★★
882 1/2 Amazing Answers to Your Questions about the Titanic ★★★
禅与摩托车维修艺术 ★★★★
浪潮之巅 ★★★
非暴力沟通 ★★★
一九八四 ★★★★★
了凡四训 ★★

CAT领域工具和库合集

在线术语库

  1. 中国关键词:http://www.china.org.cn/chinese/china_key_words/
  2. 中国特色话语对外翻译标准化术语库:http://210.72.20.108/index/index.jsp
  3. 中国核心词汇:https://www.cnkeywords.net/index
  4. 中国思想文化术语:http://www.chinesethought.cn/TermBase.aspx
  5. 联合国术语库:https://unterm.un.org/UNTERM/portal/welcome
  6. 术语在线:http://termonline.cn/index.htm
  7. 国家教育研究院术语库:http://terms.naer.edu.tw/download/
  8. 区块链相关术语:http://8btc.com/thread-17286-16-1.html
  9. 明代职官中英辞典: https://escholarship.org/uc/item/2bz3v185
  10. 中国规范术语: http://shuyu.cnki.net/index.aspx
  11. Grand Dictionnaire Terminologique http://www.granddictionnaire.com/
  12. TERMIUM http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-eng.html?lang=eng
  13. 语帆术语宝:http://termbox.lingosail.com/
  14. 微软术语库:https://www.microsoft.com/zh-cn/language
  15. 世界卫生组织术语库:http://www.who.int/substance_abuse/terminology/zh/
  16. 电子工程术语表:https://www.maximintegrated.com/cn/glossary/definitions.mvp/terms/all
  17. Mdict 100GB超大离线词库下载:https://downloads.freemdict.com/
  18. 一本词典:http://www.onedict.com/
  19. 国家标准《物流术语》 http://zizhan.mot.gov.cn/zhuantizhuanlan/gonglujiaotong/shoufeigongluzmk/zhengcefagui/201508/t20150814_1863913.html
  20. 冬奥会术语查询网站:http://owgt.lingosail.com/
  21. 音乐术语查询:http://dictionary.t-classical.com/
  22. European Union Language and terminologyhttps://europa.eu/european-union/documents-publications/language-and-terminology_en
  23. IATE (Interactive Terminology for Europe) EU’s terminology databasehttps://iate.europa.eu/home
  24. 香港法律中英术语:https://www.elegislation.gov.hk/glossary/chi
  25. Magic Searchhttp://magicsearch.org
  26. Microsoft Language Portalhttps://www.microsoft.com/en-us/language
  27. Lingueehttps://www.linguee.com/
  28. The Free Dictionaryhttp://www.thefreedictionary.com/
  29. Glosbehttps://glosbe.com/tmem/

在线语料库(国内)

  1. 语料库:http://yulk.org/
  2. BCC语料库:http://bcc.blcu.edu.cn/
  3. 语料库在线:http://www.cncorpus.org/
  4. 北京大学中国语言学研究中心:http://ccl.pku.edu.cn/corpus.asp
  5. 北外语料库语言学:http://www.bfsu-corpus.org/
  6. 现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus/
  7. 古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw
  8. 近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/
  9. 树图数据库:http://treebank.sinica.edu.tw/
  10. 搜文解字:http://words.sinica.edu.tw/
  11. 汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/
  12. 中国传媒大学文本语料库检索系统:http://ling.cuc.edu.cn/RawPub/
  13. 哈工大信息检索研究室对外共享语料库资源:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
  14. 香港教育学院语言资讯科学中心及其语料库实验室:http://www.livac.org/index.php?lang=sc
  15. 中文语言资源联盟:http://www.chineseldc.org/

在线语料库(国外)

  1. BNC——英国国家语料库(British National Corpus):http://www.natcorp.ox.ac.uk/
  2. BOE——柯林斯英语语料库(the Bank of English):http://www.collinslanguage.com/language-resources/dictionary-datasets/
  3. ANC——美国国家语料库(American National Corpus):http://www.anc.org/
  4. 兰开斯特汉语语料库 (LCMC)http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
  5. SKETCH ENGINE多语言语料库:www.sketchengine.co.uk
  6. BASE——英国学术口语语料库(British Academic Spoken English Corpus):http://www2.warwick.ac.uk/fac/soc/celte/research/base/
  7. Lextutorhttp://www.lextutor.ca/
  8. My Memoryhttps://mymemory.translated.net/
  9. TAUShttp://www.tausdata.org/index.php/language-search-engine
  10. TTMEMhttps://www.ttmem.com/terminology/download-translation-memory/
  11. TinyTMhttp://tinytm.sourceforge.net/
  12. DGT Translation Memoryhttps://magmatranslation.com/en/free-translation-memory/
  13. European Parliament Proceedings Parallel Corpus 1996-2011http://statmt.org/europarl/
  14. University of Maryland Parallel Corpus Project: The Biblehttp://users.umiacs.umd.edu/~resnik/parallel/bible.html
  15. Aligned Hansards of the 36th Parliament of Canadahttps://www.isi.edu/natural-language/download/hansard/
  16. EU Publication Officeshttps://publications.europa.eu/en/web/general-publications/publications
  17. Wikimedia Downloadshttps://dumps.wikimedia.org/backup-index.html
  18. Open Subtitleshttps://www.opensubtitles.org/en/search/subs
  19. United Nations Parallel Corpushttps://cms.unov.org/UNCorpus/
  20. European language pairshttp://www.statmt.org/wmt13/translation-task.html#download
  21. parallel corpus searchhttp://paralela.clarin-pl.eu/#
  22. UM-Corpus: A Large English-Chinese Parallel Corpushttp://nlp2ct.cis.umac.mo/um-corpus/um-corpus-license.html
  23. Clarin Parallel corporahttps://www.clarin.eu/resource-families/parallel-corpora
  24. The PKU 863 Chinese-English Parallel Corpushttps://www.lancaster.ac.uk/fass/projects/corpus/863parallel/
  25. 《红楼梦》汉英平行语料库:http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm
  26. 中央研究院近代汉语标记语料库:http://lingcorpus.iis.sinica.edu.tw/early/
  27. BYU corpora: https://corpus.byu.edu/

其他子语料库

  1. Books – A collection of translated literature
  2. DGT – A collection of EU Translation Memories provided by the JRC
  3. DOGC – Documents from the Catalan Goverment
  4. ECB – European Central Bank corpus
  5. EMEA – European Medicines Agency documents
  6. The EU bookshop corpus
  7. EUconst – The European constitution
  8. EUROPARL v7 – European Parliament Proceedings
  9. giga-fren – French-English Gigal-Word Corpus
  10. GNOME – GNOME localization files
  11. Global Voices – News stories in various languages
  12. The Croatian – English WaC corpus
  13. JRC-Acquis- legislative EU texts
  14. KDE4 – KDE4 localization files (v.2)
  15. KDEdoc – the KDE manual corpus
  16. MBS – Belgisch Staatsblad corpus
  17. memat – Xhosa/English parallel data
  18. MontenegrinSubs – Montenegrin movie subtitles
  19. MultiUN – Translated UN documents
  20. News Commentary, v9.0, v9.1
  21. OfisPublik – Breton – French parallel texts
  22. OO – the OpenOffice.org corpus
  23. OpenOffice.org 3 corpus
  24. OpenSubtitles – the opensubtitles.org corpus
  25. OpenSubtitles2011, OpenSubtitles2012, OpenSubtitles2013
  26. OpenSubtitles2016 – snapshot from 2016
  27. OpenSubtitles2018 – new complete version
  28. ParaCrawl corpus
  29. ParCor – A Parallel Pronoun-Coreference Corpus
  30. PHP – the PHP manual corpus
  31. Regeringsförklaringen – a tiny example corpus
  32. SETIMES – A parallel corpus of the Balkan languages
  33. SPC – Stockholm Parallel Corpora
  34. Tatoeba – A DB of translated sentences
  35. TedTalks hr-en
  36. TED Talks 2013
  37. Tanzil – A collection of Quran translations
  38. TEP – The Tehran English-Persian subtitle corpus
  39. Ubuntu – Ubuntu localization files
  40. UN – Translated UN documents
  41. Wikipedia – translated sentences from Wikipedia
  42. WikiSource – (small en-sv sample only
  43. WMT News Test Sets
  44. The Xhosa – English Navy corpus

主流CAT

  1. SDL Tradoshttps://www.sdltrados.cn/cn/products/trados-studio/free-trial.html
  2. Déjà Vuhttps://dejavux4.com/installers/DejaVuX3.Setup.exe
  3. MemoQhttps://www.memoq.com/downloads
  4. 雪人CAThttp://www.gcys.cn/
  5. OmegaThttp://omegat.org/download
  6. Acrosshttps://www.across.net/
  7. Transmatehttp://www.uedrive.com/
  8. WordFasthttp://www.wordfast.net/
  9. 雅信CAThttp://www.yxcat.com/
  10. Wordbeehttps://www.wordbee.com
  11. SmartCAThttps://www.smartcat.ai/
  12. MateCAThttps://www.matecat.com/

对齐工具

  1. WinAlignhttps://fix4dll.com/winalign_dll
  2. Abbyy Aligner: https://www.abbyy.com/en-eu/support/linguistic/aligner2/info/sr/
  3. TmxEditor: https://sourceforge.net/projects/tmxeditor/
  4. Okapi Olifant: http://okapi.sourceforge.net/downloads.html
  5. You Align: https://youalign.com/
  6. Transmate Aligner: http://5icat.cn/thread-4246-1-1.html
  7. BasicCAT Alignerhttps://www.basiccat.org/zh/new-tool-bitext-aligner/
  8. MemoQ LiveDocs:https://www.memoq.com/en/livedocs
  9. Super Alignhttp://sourceforge.net/projects/superalign
  10. hunalign (LGPL)http://mokk.bme.hu/resources/hunalign
  11. Europarl sentence aligner
  12. http://code.google.com/p/corpus-tools/downloads/list
  13. http://search.cpan.org/~achimru/Text-GaleChurch-1.00/lib/Text/GaleChurch.pm
  14. Gale & Church in Python: https://github.com/vchahun/galechurch
  15. Gargantuahttp://sourceforge.net/projects/gargantua/
  16. Melamed’s GMA (GPL)http://nlp.cs.nyu.edu/GMA/
  17. Bob Moore’s sentence aligner (Microsoft, licensehttp://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/
  18. LF aligner (based on hunalign)
  19. http://sourceforge.net/projects/aligner/
  20. http://traduccionymundolibre.com/wiki/LF_Aligner
  21. Bleualign: https://github.com/rsennrich/bleualign
  22. malignahttp://sourceforge.net/projects/align/
  23. tca-alignhttp://freeterm.wordpress.com/2010/06/30/tca2-parallel-text-processing-at-uib-no/
  24. Champollion in scala: https://github.com/jhclark/akerblad
  25. sentence aligner from Uplughttp://sourceforge.net/projects/uplug/
  26. Movie subtitle alignmenthttp://opus.lingfil.uu.se/tools.php
  27. AlignFactroy:http://www.terminotix.com/index.asp?name=AlignFactory
  28. free on-line aligner at: http://www.youalign.com/
  29. Comparisons of alignment performance:
  30. http://www.ims.uni-stuttgart.de/~fraser/pubs/braune_coling2010.pdf
  31. http://lium3.univ-lemans.fr/mtmarathon2010/ProjectFinalPresentation/SentenceAlignment/sentence_alignment.pdf
  32. Tools for book alignment: http://search.cpan.org/~andrefs/
  33. Extract parallel sentences from comparable corpora: http://jgosme.perso.info.unicaen.fr/sentpair.html
  34. Accurat toolkit: http://www.accurat-project.eu/index.php?p=accurat-toolkit
  35. yalign: https://github.com/machinalis/yalign

Machine Translation Tools (statistical)

  1. Moseshttp://www.statmt.org/moses/
  2. SMT toolkithttp://www-i6.informatik.rwth-aachen.de/jane/
  3. cdec SMT decoder http://cdec-decoder.org
  4. NiuTrans http://www.nlplab.com/NiuPlan/NiuTrans.html
  5. sinhue:
  6. http://www.cs.helsinki.fi/u/mtkaaria/
  7. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/sinuhe_v1.3_rc2.1.tar.gz
  8. http://www.cs.helsinki.fi/u/mtkaaria/sinuhe/models/
  9. Syntax-augmented SMT (SAMT): http://www.cs.cmu.edu/~zollmann/samt/
  10. Docent: https://github.com/chardmeier/docent/wiki
  11. A decoder in Perl: http://staff.science.uva.nl/~christof/html/software.html
  12. Apertium: http://wiki.apertium.org/wiki/Main_Page
  13. Thot (GPL): http://thot.sourceforge.net/
  14. Mood/MISTRAL/Ramses (GPL): http://smtmood.sourceforge.net/about
  15. svn co https://smtmood.svn.sourceforge.net/svnroot/smtmood/trunk/mood
  16. Joshua: http://cs.jhu.edu/~ccb/joshua/
  17. Thrax: http://cs.jhu.edu/~jonny/thrax/
  18. Phramer: http://www.phramer.org/
  19. OpenMaTrEx: http://www.openmatrex.org/
  20. n-code (n-gram based SMT) [http://perso.limsi.fr/Individu/jmcrego/bincoder/
  21. Other interesting stuff:
  22. http://www.worldwidelexicon.org/api
  23. http://blog.worldwidelexicon.org/
  24. http://code.google.com/p/m4loc/
  25. Phrase extraction toolkit: http://code.google.com/p/geppetto/

MT Evaluation Tools

  1. NIST BLEU ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v11b.pl
  2. METOR: http://www.cs.cmu.edu/~alavie/METEOR/
  3. The Asiya Open Toolkit for Automatic MT (Meta-)Evaluation http://www.lsi.upc.edu/~nlp/Asiya/
  4. TER: http://www.umiacs.umd.edu/~snover/terp/
  5. http://sourceforge.net/projects/tercpp
  6. Different metrics & significance testing: https://github.com/jhclark/multeval
  7. Combining various metrics in a simple script: http://kheafield.com/code/scoring.tar.gz
  8. visualization: https://github.com/mjdenkowski/meteor/tree/master/xray

Other tools and links

  1. significance tests: http://projectile.sv.cmu.edu/research/public/tools/bootStrap/tutorial.htm
  2. interactive BLEU: http://http://code.google.com/p/ibleu/
  3. XML wrapper: http://kheafield.com/code/scoring.tar.gz
  4. Apertium: http://wiki.apertium.org/wiki/Main_Page
  5. convert bitexts to tmx: http://sourceforge.net/projects/bitext2tmx/

以上合集由Nansey整理,维护和更新。转载请注明来自nansey.me