描述
 —  中国外文界  —
全国翻译人才基地

从冷战到深度学习,一文看懂机器翻译发展史

浏览: 作者: 来源: 时间:2022-07-08 分类:新闻资讯
从搜索引擎到如今语音控制的微波炉,机器翻译是所有现代语言处理系统的基础,本文将介绍机器翻译的详细发展历程,以及在线翻译的演变过程与结构。

图片
开篇
早在1933年。
前苏联科学家 Peter Troyanskii 向苏联科学院提交了一篇《双语翻译时用于选择和打印文字的机器》的论文。这项发明非常简单,包括有4种语言的卡片、一部打字机、以及一部旧式的胶卷照相机。
操作人员从文本中拿出第一个单词,找到相应的卡片,然后拍张照片,并在打字机上打出词态,如名词,复数,所有格等。这部打字机的按键构成了一种特征编码。然后利用胶带和照相机的胶卷制作出一帧帧的单词与形态特征的组合。
图片
尽管如此,这项发明被认作“无用”,Troyanskii为完成此项发明努力了20年,直到他死于心绞痛。世上无一人知道这个机器,直到1956年两位前苏联科学家发现了他的专利。
1954年1月7日,在IBM纽约总部,Georgetown-IBM实验启动了。IBM的701型计算机将60个俄语句子自动翻译成英语,这是历史上首次的机器翻译。
“一位不懂俄语的女孩在IBM的卡片上打出了俄语信息。‘电脑’以每秒2.5行的惊人速度,在自动打印机上迅速完成了英语的翻译。”——IBM报道说。
图片
IBM 701
机器翻译的比拼
改善机器翻译的努力持续了40年。
科学家们通过不断的尝试、研究和开发奠定了现代自然语言处理的基础。如今所有的搜索引擎、垃圾邮件过滤器、以及个人助手都要归功于那些年国家间相互的比拼。
图片
一、基于规则的机器翻译
(Rule-basedmachine translation:RBMT)
基于规则的机器翻译的想法第一次出现是在70年代。科学家根据对翻译者工作的观察,试图驱使巨大笨重的计算机重复翻译行为。这些系统的组成部分包括:

  • 双语词典(俄语->英文)
  • 针对每种语言制定一套语言规则(例如,名词以特定的后缀-heit、-keit、-ung等结尾)

如此而已。如果有必要,系统还可以补充各种技巧性的规则,如名字、拼写纠正、以及音译词等。
图片

二、基于实例的机器翻译
(Example-BasedMachine Translation:EBMT)
日本尤其对机器翻译感兴趣。
基于规则的英译日非常复杂。日语的语法结构完全不同,所有的单词必须重新排列,并追加新单词。1984年京都大学的长尾真提出“使用准备好的短语代替重复翻译”的想法。
想象一下,如果要翻译一个简单的句子:“I’m going to the cinema。” 如果已经翻译过另外一个类似的句子:“I’m going to the theater”,而且可以从词典中找到“cinema”这个单词。
那么所要做的是找出两个句子的不同之处,然后翻译这个有差异的单词,但不要破坏句子的结构。拥有的例子越多,翻译效果越佳。
图片
我可以用同样的方法写出了完全不懂的另一种语言的句子。
EBMT的方法给全世界的科学家带来了一丝曙光:事实证明,可以通过向机器输入已有的翻译实现机器翻译,而无需花费多年的时间建立规则和例外。这个方法虽然不算是一次彻底的变革,但显然是向前迈进了一大步。仅在5年后,革命性的发明——统计型机器翻译出现了。

三、统计型机器翻译系统
(StatisticalMachine Translation:SMT)
在1990年早期,IBM研究中心的一台机器翻译系统首次问世。它并不了解整体的规则和语言学,而是分析两种语言中的相似文本,并试图理解其中的模式。
图片
这个想法很简单却很出色。相同的一个句子用两种语言分割成单词,然后相互匹配。将这种操作重复大约5亿次,并对每个单词的匹配结果进行计数,如统计单词“Das Haus”被翻成“house”、“building”、“construction”的次数。
如果大多数时候被翻译成了“house”,那么机器就会采用这个翻译。请注意我们并没有设置任何规则,也没有用到任何词典,所有的结论都是机器根据统计以及“如果大家这么翻译,那我也这么翻译”的逻辑得出的 。于是统计型机器翻译诞生了。
图片
这种方法比之前的方法更高效且准确,而且还不需要语言学家。使用的文本越多,翻译效果就越佳。
图片
图:Google的统计翻译内幕,会统计概率,也会反向统计
但这个方法还有一个问题:机器如何或什么时候才会将单词“Das Haus”与单词“building”关联到一起?而我们又如何知道这是正确的翻译呢?
答案是我们并不知道。
最初,机器假定单词“Das Haus”与翻译后的句子中的其他词的关联性都相同。接下来,当“Das Haus”出现在别的句子里,与“house”一词的关联性就会+1。这就是大学机器学习中的经典任务:“单词对齐算法”。
四、神经网络机器翻译
(NeuralMachine Translation:NMT)
2014年出现了一篇非常有趣的关于将神经网络用于机器翻译的论文。
这种翻译方法近似于图片的风格转换。它们可以将图片转换成某位著名的艺术家风格。这并不是魔法。训练有素的神经网络可以识别艺术家的作品。然后,将神经网络中最后的一层决策层删除。由此输出的经过处理的图片只是神经网络获得的中间图片。这正是该网络的强大之处,通过这种方法处理的图片很美。
既然我们可以对图片进行风格上的转换,那么如果我们尝试用另一种语言处理原文呢?原文相当于“艺术家的风格”,而我们需要将它进行转换,同时保证图片的本质,也就是文本的本质。
例如,我这样描述我的狗狗——中等个头、尖尖的鼻子,短尾巴,经常叫。如果我给你一些狗狗的特征,并且描述得足够精确,你就可以画出来,尽管你从未见过我的狗狗。
图片
现在,假定原文是一组具体的特征。基本上,你可以将它进行编码,然后让其他神经网络通过解码将其还原成文本,但是要用另外一种语言。解码器只知道自己的语言,它并不知道原本的特征,但是它可以用西班牙语等其他语言进行表述。还是用画狗狗的比喻,怎样画出狗狗并不重要,无论你用蜡笔、水彩还是手指头,你可以用喜欢的方式画出来。
图片
问题在于,我们怎样才能找到这些特征呢?狗狗的特征很明显,但是怎么处理文本呢?30年前科学家已经尝试创建国际语了,但是统统以失败告终。
然而,现在我们有了深度学习。而这正是它所擅长的。深度学习与传统的神经网络的主要区别在于,深度学习可以搜索那些特定的特征,而不需要了解其特性。如果神经网络足够大,且装备了几千个显卡,那么它可以在文本中找到那些特征。
总结与将来
机器翻译还有一块空白区域:所有的机器学习仅限于一组并列的文本块,即源语言和目标语言之间,一句话一句话需要对应起来。最深的神经网络也仍然在并列的文本中学习。没有资源,我们无法训练神经网络。相反,人们可以通过阅读数据或文章来补充他们的词汇量,即便没有将这些词翻译成母语。

原文:https://medium.freecodecamp.org/a-history-of-machine-translation-from-the-cold-war-to-deep-learning-f1d335ce8b5
作者:IlyaPestov
综合来源:微信公众号 CSDN