有人做了一个调查,英语输入年度错词——
Android

把 Android 打错成 Andriod 超多次
有时候面对语言的困境
这时候翻译类软件就派上用场了,不过很多时候这些翻译软件并没有什么用,而是让沟通更困难。。。
“ 松下问童子 ” 的翻译↓↓

(Matsushita =松下电器)
开始的时候,他们想出了一个简单且粗暴的办法,就是通过把句子里的词一个一个翻译成目标语言,然后再根据语法调整顺序。
比如把西班牙语翻译成英语,先拆分

再调整语序

图来自知乎@九五要当学霸
有的时候,语序是个谜一样的东西,比如 “ 喂猪了么?”,“ 猪喂了么?”,“ 喂了猪么?” 顺序不同,但完全是一回事!
找出所有可能的组合

用这些组合拼凑出所有可能的句子,然后按日常生活中出现概率最高的为准,这在一般情况下结果是对的。
未来的自动翻译软件将会有多强大?

联合国每年产生大量翻译文本,可用于训练翻译算法
全球有7000多种语言,但其中4000多种仅能书写,无法进行听说交流,像谷歌翻译这样的自动翻译软件也仅能翻译100种语言,目前,科学家最新研究称,未来我们能使用自动翻译软件实现更多语言的交流沟通。
由于加拿大议会、联合国和欧盟等多语言机构的存在,英语、法语、西班牙语和德语等语言有大量的翻译素材,不同国家的译员人工翻译大量笔录和其他文件,仅欧洲议会在过去10年里,在23种语言中产生了13.7亿个单词的翻译数据。
目前,谷歌翻译软件提供了大约108种不同语言的交互翻译功能,而微软“必应翻译”提供了大约70种语言,然而,世界上有7000多种口语,其中至少4000种拥有文字系统。
这种语言障碍对于任何需要快速收集精确全球信息的人而言都是一个难题,培训一名人工译员或者情报分析员学习一门新语言可能需要几年时间,即便如此,它可能也不足以完成当前的任务。鲁比诺说:“例如:在尼日利亚,人们使用的语言超过500种,即使是尼日利亚国内最优秀的语言专家,也可能仅懂得其中部分语言。”机器翻译工具可以在没有人工翻译的情况下提供重要的交流方式为了突破这一障碍,IARPA投资一项研究,用于开发一种语言系统,能够从任何资源匮乏的语言(无论是文本语言还是语音语言)中寻找、翻译和总结信息。
人们可以想象一下,一种新型搜索软件,用户在搜索框键入英文,就会收到一个英文摘要文档列表,这些文档都是从某种外语翻译过来的,当他们点击其中一个文档,完整的翻译文件就会生成,虽然该研究经费来自于IARPA,但研究是由竞争团队公开进行,其中大部分翻译文件现已发布。
研究团队分为更小的专家小组,他们致力于完善语言翻译系统,该系统的主要组成部分是:自动搜索、语音识别、翻译和文本概括技术,以上均适用于资源较少的语言。自2017年该项目开始以来,研究团队已经研究了8种不同语言,包括:斯瓦希里语、塔加拉语、索马里语和哈萨克语。
其中一个突破是从网络上获取文本和语音,包括新闻文章、博客和视频内容,由于世界各地网络用户都在使用自己的母语发布信息,许多资源匮乏的语言在线数据也在不断增多。
南加州大学计算机科学家斯科特·米勒说:“如果你搜索互联网,想获取索马里语的相关数据,你会找到上亿个单词,这是没有问题的,你可以在网络上获得几乎所有语言的文本资料。”
以上在线数据通常是单一语言模式,意味着索马里语文章或者视频只能使用母语阅读,没有平行对应的英语翻译。但是米勒表示,神经网络模型可以在许多不同语言的单语数据上进行预训练。
想象一下,当你正在搜索一篇关于星期一抗议者攻击某栋建筑的新闻报道,但搜索结果显示,抗议者的暴力行径是发生在星期四,这是因为神经模型在总结报告时,利用了基于数百万页训练文本的背景知识。在这些文本中,有更多的抗议者在星期四攻击建筑物,因此得出结论。
类似地,语言翻译软件的神经模型可能在摘要概述中插入日期或者数字,计算机科学家称之为“幻觉”。
当新冠病毒大流行时,人们突然要将一些基本的健康提示翻译成多种语言。
虽然语言搜索引擎是为现有语言而设计的,但是该项目包括了一个研究数千年、现无人使用的小语种,这些古老的语言资源非常少,因为许多语言仅以文本片段的形式存在,他们为可应用于现代低资源语言的技术提供了一个有效试验。
麻省理工学院博士生Jiaming Luo和合作者共同开发了一种语言算法,可以计算出某些古代语言是否有现代存留,通过提供这些语言的基本信息,以及语言变化的通常状况,该语言算法获得了一个先行条件,基于以上信息,该语言模型能够独自获得一些发现,期间仅使用少量数据。
机器学习可以帮助破译已经灭绝的语言,比如公元前14至12世纪在叙利亚北部使用的乌加里特语
通过这种语言算法,他们发现一种来自近东地区的古老语言乌加里特语与希伯来语密切相关,他们还得出结论称,一种古老的欧洲语言——伊比利亚语,与其他欧洲语言相比,更接近于巴斯克语(但与巴斯克语的关联度并不高)。
相信未来有一天,我们所有人都可能在日常生活中使用多语言搜索引擎,只需点击一个按钮,就能解锁世界知识,在此之前,真正理解一种资源匮乏语言的最好方法可能就是学习它,并加入多语言在线人类交流。综合来源 |新浪科技
图片 | 网络
、
