谷歌或利用大数据研发通用翻译器
谷歌翻译以能够快速粗略地将网页或短文本翻译成另外一种语言而著称。但是有专家称,该服务的核心技术的下一步规划是研发出一种类似于“星际迷航”中的通用翻译器。
在这方面谷歌并不是孤军奋战。显然,Facebook和微软等公司也都有相同的雄心壮志:创建一些能够消除语言障碍的服务。这是一个切实可行的目标还是天方夜谭?它们的代价是什么呢?
机器翻译已经以这种或那种形式发展了数十年时间,但是它们与人工翻译相比仍然存在很大的差距。许多具有机器翻译功能的软件涉及定义不同语言的语法和词典,以及死板而晦涩的程序。
在Franz Och的指导下,谷歌的解决方案是用一种纯统计法解决方案替代上述方案。与老式算法所驱动的方案相比,以查阅大量平行数据的方式——例如,各种公共文本的英语和法语翻译——能够生成更出色的翻译。语料库或平行文本库越大,翻译效果也就越好。(存储和处理能力在过年二十年中的提升也提供了帮助。)
如果谷歌的计划是从零开始创建一种属于自己的技术,那么Facebook的策略似乎是引入谷歌的技术。在8月份,Facebook选择了Mobile Technologies公司所开发的语言翻译软件。对此,Facebook的产品管理总监称“这是一项对公司长期产品路线图的投资”。在Mobile Technologies公司的产品当中有一款名为Jibbigo的应用,该应用能够翻译语音。
从这两个独立的项目,我们能够很容易地发现一个共同点:公司拥有大量可供他们使用的语言数据。谷歌和微软都有自己的搜索引擎,它们可以实时对网页进行搜索;Facebook则拥有大量的用户文字聊天记录。所有的这些构成了一个庞大的数据,这些数据可以作为翻译语料库。
迄今为止,一个最大的未知问题是:如果谷歌、Facebook和微软等公司计划使用实时对话来生成一个用于翻译的语料库,那么这些数据是否会进行匿名化处理,甚至是否有这种可能性。创建一个选择加入程序,让人们有选择地将他们的谈话加入语料库中似乎是一个最好的解决方案。但是对于他们之前的行为,似乎不太可能写入到服务条款协议之中。