实时语音翻译技术,微软终于把它用在Skype上了

今天亮相的有趣产品并不止有Google自产的无人车。微软也在re/code举行的Code大会上发布了新产品,可以对多语言对话进行实时翻译的Skype。

想象一下在不远的未来,人们开始跨越地理位置和语言的边界,以前所未有的方式连接到一起——换句话说,你和你在地球另一边的朋友,不需要再顾虑语言和距离的问题,而是通过屏幕自如的交谈:那就是Skype要最终实现的目标。

在台上演示时,Skype负责人Gurdeep Pall通过Skype和一位说德语的同事进行了远程对话,谈论了“Pall要搬到伦敦”的话题,而Skype为他们提供实时“英语-德语”的双向实时翻译,并且在屏幕上根据对话内容显示翻译后的文本。两人的演示基本顺利,双方就伦敦和西雅图进行了一段“无聊的”对话,然而在快结束的时候,翻译器还是出现了一点点失误,翻译出来的句子出现了“to see her Fiance my”这样不通的句子。不过,就像Pall的同事说的那样,“(这点错误)没关系。”至于其他的句子,根据现场会德语的观众的反馈来看,算不上“完美”,但已经是非常好。当然,这还得算上偏慢的语速和准备好的对话脚本。

skype

作为首次登台演示,Skype Translator显然已经是个大惊喜。Pall也对这项技术进行了简单的解释,他说,Skype Translator是由Skype和微软翻译小组联合开发,结合了Skype的语音和IM技术,还有基于神经网络的语音识别功能。Skype服务需要使用语音识别功能理解发言人的语言,然后利用机器学习技术完成翻译,再用文本发声技术将翻译好的内容朗读给收听者。

而纳德拉在现场也进一步透露说,Skype Translator使用了一种叫做“迁移学习”(Transfer Learning)的机制,也就是说,它先后学习的语言将会互相促进和影响。比如说,当你教它英文时,它会学习英文,而当你教它汉语时,它不仅学会汉语,而且能够在英文上也进步,同样的,当你教授西班牙语时,它的三种语言同时都在变得更好。“就像人类的大脑一样运作。”纳德拉说。

对Skype Translator来说,最有效改进的办法就是利用人们在Skype上的大量对话来改善翻译的质量,提高实时翻译的准确性,这能够让这个翻译引擎在人们交谈较复杂时更好地发挥作用。不过,这样做很可能将牵涉到用户的隐私问题。但是Pall认为,人们每年差不多会通过Skype完成7500亿分钟的语音对话,所以只要有很少的用户愿意让参与到翻译引擎的研究中,就已经很好了。

这款产品将同时提供语音和文本翻译服务。Pall随后在微软官方博客上发布文章称,预计最早在2014年底,Skype Translator将会首先作为一个Windows 8的beta应用出现,之后则会“很快”地拓展到其他平台,比如Mac和iPhone。

而如果你想率先在Skype中使用它,则必须有一台装有Windows系统的PC了,而且最好祈祷你和你的朋友使用的语言都在微软早期支持的为数不多的语言(目前宣布的还是只有德语和英语)中。当然,纳德拉还是承诺,将会尽快添加更多语言,并在其他平台上提供服务。

微软并不是唯一一家想要在实时翻译技术上有所突破的公司。日本运营商NTT Docomo就在2011年底时就开始提供从日语到英语的实时语音翻译,Google在这方面同样有不少投入。不管如何,微软展示出来的这项技术还是非常让人激动。尽管它仍然处在早期,但是很明显,在教育、外交、商务和多语言家庭沟通等应用场景上,它都会有很大的潜力。

而且,考虑到现在Skype的巨额用户量——“每个月3亿用户,每天差不多有20亿分钟的语音对话”,这项服务或许真的能再一次帮助人们打破沟通的障碍,就像十多年前Skype刚出现时做的那样。

订阅更多文章