现有的机器翻译结果烂到没法看!看“语智云帆”打算如何用翻译私有云等技术解决问题

图片源自网络

图片源自网络

在“全球化是大势所趋”的背景下,许多企业要应对的不仅是来自全球的行业内竞争,同时也需要为全球的用户提供服务。这时,语言成为了一个不可忽视的问题。拿互联网行业举例,你不仅需要把产品内的语言进行本地化处理,还需要应对来自世界各地、大量的用户评论、反馈邮件等工作,这其中的语言翻译工作仅仅依靠人力是很难完成的。

目前,有一支名为“语智云帆”的创业团队正着力于解决这一问题,这个于2011年3月组建的团队有着极其豪华的整容,技术团队中有曾经的CNKI高级研发工程师、曾经的Nokia研究中心机器翻译及文本挖掘组负责人、还有数位曾自分别在百度、奇虎360等公司任职的工程师。他们的目标是为这些企业用户提供语言智能技术服务。

我们知道,通用领域最强大的Google Translate服务也差强人意,因为这些机器翻译的原理是利用经过索引的海量资料库,对多语言数据进行对比学习,找到不同语言之间的语法和文字对应规律,来实现较为精确的翻译功能。但对于企业而言,需要的是聚集高频度专业术语的语料库,互联网上虽然拥有海量语言模型,但专业语料的比重很低,这种状况下的翻译质量当然不靠谱。

但如果每个企业都有着自己的语料库,在此基础之上再进行机器翻译工作,效果将会远高于通用领域的翻译水准。所以语智云帆要做的,就是帮助不同企业搭建一个属于它们自己的语料库和翻译引擎,即一个个的翻译私有云平台,既然是云,就意味着这些公司也可以基于它做一些衍生功能甚至将API开放出去。

团队创始人魏永鹏告诉我,由于机器翻译还不能完全取代人的作用,所以“译后编辑”模式(即语言工作者在机器翻译的基础上进行编辑修改的工作形式)可能将在未来的几年内逐渐成为语言服务的主流工作模式,它适用于规模较大、对翻译质量也有一定要求的翻译任务,例如企业的知识库、多语言网站、技术文档、产品说明、用户手册等

所以他们将在这个基础上更进一步,通过辅助翻译输入法这样的技术,强化人机交互。上文所讲的语料库仍然是静态的结果文本,并没有语言工作者在翻译过程中的动态数据,如果能通过人机交互得到大量译者的行为数据,将使机器翻译的过程和结果产生革命性的变化。

不单是语料,更重要的是数据的实时性和全面关联性——这才是机器翻译领域真正的“大数据”的含义。所以他们接下来要面对的挑战是如何把“人机交互,协同增益”的理念表现在产品上。

订阅更多文章