三个理由:为什么“百度深度语音识别技术超越Google和苹果”的说法不靠谱

著名人工智能专家吴恩达(Andrew Ng)加入百度,在业界引起轰动。但当吴以百度的名义首次发表研发进展的时候,人们在此为之震惊:百度的科学家们在论文中利用双向循环神经网络(bidirectional-Recurrent Neural Network)实现了一个直接由语音到字母的语音识别系统,命名为Deep Speech。

媒体报道声称:吴恩达指出,按照语音识别系统的准确率衡量,百度Deep Speech系统要强于Google和苹果等对手的系统。

而几乎在所有媒体的报道中,吴都没有透露任何有关于百度将这项语音识别技术进行产品化、商业化的信息。因此,有语音技术方面人士开始研究这份论文,希望找到Deep Speech强于Google和苹果等对手的证据。


研究方法标准性、可参考性存疑,媒体推波助澜

一位不愿意透露姓名的专业人士告诉PingWest,一些媒体所谓“超越苹果、Google”的评价,在学术上是高度不负责任的。

在本次事件的报道中包含了同样或近似描述的国内媒体并非一家,根据PingWest向百度一名PR人士求证的情况,国内媒体报道大多来自对于福布斯网络版一篇报道的编译。而福布斯的报道当中写道:

吴指出,在噪音环境下,测试结果显示Deep Speech表现比几个语音系统都好——Google Speech API、wit.ai、微软的Bing Speech和苹果的Apple Dictation——在单词错误率方面,Deep Speech的表现比以上系统好10%。

In noisy backgrounds, Ng said, tests showed that Deep Speech outperformed several speech systems–the Google Speech API, wit.ai, Microsoft’s Bing Speech, and Apple Dictation–by over 10% in terms of word error rates.

关于这个细节,上海交大教授,曾参与美国国防部语音识别重点项目,现在是国内一家语音技术公司思必驰首席科学家的俞凯对PingWest表示,Deep Speech和上述提到的Google、苹果和微软Bing的语音系统之间的表现情况,从学术上讲不具备可比性。

speech1

“比如Google已经商业化的语音系统,由于用户可能会进行语音搜索,它对于实时率肯定是要有优化的,这就要耗费非常多的资源,也即意味着它是有资源限制的。Deep Speech将无资源限制的、面向识别率调优的研究系统,与高度限制的、要求解码效率的商业系统的结果直接对比,结果就是学术不像学术、商业不像商业。”俞凯讲道。

换言之:在近身战斗中,说一口需要5分钟装填时间的巨炮,比一把需要三秒钟装填的步枪的杀伤力大,是可笑的。

除了不合规矩地和商业系统进行比较之外,论文中Deep Speech也和学术上具有可比性的前辈系统进行了比较。

根据论文中描述的情况,研究团队在语言模型中采用了4阶n-gram模型,而俞凯指出,通常的类似实验都是采用3阶的n-gram,因此导致的结果优势,很有可能和研究中所采用的“双向循环神经网络”(bi-RNN)无关。

语言识别需要两个模型来支持,分别是声学模型和语言模型。而在一次针对声学模型的研究中,百度并没有像其他对手一样固定语言模型在3阶,而是不知道出于什么原因采用了4阶。

换言之:“有5个学生参加考试,一共语数两科,规则是大家的语文分数都固定50分,比的是谁的数学高;而现在其中4个学生的语文都是50分,剩下那个学生的语文变成了80分,这样得来的结果用于证明谁的学习好,这是靠不住的。”俞凯说道。

所采用技术并非首创,也并不是最好

微软研究院主任研究员,电气和电子工程师协会(IEEE)会士(Fellow,IEEE会员级别中的第二高),工作在美国的邓力在福布斯报道评论中指出,百度提出的bi-RNN声学模型架构已经被微软提出并应用过。而论文中提到的百度采用“合成数据”(data augmentation)的方式来增强噪音下的语音识别效果,处理Lombard效应(背景噪音下对讲话人发音方式产生的变化效应)的方式,更是早在2000年就被邓力在内的研究小组提出过。

以及,Google早在今年四月就已经提出了一种新型的包含循环回归连接的深度神经网络:LSTM(Long-Short Term Memory)。据了解,LSTM和RNN的结构类似,但是效率比RNN好,可以被看做RNN的升级版。

在Deep Speech论文当中,LSTM的实力也体现了出来。从准确度上来看,Google API的分数和Deep Speech不相上下。

前Google资深科学家,现任出门问问CTO一职的雷欣对PingWest透露,LSTM的研究团队中有他在Google的前同事Hasim Sak,从他和Sak了解的信息来看,LSTM已经被投入到了Google的语音搜索服务当中。俞凯也基本确认了这个情况,他透露上个星期刚在日本的一次会议上见过LSTM论文的另一位署名作者Andrew Senior,了解到的情况是LSTM“有90%的可能”已经投入到产品中。

speech2

另一些研究者也指出,论文过分夸大了Deep Speech所取得的结果,显得不够专业和严谨。上表显示,具备深度学习能力的Deep Speech基于标准测试集合Switchboard Hub5’00取得的的错误率,甚至比数年前采用传统高斯混合模型GMM-HMM还要高。

换言之:研究团队用并非自己首创的技术,搭配颇具争议性的研究方法,却并未取得真正上得了台面的研究成果。

该论文未认作语音识别技术进展

这份深度语音识别技术方面的论文,由百度首席科学家兼百度硅谷人工智能实验室负责人吴恩达、实验室研究科学家Awni Hannun以及该实验室另外9人一同署名。但事实上,问题在于这个团队没有任何一人,包括吴在内,拥有语音识别方面的研究经验和历史。也即意味着,就算吴本人再知名,这个团队在语音技术界也并没有多大话语权。

而正巧,从论文的开头、结论,以及福布斯等国内外媒体的报道来看,这个毫无经验的团队却取得了语音技术方面的一项重要进展。对此,邓力给出了自己的评论:

我祝贺Andrew和他的团队,考虑到这样一群没有语音识别研究经验的人,在论文中取得了很好的结果。

I would like to offer congratulations to Andrew and team for the work described in the arXiv paper, which reports impressive results given that the long list of authors have not been experienced in speech recognition.

显然,任何人都不能无端质疑一个“新人”取得的研究成果。但至少在学术界里,过往的研究经验和成果是非常重要的一个参考标准。

俞凯告诉PingWest,研究语音识别多年的人并不一定就做得好,从来没研究过语音识别的人拥有了新的技术,也不一定比别人做得差。

但在他看来,Deep Speech的这篇论文的问题在于:论文研究的是深度语音识别技术,重点在于语音,却并没有发布在Speech(指语音相关学术界)里,而是发表在了arXiv当中。据了解,arXiv是一个专门刊载物理学、数学、计算机科学、定量生物学、定量金融计量学、统计学方面研究论文的网站。

“这篇论文的模板肯定不是Speech的论文,我们一看就知道了。一篇想要讲Speech的论文发在了机器学习的版块,论文得到的review和comment也只能是机器学习的,这无法被认作是对于论文在speech方面进展的证明,“俞凯对PingWest说。

关于这些问题,PingWest已经和百度取得了联系,并将在得到回复之后更新。


后记

学术界对Deep Speech论文当中偏颇和疏漏的失望,承载着的正是业界对于抗噪语音识别、低资源语音识别新进展的期待,以及将深度学习相关方法应用于语言处理、语义理解和对话系统的愿望。换言之,业界希望看到的是学术上规范、商业上有应用意义的研究成果。

比如,微软也进行了一系列深度语义相似性方面的研究,取得了广泛的有趣的结果,在学术界获得广泛重视,受到产业界的重视和期待;对话系统研究领域,由剑桥大学主办开展机器学习方法进行对话跟踪的研究竞赛,上海交大的结合规则与深度学习的联合跟踪方法和剑桥大学的循环神经网络跟踪算法都在竞赛中取得了优异结果,显著的优于传统的贝叶斯方法,突破了对话跟踪领域原有的技术前沿。

将深度学习技术应用于语音识别,能做些什么?俞凯认为,使用语音进行交互的系统将变得更聪明,能够在更多样的环境下更准确地理解用户通过语音传达的意图,从而优化用户的生活效率。

但这种语音识别领域全新的研究方式,更需要学术上的准确。对此观点,雷欣和俞凯都表示认同。

订阅更多文章