“纠正,纠正!不是96!去死吧!”  有家公司想解决“纠正哥”的难题

很可能你还记得这个视频,一位车主手机停机,想用车上的智能语音系统打电话,却因为浓郁的山东口音和语音系统爆发了“骂战”。

这个视频发布于今年春节期间,着实给大家带来了不少欢乐。不过,对专业从业者来说,这个搞笑视频背后也暴露了智能语音技术的短板。

昨天,国内专注于智能语音技术的思必驰召开了新技术发布会,思必驰首席科学家俞凯重新提起了这个视频。“首先,这不是方言识别率的问题,11位数字识别出了10位,识别率在90%以上”,但最后还是出现了让人啼笑皆非的结果,俞凯介绍,问题出在识别不稳定,尤其是在特定的场景下,打电话的时候出现这样的错误,90%的识别率毫无意义。

视频中的山东大汉被称为“纠正哥”,也暴露了智能语音系统的另一个问题:不能理解用户的部分输入,“比如135啊,什么叫135啊,机器就理解不了”,俞凯解释道。另外,视频中的纠正哥还有个习惯,喜欢打断智能语音系统,这也让机器无所适从。

所以,要让智能语音系统真正在硬件中发挥作用,除了语音识别和合成,就一定涉及到智能语音系统的认知能力,要让机器能够理解人的自然语言,明白主人的真正意图。

思必驰在现场放了另一段视频,他们找了另一位山东大汉,测试了自家智能语音技术的“纠正”能力:

思必驰把智能硬件时代的语音交互分为三个层次:感知智能,认知智能以及抽象思维。

aispeech

感知智能阶段,智能语音技术要解决噪声、远场、回声等问题,而现在,许多用户追求个性化体验,所以语音合成也开始走个性化的路子。俞凯介绍,传统的语音合成的方法是:找几位普通话非常标准的人,录下上百小时的语音,然后再切成小片,在语音系统中进行合成。现在,使用新的技术,可以对很短的语音进行分析、模仿,形成各种个性化的声音。甚至,对一段10分钟的语音进行分析后,就能合成比较像的声音。

思必驰在现场演示了合成的葛优与林志玲的对话,确实有几分神似。不过,你可以想象下Siri的声音,那种机器特有的生硬、不连贯、重音不准的情况还是存在,在这样的情况下,我其实宁愿要一个并没有那么个性的声音。

现在,智能硬件创业的火爆使得大家使用智能产品的成本大大降低,同时使用时长也大大增加,思必驰觉得,这就为研究大数据带来了可能。所以成立于2007年,最早专注于智能教育学习机上的语音系统的思必驰在2014年将教育事业部剥离,成立新的公司,思必驰本身开始专注于智能硬件和移动互联网。

hezuo

现在,思必驰已经上线了语音平台,提供智能家居、智能车载、智能可穿戴设备解决方案。目前,它已经有欧瑞博、小智音响、索尼SWR30手环、inWatch智能手表等合作伙伴。思必驰表示自己不会做智能硬件,将专注语音交互技术的研发。

 

花絮:我的同事Dina是小智音响的用户,几天前,她在朋友圈讲述了自己并不愉快的使用体验:

MD,刚关灯睡觉小智音箱就自己说话了,吓死宝宝我了!果断拔线装盒扔出去,弃用!

Dina告诉我,小智音响开口说的是,“连接路由器成功,您想听什么歌曲?”而且声音特别大,在黑夜里真的具备吓人一跳的力量。

昨天,我把Dina的遭遇告诉了思必驰的俞凯,他表示还不能确定思必驰为小智音箱提供的是整套的解决方案还是仅有语音识别及合成,不过,“早期的智能硬件产品,总会有些小的问题。”

订阅更多文章