品玩

科技创新者的每日必读

打开APP
关闭
科技创新者大会

语音交互——新的家庭联网入口

人脸识别、肢体识别和语音识别技术,将会是下一代人和机器之间交互的一个最重要的手段。

钟文

发布于 2019年10月25日

演讲者:杜海涛(释空) 阿里巴巴AI Labs 产品和运营总经理

    各位下午好!我是来自阿里巴巴人工智能实验室的杜海涛。今年我们在云栖大会上刚刚发布了天猫精灵4.02,可能有些人参加了,有些人没有参加。我今天想跟大家分享一下这几年阿里巴巴在语音这件事情上的一些想法、看法以及做的东西。

    首先我们可以看一下,阿里巴巴大概在5年前开始在内部整合各种各样的资源做语音这件事情,刚开始做纯系统,后面认为软硬一体应该是结合的方向。这一切是基于看到原来的交互手段,我们从键盘的到触屏再到后面AI技术的发展,再接下来我们认为视觉技术,像现在人脸识别、肢体识别和语音识别技术,将会是下一代人和机器之间交互的一个最重要的手段。基于这样的命题,我们就在想这样的东西适合什么样的场景。因为大家都知道想要触达用户,场景是非常重要的。后来在这个过程中我们找到了两个非常重要的场景,第一个是居家,家庭控制中心的整个信息处理。第二个我们认为是在车里面,今天因为我们主要是讲家庭服务,所以我们先把车这件事情搁在一边先不讲。

    大家可以看一下整个天猫精灵的历史,2017年7月5号我们推出了第一代产品,我们内部称之为无屏版的语音助手,是一个靠6个麦克风和两个喇叭的联网装置进行互动的。后面到今年4月份的时候,我们推出了带屏幕的天猫精灵CC,在原来语音技术的基础上演进出了视觉的能力。到现在我们继续往下一代演进,大家知道Alexa公布过3-5年的计划,语音到视觉再到行动力,也是一步一步实践的,大家也知道接下来再过一两年之后,这个东西演进的方向会是什么样。

    看一下我们过去做了什么。目前为止我们在中国地区是服务人数总数最多的软硬一体语音助手,大约服务了全国2000万家庭,每个家庭中我们平均覆盖的人数是2.4个人左右。主要的服务在于内容服务、相关的生活信息服务以及阿里巴巴的整个相关的电商、生活品质服务等产业的引入。还有一块比较独特的就是家庭的IoT家居控制。所以现在为止,我们基本上已经全部覆盖了在家庭生活中所需要的娱乐及信息服务的方方面面。

    同时,我们这几年也沉淀了一个比较大的系统,我们内部叫AliGenie的系统,我们第一代做语音交互,第二代做多模态交互,大家知道单模态非常好做,都是一进一出的,比如语音、视觉、人脸识别都是一进一出。但是如果当你有语音、有视觉,有屏幕,甚至可能有其他传感器,这些模态之间相互协同以及发挥新的场景,就不会太一样了。我们都知道手机的演进,在每一个传感器上都会演进出来新的场景和形态。智能交互设备也是这样,每引入一种新的能力都有新的场景出现。第三块是行动力,也就是去年开始做底盘相关的移动性的东西开始出现了。到今年我们提出的主题是全面开放,因为我们认为一个好的系统和一个生态,是能够海纳百川的,也就是说所有人能在上面进行原来服务的迁移,这是比较重要的。不管原来是中小开发者还是一个比较大的服务集团,又或者是原来纯粹的做一个企业服务或者是一个其他小行业服务的,都能够尽快地把这个服务迁移到下一代人机交互设备上,这个我们认为非常重要。所以今年我们走了全面开放的这条路。

    全面开放这条路,我们认为开放了什么呢?还是把过去几年沉淀的这些能力给开放出来,比如说原来是做墨迹天气的,可能原来所有场景是在手机中利用APP的形式做,现在整个的天气能力查询,可不可以通过语音的方式完成,可不可以跟温湿度传感器结合完成。这些能力现在都可以开放。大家知道中文在语音上面说天气的说法有多少种呢?我们大概统计了一下,平常问一个天气,中国的包括地方说话,包括普通话,包括北上广说法大概有670多种说法,各种各样的。我们现在开放的能力,可以让这些企业不用再去训练支持这600多种问法,而是直接只关心原来自己提供什么服务跟语音系统进行衔接。天猫精灵的AliGenie系统会把前面的语音、语义识别判断好,再提供服务。这是建立了语音语意的系统建设,现在大概内部统计有70-80多个领域,每一个都是比较纵深的方向进行建设。所以我们把这个能力开放出来以后,如果开发者想要利用这个能力快速升级,是非常完整的。今年同时也推出了屏幕版,这样的消费方式比以前更自然一点,你用语音问或者看屏幕或者触屏,再进行语音播报,都是可以支持的。

    接着往下看,我们想讲一些比较具体的这几年我们做的。第一个我们纳入比较大的是内容方向的,内容方向大家都知道,从原来的PC时代到笔记本时代到手机时代,其实每一个设备的更迭变化,最先冲上去的都是内容,都会跟随去发生改变,这个不用举例了。因为从长视频、短视频、图文、图片混排,所有的都是跟内容相辅相成。所以我们第一站是内容方向,最重要的还是音乐、音频、视频这三大块,我们对这三大块也做了完整的升级。目前大家知道优酷、芒果TV、B站,包括腾讯视频,我们一个非常友好的竞争对手,也跟相关技术做融合,他们也可以进行互动,检索、查看等等方式都是支持的。类似这样的一直在推进。所以我们第一站的内容上面,目前也是在语音交互产品或者说AI式的人机交互产品里面分发最多的一个类。

    我们现在大概跟市面上合作的,音频领域已经到了90%左右的覆盖,音乐方面现在到了70%左右,同时也生成了一些新的栏目和新的收听方式。以前可能你打开APP是根据功能区分,现在你使用这些场景是根据你的时间或者是场景来区分的。

    第二大块是因为今天大会给我的时间不是特别多,所以我会简单把几个生态讲一下,最后做一下总结。第二块叫服务生态,服务生态这块我们认为也是比较重要的一块。大家都知道阿里一直是做相关服务的,服务在家庭中整个应用也占到了现在所有整个领域里面的第二大块。家里头有老人、小孩,有成年人,所以说不管是子女的教育,父母的健康,快递的查询或者是家里IoT的控制,跟小区之间安防的联动,所有的服务是在家庭生活当中手机之外产生的最多的信息。这些信息是我们现在在所有查询服务里面占第二大的,也是我们现在重点服务的对象。现在有些比如UU跑腿、蜂鸟快递、菜鸟裹裹以及社区的紧急呼叫,以及110、119这些紧急呼叫都可以快速接入这个系统里面来,这是我们想做的。之前我们的设备只有语音,现在也可以在屏幕上进行相关的互动。

    我们这上面举了四个例子,现在因为阿里比较擅长的还是在购物上,所以在今年的时候,也推出了相关的语音购,这也欢迎大家体验一下,今年刚刚推出的。语音购的整个流程是能够通过这样的交互设备快速实现对家里的柴米油盐这几个大的生活日用品的快速下单以及购买,这是我们今年新做的重点。

    今年我们给了一个总的语音购体量,估计今年有1000万人左右会使用语音购物这样的方式去进行新的尝试,也跟品牌之间做了新的联动,比如说如何简化原来的购物流程,如何减少家庭的重复购买等等这样新的形式。

    所以我想总结一下,到底目前为止我们倡导的这套系统能够做什么,它是什么作用。简单来说,比如今天来听演讲的可能很多都是业界的开发者、从业者以及他之前就在做互联网相关的服务。我们这个系统主要的一个作用就是把原来的这些服务能够最快速地、无缝升级到新的设备上。并且想要告诉大家的是这类设备目前在市场上的整个总量,在中国已经到了5000万台到8000万台的水平,可能是在下一个家庭环境中很重要的人机交互设备。就像我们以前历史上出现的OTT的合资,包括现在儿童手表也好,都是在手机之外进行相关的演进的设备,这类设备有可能下一步是新的服务场景,尤其是家庭里面。我们提供了这些能力,我们提供了这些技术,还有我们提供了现在2000万左右的客群的入口能力,都是能够去往下一代演进的重要的推演方向,利用这套系统也可以快速服务这些新用户,是这样一套整体的东西。明年我们也会继续更新这套系统,并且在整个市占率上面应该会比今年有一倍以上的增长,我们预测可能是在中国在未来的3年左右,今年是2019年,再过3年左右,这类设备应该会成为一线城市或者准一线城市家庭的标配产品,无论它是有屏的还是无屏的,都会在家庭当中出现,出现新的小的服务生态,是这样一个基本的判断。

谢谢大家。

下载品玩App,比99.9%的人更先知道关于「科技创新者大会」的新故事

下载品玩App

比99.9%的人更先知道关于「科技创新者大会」的新故事

iOS版本 Android版本
立即下载
钟文

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测