品玩

科技创新者的每日必读

打开APP
关闭
人工智能

优必选发力人工智能 亮相世界顶级计算机视觉盛会CVPR 2017

智能服务机器人行业的领导者优必选悉尼AI研究院也有两篇论文入选CVPR 2017,同时在CVPR2017的两个Workshop的比赛中获得佳绩,展现了优必选背后的技术创新之路。

钟文

发布于 2017年8月1日

近日,计算机视觉领域全球顶级学术会议CVPR在夏威夷落下了帷幕。CVPR是近年来计算机视觉领域全球最影响力、内容最全面的顶级学术会议和论文发布平台。随着深度学习在图像处理领域的应用热潮,不仅在学术领域,越来越多的科技企业和业界研究机构也在将目光投向CVPR。

据悉,今年全球共有约90家企业参与到本次大会中。谷歌、微软、Facebook、亚马逊、苹果等海外科技巨头均有论文被接收,同时,腾讯、阿里巴巴等国内大型互联网公司以及一些初创企业也参与了今年的CVPR ,中国AI力量的崛起成为行业热议的话题。

其中,智能服务机器人行业的领导者优必选悉尼AI研究院也有两篇论文入选CVPR 2017,同时在CVPR2017的两个Workshop的比赛中获得佳绩,展现了优必选背后的技术创新之路。优必选悉尼AI研究院由优必选AI首席科学家陶大程博士领导,致力于机器视觉、机器学习和模式识别领域的探索和研究,是优必选机器人战略布局的非常重要的一环。

基于低秩稀疏分解的深度模型压缩算法——On Compressing Deep Models by Low Rank and Sparse Decomposition

深度学习极大地促进了人工智能的发展,同时它也带来了新的挑战:深度神经网络往往需要消耗巨大的存储和计算资源。这极大地限制了深度学习在计算能力有限的平台(如移动手机)上的应用。深度模型压缩旨在挖掘并去除深度神经网络中参数和特征的冗余信息,从而达到减少网络参数,降低存储和计算量的目的。

以往的很多压缩算法基于低秩分解法和剪枝法,但是压缩效果还有待继续提升。这篇论文通过对参数矩阵的可视化观察和研究,发现参数矩阵往往同时具备低秩与稀疏的性质。如图1所示,低秩部分包含了大量的光滑分量,而稀疏部分含有诸如方向的重要信息。因此,优必选悉尼AI研究院提出了基于低秩稀疏分解的压缩算法。

图1. 参数矩阵的低秩稀疏分解,低秩与稀疏矩阵参数数目减少至原始矩阵的1/4
图1. 参数矩阵的低秩稀疏分解,低秩与稀疏矩阵参数数目减少至原始矩阵的1/4

为了解决最终精度急剧下降的问题(如图2),这篇论文进一步提出了一种非对称的特征重建方法,该方法使得压缩网络的最终输出与原始网络的输出接近,从而降低精度损失。

 图2.逐层的分解近似造成误差累积
图2.逐层的分解近似造成误差累积

另外,这篇论文提出了一种新的GreBdec算法,该算法极大地加速了分解运算。它还显著地降低了经过参数矩阵近似后的网络的精度损失(图3)。同时,在精度损失很小的情况下,将AlexNet和GoogLeNet分别压缩至原来的1/10和1/4.5(如表1)。

 图3. 重新训练前的压缩率与精度对比,新的方法优于剪枝法和奇异值分解
图3. 重新训练前的压缩率与精度对比,新的方法优于剪枝法和奇异值分解
 表1. 重新训练后的压缩率与精度对比
表1. 重新训练后的压缩率与精度对比

利用奇异值界定提升深度神经网络训练效果和识别精度——Improving training of deep neural networks via Singular Value Bounding

深度学习是近年来图像识别、语音分析、自然语言处理等人工智能领域取得突破性进展的关键技术。但是,目前主流深度学习模型还是基于随机梯度下降进行优化的。在优化过程中,对深度模型参数(权重矩阵)解的性质并没有明确的认识和目标。基于以上考虑,本工作通过对深度线性网络的理论分析及深度非线性网络的实验分析,大胆推断在深度模型的整个优化过程中保持权重矩阵(近似)正交(如图4所示),从而更有效地实现学习目标,提升网络的精度和泛化能力。同时,本工作进一步提出奇异值界定(Singular Value Bounding)的算法,在不增加或少量增加计算量的情况下近似而快速地实现了权重矩阵的正交约束。

 图4:深度网络权重矩阵流形优化示意图(左);本工作提出奇异值界定(Singular Value Bounding)算法,近似而快速地实现了权重矩阵的正交约束(右)
图4:深度网络权重矩阵流形优化示意图(左);本工作提出奇异值界定(Singular Value Bounding)算法,近似而快速地实现了权重矩阵的正交约束(右)

批量标准化(Batch Normalization)是实现现代超深网络有效训练的关键性技术,但其具有使得网络各层高维特征空间各个方向信息(前向和后向)传递不均衡的潜在风险。基于与上文类似的考虑,本工作进一步提出了有界批量标准化(Bounded Batch Normalization)算法,从而有效实现批量标准化技术和奇异值界定算法的无缝连接。

本工作提出的奇异值界定和有界批量标准化算法能够用于包括卷积网络、残差网络(ResNet)、宽残差网络(Wide ResNet)、稠密连接网络(DenseNet)等在内的各种主流网络架构。在CIFAR和ImageNet等图像识别标准评测数据库上,奇异值界定和有界批量标准化算法能够对这些网络进行显著且稳定的精度提升,并在CIFAR数据库上取得目前世界领先的识别准确率。

 图5:基于宽残差网络(Wide ResNet),本工作提出的奇异值界定(Singular Value Bounding)和有界批量标准化(Bounded Batch Normalization)算法取得在CIFAR图像识别标准评测数据库上领先的识别准确率
图5:基于宽残差网络(Wide ResNet),本工作提出的奇异值界定(Singular Value Bounding)和有界批量标准化(Bounded Batch Normalization)算法取得在CIFAR图像识别标准评测数据库上领先的识别准确率

除了论文的录用,值得一提的是,CVPR 2017有两个Workshop,方便对应了两个机器视觉的竞赛,分别是ILSVRC 2017(ImageNet Large Scale Visual Recognition Challenge 2017)和VQA(Visual Question Answering)。

ILSVRC 2017就是著名的ImageNet的竞赛,今年是最后一届。其中任务三视频物体检测(Object Detection from Video)竞赛的四个项目(包括给定训练数据条件下的视频物体识别、额外训练数据条件下的视频物体识别、给定训练数据条件下的视频物体识别/追踪,以及额外训练数据条件下的视频物体识别/追踪)中,优必选悉尼AI研究院与帝国理工学院组成的联合队伍IC-USYD都以领先第二名超过5%的成绩取得了第一名。在VQA竞赛中,优必选悉尼AI研究院与杭州电子科技大学、北卡罗来纳大学夏洛特分校组成联合队伍HDU-USYD-UNCC,在来自全球最顶级的几十支大学、研究机构和企业队伍中获得了第二名的成绩,仅次于阿德莱德大学与微软研究院组成的联合队伍。

ILSVRC 2017视频物体检测竞赛主要考察在视频里中获取物体的能力,对于机器人而言这是一项非常重要的工作,例如它在行走过程中就能知道这个场景里有多少物体,有什么物体。人眼看到的视觉不是一张张照片,而是连续的视觉的信息,未来机器人的视觉系统也将是对连续视觉的理解。试想一下,在家庭环境中,你可以对机器人说“请给我一杯水”,机器人理解了这句话之后,机器人在移动过程中,视觉系统就会寻找这杯水在哪里,接着去取水并递给你。

而VQA(视觉问答,Visual Question Answering)以一张图片或者一段视频和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。这也是未来机器人通过视觉系统认知和理解世界,并与人互动的关键技术。VQA是一种涉及计算机视觉和自然语言处理的学习任务,也是近年来非常热门的一个研究领域,也是AI落地的一项重要技术领域。

VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术(图1):细粒度识别(这位女士是白种人吗?)、 物体识别(图中有几个香蕉?)、行为识别(这位女士在哭吗?)和对问题所包含文本的理解(NLP)。综上所述,VQA是一项涉及了计算机视觉(CV)和自然语言处理(NLP)两大领域的学习任务。它的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。

与VQA类似——看图说话(Image Caption)任务也同时涉及到CV和NLP两个领域,但是与VQA不同的是看图说话只需要产生对图片的一般性描述,而视觉问答根据问题的不同仅聚焦于图片中的某一部分,而且某些问题还需要一定的常识推理才能做出回答。例如图2中的第一个问题,你能在这停车吗?计算机需要读懂这张图片还有哪些地方可以停车,哪些地方不可以。而对于看图说话,则只需要产生一条类似“花园的左边有一辆车,后边有一个消防栓”的描述即可。因此,VQA相比看图说话在图像语义的理解方面有更高的要求,因此也具有更大的技术挑战。

作为全球领先的人工智能和人形机器人研发、制造和销售为一体的高科技企业,从2012年成立至今,优必选已经推出了人形机器人Alpha 1、平台级智能机器人 Alpha 2以及面向STEM教育市场的Jimu机器人等多款产品。在今年的CES上,内嵌Amazon语音助手Alexa的人形机器人Lynx,以及商业服务机器人Cruzr也相继亮相,而这些产品的背后拥有一支全球最顶尖的研发团队。

在去年12月召开的人工智能战略发布会上,优必选宣布人工智能和信息科学领域国际知名学者悉尼大学陶大程教授、清华大学赵明国教授等学者加盟。2017年,优必选与清华大学成立智能服务机器人联合实验室,与悉尼大学成立人工智能研究院,在人形机器人驱动伺服、步态运动控制算法、机器视觉、机器学习、情感识别、SLAM(即时定位与地图构建)等领域深度布局。而通过在本届 CVPR上的表现,优必选再次展现了其强大的研发能力,并将前沿研究成果实现商业转化,同时通过商业化后的数据采集,不断反哺前沿学术探索的发展策略。

下载品玩App,比99.9%的人更先知道关于「人工智能」的新故事

下载品玩App

比99.9%的人更先知道关于「人工智能」的新故事

iOS版本 Android版本
立即下载
钟文

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测