品玩

科技创新者的每日必读

打开APP
关闭
科技创新者大会

视觉SLAM在AR领域的创新突破

天空上有无人机在飞,地上有无人车在开,人们戴着AR/VR的头盔在看,这些应用都需要对自身的方位进行恢复,并同时重建环境上围的结构,这就需要用到SLAM技术。

钟文

发布于 2019年10月25日

演讲人:章国锋 浙江大学教授、浙大-商汤三维视觉联合实验室副主任 

章国锋:非常感谢品玩的邀请和主持人的介绍,尊敬的各位来宾,大家早上好!今天我主要是讲一下我们近几年来在视觉SLAM技术上取得的一些创新成果,以及在AI上的应用。 

在这样一个非常复杂的场景,天空上有无人机在飞,地上有无人车在开,人们戴着AR/VR的头盔在看,这些应用都需要对自身的方位进行恢复,并同时重建环境上围的结构,这就需要用到SLAM技术。

SLAM的全称翻译成中文叫同时定位与地图构建,是机器人和计算机视觉领域的基本问题,可以在未知环境中定位自身方位并同时构建环境三维地图,有着非常广泛的应用,比如说增强现实、虚拟现实、机器人、自动驾驶等等。 

SLAM技术可以采用各种各样的传感器,比如说像单目摄像头,RGBD摄像头,或者说IMU,就是惯性车辆单元。视觉SLAM的一个里程碑工作是2007年牛津大学提出的PTAM,第一次将单目SLAM在自然场景下做到能够使用。一些基于RGBD或者说视觉+IMU的工作也相继被提出来,尤其是近几年一些商业化产品也相继问世,比如微软的OKVIS,苹果的ARcore,商汤科技和华为公司也推出了相应的自研SLAM系统。 

我今天要讲的是视觉SLAM技术,顾名思义主要采用的是视觉传感器,主要采用单目摄像头、双目或者多目摄像头,广义上的是以视觉摄像头为主,结合其他传感器,比如手机上比较廉价的IMU、GPS,或者比较便宜的深度摄像头等等。视觉SLAM的优势在于它的硬件成本比较低廉,至少是小范围精细定位满足比较高,可以满足AR/VR的要求,而且预先不需要对场景进行布置,所以理论上它的活动范围可以很广。 

视觉SLAM虽然经过几十年的发展在理论上已经比较成熟,但是在真正的实际产品中,开发中往往会面临以下两方面的挑战:

一是关于精度和稳定性,因为实际的场景难免会存在一些动态变化或者很多区域没有足够的纹理或者是有相似的重复纹理,这些都会导致匹配比较困难,从而导致优化计算不稳定。

二是实时性,比如在一些非常大尺度的场景下,甚至是城市级的场景下,SLAM的计算复杂度会非常高,而我们要求在一个低功耗的移动设备上能够做到实时计算,这个难度也是非常大的。 

为了解决这两方面的挑战,我们近几年也做了不少的研究工作。总结起来主要是这么几方面的研究思路: 

一、提升稳定性。我们知道SLAM计算就是一个目标函数的优化问题,因此优化方程的正确性和充分性非常重要的,这里面我们就提出来尽可能去将错误的匹配剔除掉,然后引入额外的约束,比如说我们可以相邻之间增进运动的约束,场景的结构性验证,比如平面结构,另可以采用多传感器信息融合的方式增加约束提高求解的稳定性。 

二、提高计算效率。我们一方面是提高分治求解,能够提高效率。还有一个是通过增量式计算,通过充分利用上一次优化计算的结果,减少冗余计算,大幅提高计算效率。基于这些研究成果,我们和商汤科技研发合作了SenseSLAM,目前可以支持单目、多目、双目等多种组合,支持6DoF实时位姿恢复,精度与ARCore相当。

三、为了实现大规模场景的高精度定位与重建,我们提出了云-边-端结合的方式。我们可以将预先建设好的高精度地图存储在云端,把拍摄的数据发到云端,通过云和边强大的计算能力,还有高精度地图的数据,将云端优化的结果和三维地图信息反馈到移动端,移动端接收到信息可以耦合到优化里面去,从而实现低功耗设备在大尺度甚至城市级的这样场景下的高精定位,能够很好地支撑起这样一个室内外定位导航,比如多人共享AR这样一些应用。 

我们来看一个定位与AR导航的例子。(视频) 

我们知道传统的定位导航方案是有GPS,而且只适合于室外,精度通常只有10米级别。室内一般较常采用的方案有WiFi、蓝牙,通常定位精度也基本上只能到米级,而且预先去布置设备,就工程量比较大、成本比较高。相比而言,基于视觉的方案定位精度可以达到分米或者厘米级别,跟场景距离有关系。而且不需要额外布置设备,成本相对比较低。当然视觉SLAM的挑战还是比较大的,因为室内缺乏视觉特征,环境改变要及时更新,而且计算量相对也比较大。 

基于视觉定位AR导航,主要是分为三大模块,一个是稀疏地图的构建,我们可以从拍摄图象序列或者视频数据中抽取视觉特征,并恢复三维结构。在这个基础上我们可以进一步重建出中间的稠密三维集合模型,这个模型可以用来处理碰撞和遮挡等等。基于重建的高精度三维地图,用户可以基于手机拍摄一个照片,或者若干张照片序列,跟地图进行比对查询,得到若干二维和三维点的对应,从而求解出位置,再结合SLAM的技术可以实现连续跟踪和导航。 

关于稀疏地图构建,主要面临的挑战:一是场景可能存在大量的弱文理区域,二是存在视觉歧义,特别是对大规模场景也存在问题。我们拍摄场景诗篇,将SLAM与SfM结合,来提升求解效率和稳定性。而且可以通过分治法提高大规模场景的求解效率。这是重建的稀疏三维地图。 

稠密的三维重建也面临类似的问题,我们可以通过精准的稠密深度图估计和融合结合多层次特征的精准匹配,可拓展的大规模稠密网格重建,可以实现大规模网格外存处理技术。我们把它三维网格化,也把图象贴进去。因为人是拿着全景拍的,所以会把一些人带进来。当然我们这个重建的模型主要还是用来处理遮挡,还有像碰撞检测等等之类的。 

基于视觉定位与追踪,我们面临如何在各种环境下保持高定位的成功率,并且要克服视点变化、光照、外观变化带来的影响。如何实现长距离、长时间的稳定跟踪,这些都是非常大的挑战。我们发现基于学习的视觉特征可以提高定位的成功率,通过将基于高精地图的重定位和SLAM做紧耦合,可以实现长距离的稳定跟踪。左上角是松耦合的模式,我直接调用一个重定位然后进行跟踪。紧耦合是我一开始从定位初始化完成之后,会不断向云端请求,把云端相应的地图信息数据跟我的移动端的点进行匹配之后,会把这个东西作为约束放到目标函数优化里面去,从而能够减少误差,松耦合的误差累积很明显,紧耦合的精度明显更高一些。 

除了误差累积的问题之外,松耦合也可以频繁调用重定位,但是因为它是松耦合模式,不是放在目标函数里面优化,你会发现如果你频繁调用,就会频繁抖动。但是紧耦合,因为它是通过把三维约束放在目标函数里面优化,所以它在抑制误差累积的同时,会保证恢复的位置依旧很平滑。 

这是跟定位导航有点类似的例子,这是北京商汤公司的茶水间,一个员工拿着手机可以看到真实场景的虚拟信息。(视频)而且可以在真实场景里面玩游戏,这是一个太空舱的游戏。 

这里跟前面导航的例子是类似的,也是需要对场景的三维地图进行构建,这是重建的三维点云地图。如果你工作久了有点饿了想去吃点东西,但是又怕选的东西热量太高,因为你在减肥,可以根据AR提示的信息帮你做正确的选择,选择适合你吃的食品。 

你还可以在休闲的时候跟其他人一起玩实景下的多人共享AR游戏,比如说一个人先把这个建好之后,另外一个人可以加入一起来玩,玩射击的小游戏。 

刚才多多让共享AR游戏,主要用到多人共享技术。首先是一台手机先扫一下建好地图,上传到云端共享,另外一台手机可以通过云端访问到这个数据,然后他也通过地图共享借助重定位实现坐标对齐。我们的可以做到重定位时间小于1秒,所以可以保证用户的体验。还有一点是可以做到360度,从各个视角拍摄都可以实现一个重定位。这对多人玩是非常重要的,比如我们两个人玩,不是说要挨得很紧,你完全可以坐在我对面来玩。而且我们还可以兼容ARKit的ARCore。 

除了以上的应用,我们用SLAM技术还可以做更多的东西。再举另外一个例子,比如说我们可以用来进行虚拟物体的摆放,比如你搬到新家,家具还没有买,你可以打开APP,将各种家具模型摆放到客厅,可以随心所欲地进行各种家具的组合并拍照保存下来,慢慢欣赏做后期的选择。 

这里很重要的一点是尺度的精性,因为家具摆在那里,要跟真的一样,这时候要求尺度非常准确。我们基于手机的单目视觉的技术,目前可以做到3%的误差,基本上可以满足一般家具摆放的精度要求。 

前面已经介绍了不少我们在视觉SLAM以及定位导航方面的创新突破,也展示了一些相应的demo。接下来想谈一下AR未来发展趋势,我觉得AR未来会跟AI技术深度融合,借助AI带来的智能化,可以进一步提升AR应用的想象空间,融入到人们生活和工作的方方面面。 

AR场景的规模会越来越大,未来甚至会出现整个地球级的虚实融合,这就需要我们一方面对大规模的物理世界进行高效的三维数字化,然后提取出不同粒度的语义信息。如果物理世界发生了改变,我们需要对它重新进行数字化和及时的更新。除了物理世界的三维数字化的重建之外,我们还需要对人的行为进行三维数字化,包括运动的行为、消费的行为,社交行为等等。 

5G很快就要到来,甚至要普及了。基于空间计算的AR应用,我相信也很快会流行起来。因为5G有着高带宽和低时延,得益于快速高效的数字化重建和云端高精度地图和移动终端的SLAM紧耦合,我们未来可以做到长时间甚至城市级场景的精准定位。未来相信越来越多的算法或模块,会放到云端去,更高品质的AR效果可以得到实现。 

而且APP将会越来越轻量化,你打开一个新的应用,不需要预装一下,就感觉你在浏览器上输入一个网址,或者是用遥控给电视机切换一个频道一样非常快捷。

下载品玩App,比99.9%的人更先知道关于「科技创新者大会」的新故事

下载品玩App

比99.9%的人更先知道关于「科技创新者大会」的新故事

iOS版本 Android版本
立即下载
钟文

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测