2D图实时渲染成3D场景，更快了丨麻省理工、哈佛联合研究-品玩

*转载文章不代表本站观点。

本文来自微信公众号“数据实战派”（gh_ff93f845912e）作者：刘媛媛

图1 为了从 2D 图像表示 3D 场景，光场网络将 3D 场景的 360 度光场编码到神经网络中，该网络将每条相机光线直接映射到该光线观察到的颜色。

人类非常擅长查看单个二维图像并理解它捕获的完整三维场景，但人工智能却无法做到。

然而，一台需要与世界上的物体进行交互的机器——比如一个设计用来收割庄稼或协助手术的机器人——必须能够从对它训练的 2D 图像的观察中推断出 3D 场景的属性。虽然科学家们已经成功地使用神经网络从图像中推断出 3D 场景的表示，但这些机器学习方法的速度还不够快，无法使其适用于许多现实世界的应用。

麻省理工学院和其他地方的研究人员展示的一项新技术，其能够以比某些现有模型快 15,000 倍的速度，从图像中表示 3D 场景。

该方法将场景表示为 360 度光场，用函数描述了 3D 空间中的所有光线，流经每个点和每个方向。光场被编码到一个神经网络中，从而可以更快地从图像中渲染底层 3D 场景。

这项研究开发的光场网络（LFN），只需对图像进行一次观察即可重建光场，并且能够以实时帧速率渲染 3D 场景。

图2 给定 3D 场景的图像和光线，光场网络可以计算有关底层 3D 场景几何的丰富信息。

麻省理工 CSAIL 的博士后、该论文的共同主要作者 Vincent Sitzmann 说道，“归根结底，这些神经场景表示的巨大前景是将它们用于视觉任务。比如现在给你一张图片，然后你从这张图片中创建一个场景表示，之后你想推理的一切都会在这个 3D 场景的空间中做”。

映射光线

在计算机视觉和计算机图形学中，从图像渲染 3D 场景涉及映射数千或数百万的相机光线。将相机光线想象为从相机镜头射出并照射图像中的每个像素的激光束。这些计算机模型必须确定每条相机光线撞击的像素的颜色。

当前许多方法利用相机每条光线在空间中移动时，沿光线长度方向采集数百个样本来实现这一点，这是一个计算成本较高的过程，可能会导致渲染缓慢。

相反，LFN 学习表示 3D 场景的光场，然后将光场中的每条相机光线直接映射到该光线所观察到的颜色。LFN 利用光场的独特属性，只需一次评估即可渲染光线，因此 LFN 不需要沿着光线的长度停下来运行计算。

“当你使用其他方法进行渲染时，必须跟随光线直到找到表面。你需要做成千上万个样本，因为这就是找到一个曲面的意义。因为可能有像透明或反射这样复杂的东西，你甚至无法完成。一旦你重建了光场（这是一个复杂的问题），渲染一束光只需要从表示中提取一个样本，因为表示直接将一束光映射到它的颜色”，Sitzmann 说。

LFN 使用“Plücker 坐标”对每条相机光线进行分类，该坐标表示 3D 空间中的一条线，该线基于其方向和距离原点的距离。系统计算每条相机光线在它击中像素以渲染图像的点处的 Plücker 坐标。

通过使用 Plücker 坐标映射每条光线，LFN 还能够计算由于视差效应而产生的场景几何形状。视差是从两条不同的视线观看时物体的表观位置差异。例如，如果您移动头部，距离较远的物体似乎比较近的物体移动得少。由于视差，LFN 可以判断场景中物体的深度，并使用此信息对场景的几何形状及其外观进行编码。

但是要重建光场，神经网络必须首先了解光场的结构，因此研究人员用许多汽车和椅子的简单场景图像来训练他们的模型。

“光场有一个内在的几何形状，这正是我们的模型试图学习的。你可能会担心汽车和椅子的光场如此不同，以至于你无法了解它们之间的某些共性。但事实证明，如果你添加更多种类的物体，只要存在某种同质性，你就会越来越了解一般物体的光场的外观，因此你可以对类进行概括，”Rezchikov 说。

一旦模型学习了光场的结构，它就可以仅将一张图像作为输入来渲染 3D 场景。

快速渲染

研究人员通过重建几个简单场景的 360 度光场来测试他们的模型。

他们发现， LFN 能够以每秒 500 多帧的速度渲染场景，比其他方法快大约三个数量级。此外，LFN 渲染的 3D 对象通常比其他模型生成的对象更清晰。

LFN 的内存密集程度也较低，仅需要大约 1.6 兆字节的存储空间，而流行的基线方法则需要 146 兆字节的存储空间。

“以前有人提出过光场，但当时它们很难处理。现在，通过在本文中使用的这些技术，实现了既可以表示这些光场，也可以使用这些光场。

这是数学模型和我们开发的神经网络模型的有趣融合，用于表示场景的应用程序中，因此机器可以对它们进行推理，”Sitzmann 说。

未来，研究人员希望使他们的模型更加稳健，以便可以有效地用于复杂的现实世界场景。Sitzmann说，推动 LFN 向前发展的一种方法是只专注于重建光场的某些补丁，这可以使模型在现实环境中运行得更快并表现得更好。

“最近神经渲染技术仅从一组稀疏的输入视图，便可启用照片般逼真的渲染和图像编辑。不幸的是，现有的所有技术在计算上都非常昂贵，这阻碍了需要实时处理的应用程序，如：视频会议。

该项目朝着新一代计算效率高且数学上优雅的神经渲染算法迈出了一大步”，斯坦福大学电气工程副教授 Gordon Wetzstein说，“我预计它将在计算机图形学、计算机视觉等领域得到广泛应用。”