通义实验室语音团队推出 OmniAudio 技术，可直接从 360° 视频生成 FOA 空间音频-品玩

品玩6月3日讯，据APPSO 报道，阿里通义大模型今日公布了「空间音频生成」模型——OmniAudio。据通义团队介绍，OmniAudio 能够直接从 360° 视频生成空间音频。

为了解决如何利用全景视频生成与之匹配的空间音频这一问题，通义实验室语音团队提出了 360V2SA（360-degree Video to Spatial Audio）任务，旨在直接从 360° 视频生成 FOA（First-order Ambisonics）音频。

受限于现有的配对 360° 视频和空间音频数据极为稀缺，通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集，涵盖 288 种音频事件，总时长达到 288 小时。

目前，OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库，以及相关技术论文。