品玩

科技创新者的每日必读

打开APP
关闭

通义实验室语音团队推出 OmniAudio 技术,可直接从 360° 视频生成 FOA 空间音频

6月3日

品玩6月3日讯,据APPSO 报道,阿里通义大模型今日公布了「空间音频生成」模型——OmniAudio。据通义团队介绍,OmniAudio 能够直接从 360° 视频生成空间音频。

为了解决如何利用全景视频生成与之匹配的空间音频这一问题,通义实验室语音团队提出了 360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从 360° 视频生成 FOA(First-order Ambisonics)音频。

受限于现有的配对 360° 视频和空间音频数据极为稀缺,通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集,涵盖 288 种音频事件,总时长达到 288 小时。

目前,OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库,以及相关技术论文。

取消 发布

下载品玩App,比99.9%的人更先知道关于「通义」的新故事

下载品玩App

比99.9%的人更先知道关于「通义」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测