品玩

科技创新者的每日必读

打开APP
关闭

NVIDIA与马里兰大学联合发布Audio Flamingo Next,开源长音频理解模型

4月16日

品玩4月16日讯,据 Marktechpost 报道,NVIDIA与马里兰大学研究团队联合发布了Audio Flamingo Next (AF-Next),这是Audio Flamingo系列中能力最强的开源大型音频语言模型(LALM),旨在解决长音频理解与复杂推理难题。

AF-Next基于Qwen-2.5-7B构建,支持长达30分钟的音频输入与128k上下文窗口。团队创新性提出了“时序音频思维链”技术,通过将推理步骤显式锚定至音频时间戳,显著提升了模型在长音频任务中的证据聚合能力与准确性。此次开源包含AF-Next-Instruct、AF-Next-Think及AF-Next-Captioner三个变体,分别针对通用问答、多步推理及音频描述任务进行了优化。

实验数据显示,该模型在20项基准测试中大幅超越同级别开源模型,并在MMAU-Pro等挑战性基准上优于Gemini 2.5 Pro,展现了卓越的泛化能力与实用价值。

取消 发布

下载品玩App,比99.9%的人更先知道关于「英伟达」的新故事

下载品玩App

比99.9%的人更先知道关于「英伟达」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测