Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆-品玩

Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆

2025年4月27日

品玩4月27日讯，据 AIbase 报道，Moonshot AI正式宣布推出Kimi-Audio，一款全新的开源音频基础模型，旨在推动音频理解、生成和交互领域的技术进步。

Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构，并结合Whisper技术，展现了强大的多功能性。该模型支持多种音频相关任务，包括但不限于：语音识别（ASR）、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)以及端到端语音对话。

Kimi-Audio采用创新的混合音频输入机制，以12.5Hz的采样率处理音频数据，显著提升了模型对复杂音频信号的理解能力。