品玩4月3日讯,据 the-decoder 报道,微软近期正式推出语音转文本模型MAI-Transcribe-1,该模型在FLEURS基准测试中表现出卓越性能。在涵盖的25种语言中,该模型击败了Scribe v2、Whisper-large-V3、GPT-Transcribe及Gemini 3.1 Flash-Lite等竞品,实现了最低的词错误率。微软强调,该模型具备强大的环境适应能力,能够有效处理背景噪音、低质量音频以及重叠语音等复杂录音条件。
目前,微软正将该模型集成至Coprilot Voice及Microsoft Teams产品线中。开发者可通过Microsoft Foundry及Microsoft AI Playground进行公测体验。技术参数显示,该模型推理速度较Azure此前的Fast服务提升2.5倍,定价为每音频小时0.36美元。结合MAI-Voice-1及语言模型,该系统亦可构建具备对话能力的语音智能体。
值得注意的是,Cohere与Mistral近期亦发布了性能相当的开源替代方案,显示出该领域技术竞争的加剧趋势。微软此次发布进一步巩固了其在企业级语音服务市场的技术优势。





0 条评论
请「登录」后评论