品玩

科技创新者的每日必读

打开APP
关闭

火山引擎发布豆包语音识别模型2.0,强化多模态与多语言能力

12月5日

品玩12月5日讯,火山引擎近日正式推出豆包语音识别模型2.0,显著提升上下文理解与复杂场景识别能力。

模型整体关键词召回率提高20%,在专有名词、多音字等难点上表现更优,并首次引入多模态视觉识别能力,可结合图像内容辅助区分同音词(如“滑鸡”与“滑稽”)。该版本新增日语、韩语、德语、法语等13种语言支持,在保持中英文高精度基础上拓展全球化应用。技术上基于Seed混合专家架构与PPO强化学习,实现无需历史词汇的动态泛化推理,并通过Function Call策略优化跨语言识别效果。

模型现已上线火山方舟体验中心并开放API,适用于搜图描述、语音指令创作、多语言交互等场景。2025火山引擎FORCE原动力大会将于12月在上海举行。

取消 发布

下载品玩App,比99.9%的人更先知道关于「豆包」的新故事

下载品玩App

比99.9%的人更先知道关于「豆包」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测