阿里云发布Qwen3-TTS系列语音合成模型-品玩

阿里云发布Qwen3-TTS系列语音合成模型

2025年12月25日

品玩12月25日讯，据通义千问官方消息，阿里云正式推出Qwen3-TTS系列两款新一代语音合成模型：Qwen3-TTS-VD-Flash（音色创造模型）与Qwen3-TTS-VC-Flash（音色克隆模型）。

Qwen3-TTS-VD-Flash支持通过自然语言指令精细调控音色、韵律与人设，在InstructTTS-Eval评测中综合表现显著优于GPT-4o-mini-tts、Mimo-Audio-7B-Instruct，并在角色扮演测试中超越Gemini-2.5-pro-preview-tts。

Qwen3-TTS-VC-Flash仅需3秒音频即可完成音色克隆，支持中、英、日、法等10大语言合成，在MiniMax TTS多语言测试集上词错误率全面优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

该系列模型具备高表现力拟人化音色与强大文本解析能力，可满足多样化语音合成需求。

下载品玩App，比99.9%的人更先知道关于「通义千问」的新故事

下载品玩App

比99.9%的人更先知道关于「通义千问」的新故事

AI阅读助手

以下有两点提示，请您注意：
1. 请避免输入违反公序良俗、不安全或敏感的内容，模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务，但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时，您需要自行判断并承担风险；
感谢您的理解与配合

该功能目前正处于内测阶段，尚未对所有用户开放。如果您想快人一步体验产品的新功能，欢迎点击下面的按钮申请参与内测申请内测