品玩

科技创新者的每日必读

打开APP
关闭

阿里通义千问开源超低延迟语音合成模型Qwen3-TTS

3小时前

品玩1月23日讯,据千问官方消息,阿里通义千问团队正式开源Qwen3-TTS系列语音生成模型。该系列模型拥有97毫秒的超低延迟、秒级音色克隆与跨语言迁移能力,为语音合成领域的一项重大突破。

开源模型采用了创新的双轨混合流式生成架构,实现了端到端的语音直接建模。实际测试中,其端到端延迟低至97毫秒,输入单个字即可输出首包音频,极适用于直播互动、实时翻译等高时延敏感场景。

在音色克隆方面,仅需3秒参考音频即可实现高保真复刻,并支持将克隆后的音色无缝迁移至中、英、日、韩等10种主流语言及多种中文方言。此外,模型还具备语音设计功能,用户通过一句自然语言描述即可生成符合要求的全新音色。为满足不同需求,团队同步开源了1.7B和0.6B两种参数规模的模型,供开发者在性能与效率间自由取舍。

据悉,该模型家族的完整代码与权重已在GitHub和Hugging Face平台开源,支持全参数微调。

取消 发布

下载品玩App,比99.9%的人更先知道关于「通义千问」的新故事

下载品玩App

比99.9%的人更先知道关于「通义千问」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测