品玩12月31日讯,据 The Decode 报道,AI 初创公司 Resemble AI 发布开源文本到语音模型 “Chatterbox Turbo”,仅需 5 秒音频即可克隆人声。
该公司称,该模型在音质上优于 ElevenLabs 与 Cartesia,且首段音频输出延迟低于 150 毫秒,适用于实时智能体、客服系统、游戏、虚拟形象及社交平台等场景。
Chatterbox Turbo 采用 MIT 许可证发布,支持免费商用、修改与再分发。模型已在 Hugging Face、RunPod、Modal、Replicate 和 Fal 上线,完整代码托管于 GitHub。Resemble AI 同时提供托管服务,并计划推出低延迟版本。模型内置 “PerTh” 水印,便于监管行业验证语音是否由 AI 生成。





0 条评论
请「登录」后评论