品玩

科技创新者的每日必读

打开APP
关闭

Fish Audio发布S2-Pro模型,推动高保真实时语音合成新标准

12小时前

品玩3月11日讯,据 MarketChpost 报道,Fish Audio正式推出其旗舰级文本到语音(TTS)模型S2-Pro,标志着语音合成技术向集成化大音频模型(LAM)演进。该模型采用创新的双自回归(Dual-AR)架构,将生成过程分为40亿参数的“慢速AR”模块(负责语言结构与韵律)和4亿参数的“快速AR”模块(处理音色、气息等高频细节),实现44.1kHz高保真音频输出。

S2-Pro支持零样本语音克隆,仅需10至30秒参考音频即可复现说话人身份与情感状态,并通过内联自然语言标签(如[whisper]、[laugh])实现细粒度情绪控制。模型基于残差矢量量化(RVQ)技术,在多层码本中高效压缩音频信息,保留非语言发声(如叹息、停顿)等细节。

在性能方面,S2-Pro在NVIDIA H200硬件上实现约100毫秒的首音频延迟(TTFA),并集成SGLang框架与RadixAttention机制,通过缓存键值状态显著降低重复语音生成的预填充开销,支持多角色对话单次推理。

该模型已在开源生态中提供,训练数据涵盖超30万小时多语种语音,为实时交互式AI应用树立新标杆。

取消 发布

下载品玩App,比99.9%的人更先知道关于「AI大模型」的新故事

下载品玩App

比99.9%的人更先知道关于「AI大模型」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测