品玩4月10日讯,面壁智能近日宣布,联合OpenBMB及清华大学人机语音交互实验室,正式发布并开源新一代2B参数语音基础模型VoxCPM 2。该模型突破了传统多模型协作的限制,以单一架构集成了多语种支持、音色设计、通用音色克隆及48kHz高保真音质四大核心能力,为AI语音应用提供了高效的端到端解决方案。
VoxCPM 2显著扩展了语言边界,覆盖全球30种语言,重点优化了东南亚8国主流语种,并支持四川话、粤语等9种中国方言。模型采用扩散自回归连续表征技术,实现了“文字即声音”的音色设计与高拟真度语音克隆,能够精准还原情感起伏与呼吸细节。此外,其48kHz采样率达到了影视级音频标准,大幅提升了语音生成的表现力与沉浸感。
作为一款完全免费开源的模型,VoxCPM 2支持原生Torch推理及全参数微调,旨在降低开发门槛,赋能视频创作、有声书及出海业务等多场景应用,推动高保真语音技术的普及与落地。





0 条评论
请「登录」后评论