品玩9月18日讯,据面壁智能官方消息,面壁智能与清华大学深圳国际研究生院联合发布端到端语音生成模型VoxCPM-0.5B,其语音自然度、音色相似度及韵律表现力均达业界SOTA水平。
该模型采用层次化语言建模与局部扩散生成技术,支持零样本声音克隆,仅需极少数据即可复刻独特声线,且能处理中英双语、公式符号音频及自定义发音修正。在权威评测中,VoxCPM的词错率与音色相似度超越同类模型,单张RTX 4090显卡上推理速度达RTF≈0.17,支持流式输出。
目前,VoxCPM已在GitHub、Hugging Face等平台开源,并提供线上体验平台,其技术突破为智能语音交互、内容创作等场景提供了高性能解决方案。

0 条评论
请「登录」后评论