品玩2月27日讯,据 AIBase 报道,B站今日发布论文,介绍了一款文本转语音模型 IndexTTS,该模型可以根据拼音来纠正汉字的发音能力,同时可以根据标点来控制语音停顿。
据该模型论文显示,IndexTTS 系统经过数万小时的数据训练,已实现业内领先的性能,超越了当前流行的 TTS 系统,包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系统的多个模块经过增强,特别是在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过引入混合建模的方式,IndexTTS 能够快速纠正误读的汉字,提升了用户的使用体验。
在多项评测中,IndexTTS 表现出色,特别是在字词错误率(WER)和扬声器相似性(SS)方面,均优于许多同行模型。

0 条评论
请「登录」后评论