品玩7月8日讯,据阿里通义实验室消息,音频生成大模型项目FunAudioLLM 现已开源。该项目由两个核心模型SenseVoice和CosyVoice组成。
CosyVoice 专注于自然语音生成,具备多语言支持、音色和情感控制功能,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行方面表现出色。它通过15万小时数据训练,支持中英日粤韩五种语言,能够快速模拟音色并提供情感和韵律的细粒度控制。
SenseVoice 则致力于高精度多语言语音识别、情感辨识和音频事件检测。它经过40万小时数据训练,支持超过50种语言,识别效果优于Whisper模型,尤其在中文和粤语上提升超过50%。SenseVoice还具备情感识别和声音事件检测能力,以及快速的推理速度。

0 条评论
请「登录」后评论