品玩

科技创新者的每日必读

打开APP
关闭

阿里通义音频生成大模型 FunAudioLLM 开源 支持情绪语音对话、有声读物等场景

2024年7月8日

品玩7月8日讯,据阿里通义实验室消息,音频生成大模型项目FunAudioLLM 现已开源。该项目由两个核心模型SenseVoice和CosyVoice组成。

CosyVoice 专注于自然语音生成,具备多语言支持、音色和情感控制功能,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行方面表现出色。它通过15万小时数据训练,支持中英日粤韩五种语言,能够快速模拟音色并提供情感和韵律的细粒度控制。

SenseVoice 则致力于高精度多语言语音识别、情感辨识和音频事件检测。它经过40万小时数据训练,支持超过50种语言,识别效果优于Whisper模型,尤其在中文和粤语上提升超过50%。SenseVoice还具备情感识别和声音事件检测能力,以及快速的推理速度。

取消 发布

下载品玩App,比99.9%的人更先知道关于「通义」的新故事

下载品玩App

比99.9%的人更先知道关于「通义」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测