品玩4月29日讯,Hugging Face 近日正式开源名为 smol-audio 的代码库,旨在为开发者提供一套完整的本地音频模型二次开发与部署脚手架,助力前沿音频模型的快速迭代与应用落地。
该工具库内置完善的微调脚本,原生支持 Whisper、Parakeet、Voxtral 及 Granite Speech 等主流语音大模型,并针对 Audio Flamingo 3 提供了全量参数微调及 LoRA 参考微调的完整代码实现。在应用层面,smol-audio 集成了 Dia-1.6B 对话级文本转语音模型,并接入 Meta 的 PE-AV 模型,支持开箱即用的视频与音频到文本的双向跨模态检索功能。





0 条评论
请「登录」后评论