Hugging Face 开源 smol-audio 工具库，支持主流音频模型微调与检索-品玩

Hugging Face 开源 smol-audio 工具库，支持主流音频模型微调与检索

34分钟前

品玩4月29日讯，Hugging Face 近日正式开源名为 smol-audio 的代码库，旨在为开发者提供一套完整的本地音频模型二次开发与部署脚手架，助力前沿音频模型的快速迭代与应用落地。

该工具库内置完善的微调脚本，原生支持 Whisper、Parakeet、Voxtral 及 Granite Speech 等主流语音大模型，并针对 Audio Flamingo 3 提供了全量参数微调及 LoRA 参考微调的完整代码实现。在应用层面，smol-audio 集成了 Dia-1.6B 对话级文本转语音模型，并接入 Meta 的 PE-AV 模型，支持开箱即用的视频与音频到文本的双向跨模态检索功能。