品玩

科技创新者的每日必读

打开APP
关闭

Hugging Face 开源 smol-audio 工具库,支持主流音频模型微调与检索

34分钟前

品玩4月29日讯,Hugging Face 近日正式开源名为 smol-audio 的代码库,旨在为开发者提供一套完整的本地音频模型二次开发与部署脚手架,助力前沿音频模型的快速迭代与应用落地。

该工具库内置完善的微调脚本,原生支持 Whisper、Parakeet、Voxtral 及 Granite Speech 等主流语音大模型,并针对 Audio Flamingo 3 提供了全量参数微调及 LoRA 参考微调的完整代码实现。在应用层面,smol-audio 集成了 Dia-1.6B 对话级文本转语音模型,并接入 Meta 的 PE-AV 模型,支持开箱即用的视频与音频到文本的双向跨模态检索功能。

取消 发布

下载品玩App,比99.9%的人更先知道关于「HuggingFace」的新故事

下载品玩App

比99.9%的人更先知道关于「HuggingFace」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测