品玩

科技创新者的每日必读

打开APP
关闭

SoulX-Duplug开源:为语音对话系统提供“即插即用”的全双工交互能力

19小时前

品玩3月19日讯,据 Soul 官方消息,Soul App AI团队与上海交通大学X-LANCE Lab、西北工业大学ASLP@NPU团队联合发布并开源了SoulX-Duplug模块。该模块旨在通过流式状态预测,将传统语音对话系统从半双工交互模式升级为全双工模式,从而获得更自然、实时的语音对话能力。

全双工语音交互允许系统在生成回复时持续聆听用户输入,支持打断、停顿、附和等接近人类的对话行为。当前,工业界多采用级联模块(如VAD、ASR、Turn Detection)实现全双工,但存在延迟高、缺乏语义理解等问题。SoulX-Duplug创新性地将语音活动检测、流式语音识别与对话状态预测在单一模型中统一建模,通过“文本引导的流式状态预测”机制,显著降低了系统延迟并提升了对语义意图的理解精度。

该模块定义了user_idle、user_nonidle等五种对话状态,并采用三阶段训练策略。实验表明,基于该模块构建的系统在“Full-Duplex-Bench”基准的多个关键交互维度上表现均衡且出色,总体延迟优于传统方案,为优化对话系统的记忆、推理等核心智能能力解除了交互机制的束缚。

取消 发布

下载品玩App,比99.9%的人更先知道关于「soul」的新故事

下载品玩App

比99.9%的人更先知道关于「soul」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测