品玩

科技创新者的每日必读

打开APP
关闭
业界动态

全行业都在测语音AI"接话准不准",但从没人问过:它真的听懂了吗?

shuohang

发布于 4月2日

先说一个数字。

超过 40%。

这是当前某主流全模态大模型在语音交互中"蒙对"的比例。也就是说,它每做出 10 次"正确操作",有 4 次以上——理由是错的。

它不是听懂了才回答的。它是碰巧没答错。

这个数字,来自百融语音团队刚刚开源的 CoDeTT Benchmark。我们给 Gemini3-Pro、GPT-4o-audio、Qwen3-Omni、MiniCPM-o-4.5 这些当红明星模型,出了一张从没人出过的卷子。

结果,集体翻车。

一个价值千万的 bug,藏在"正确"里

先别急着看数据。我给你讲个真实场景,你就懂了。

一个智能语音坐席正在给客户介绍理财产品,说得正欢。这时候客户咳嗽了一声。

AI 停了。安静了两秒。等客户开口。

看起来很贴心对吧?很"智能"对吧?

但真相是:它根本不知道那是一声咳嗽。

它只是检测到"有声音了",然后条件反射般地闭嘴了。如果下一次客户是在跟旁边的同事说话,它也会停。如果是窗外传来一声汽车喇叭,它还是会停。如果客户真的想打断说"我不感兴趣"——它的反应,跟听到咳嗽,一模一样。

四种完全不同的情况。四种需要完全不同处理方式的场景。但在这个 AI 的"大脑"里,它们是同一件事——"有动静,闭嘴"。

从外面看,它每次都"做对了"。从里面看,它一次都没"听懂"。

这不是个案。这是整个语音 AI 行业的系统性盲区。

整个行业都在考一张错误的卷子

为什么这个问题存在了这么久,却没人发现?

因为我们的考试出错了。

目前全行业评测语音交互能力,最主流的方法叫端点检测——判断"用户说完了没有"。说完了就接话,没说完就等着。

一个二分类问题。简单。粗暴。而且,严重失真。

近两年出现了一些进阶 Benchmark,FLEXI 测社交场景、Full-Duplex-Bench-v2 评多轮任务、MTR-DuplexBench 考性能衰减。它们确实比二分类进步了。

但它们有一个致命的共同缺陷:只看"做了什么",从不问"为什么这么做"。

它们能看到"模型沉默了",却无法分辨:这次沉默,是因为正确判断了用户在思考?还是把咳嗽当成了说话?还是把背景噪音当成了用户指令?

这三种沉默,在现有 Benchmark 里得分完全一样。但在真实通话中,一种是智能,一种是愚蠢,一种是危险。

所有人都在用这张"错误的卷子"打分,然后宣布自己的模型"表现优秀"。

难怪没人发现问题。因为卷子本身就看不出问题。

这件事有多严重?

你可能觉得:就算蒙对了,用户也感知不到啊,结果不是一样的吗?

不一样。非常不一样。

在百融云创的各种业务场景中,智能坐席每天要处理海量实时通话。营销、回访、客服、贷后——每一通电话都是真金白银。

想象一下这些场景:

客户正在犹豫要不要买。 他停顿了三秒,在心里算账。一个"真听懂了"的 AI 会安静等待,给他思考空间。一个"蒙"的 AI 可能误判为"用户说完了",急匆匆地接上话,打断了客户正在形成的购买决定。

客户被旁边的同事叫了一声。 他扭头说了句"等一下"。一个"真听懂了"的 AI 知道这不是对自己说的,继续保持。一个"蒙"的 AI 可能把这句话当成对话指令,做出莫名其妙的回应。

客户明确说了"你别说了"。 一个"真听懂了"的 AI 立刻停下。一个"蒙"的 AI 可能还在犹豫——因为它上次听到类似的声音强度时,判断的是"背景噪音,忽略"。

每一次误判,都是一次转化率的流失、一次客户满意度的损耗、一次合规风险的累积。

乘以日均百万级的通话量。

这不是小问题。这是一个被"正确的分数"掩盖的巨大隐患。

我们撕开了这个口子

我们做了一个 Benchmark,叫CoDeTT——Context-aware Decision Benchmark for Turn-Taking Evaluation。

它不测"做了什么"。它测"为什么这么做"。

图注:传统评测(左)只看动作对错,如同"黑箱阅卷";CoDeTT(右)深入决策意图,实现分层诊断。直观展示评测理念的根本性差异。

14 个"陷阱",层层递进

CoDeTT 构建了一个三层诊断体系,把 turn-taking 从"判断对错"变成了"诊断病因"。

第一层:你现在在干嘛? 系统正在说话(SystemSpeaking),还是在等用户说话(SystemIdle)。

第二层:你打算怎么做? 四个宏观动作——继续说(Maintain)、停下来听(Stop & Listen)、接管发言(Takeover)、忽略不理(Dismiss)。

第三层:你凭什么这么做? 这是杀手锏。CoDeTT 设置了14 种细粒度意图场景,每一种都是精心设计的"陷阱"。

图注:CoDeTT 定义的 14 种轮次交接决策场景完整分类体系——相当于给"轮次交接"这张试卷划分了 14 道大题,每道题考的能力不同。

同样是"继续说不停下来",你的理由是什么?

用户只是"嗯嗯"两声表示在听?——对,继续。

旁边传来一声咳嗽?——对,继续,但理由完全不同。

用户在跟旁人说话?——对,继续,但这又是另一个理由。

背景里有人在聊天?——对,继续,但你必须知道为什么。

四个一模一样的"正确答案",四种截然不同的"正确理由"。传统 Benchmark 只看到前者,CoDeTT 要看穿后者。

数据集:300 小时,绝不含糊

CoDeTT 不是一个玩具级的测试集。

300 小时中英双语多轮对话。18,000 个标注决策实例。14 个诊断场景均匀覆盖。每个实例带有 5 轮完整对话历史。

数据构建经过六阶段流水线:Gemini3-Pro 生成对话文本、GPT-5 做语义质检、Qwen3-TTS 合成多人语音、Qwen3-ASR 转录验证、专项声学复杂场景模拟、真实自然对话语料融合。两名双语标注员人工审核,标注一致性 Cohen's κ = 0.87。

图注:CoDeTT 数据集六阶段构建流水线全景图——从文本生成到声学模拟,再到真实数据融合,展示数据工程的完整性和严谨性。

不是随便攒的。是用造武器的态度造的尺子。

一个指标,撕掉"蒙题"的遮羞布

CoDeTT 还发明了一个全新的指标——语义错位率(Semantic Misalignment Rate,SMR)。

这个指标只做一件事:揪出那些"动作蒙对了,但理由完全错误"的 case。

公式很简单:在所有"动作正确"的样本中,有多少是"意图判断错误"的?

SMR 越高,说明模型越像一个考试蒙题的学生——选择题选对了,但你问他为什么选 C,他说"因为今天周三"。

这个指标在此之前,从未有人提出过。 因为以前的卷子根本没有"问理由"这一栏。

成绩单来了。请坐稳。

我们把当前最能打的语音模型和全模态大模型全部拉上了考场。

图注:主流模型在 4 类核心决策上的准确率对比(中英文),清晰展示各模型的"偏科"现象——许多模型只在一种场景下表现尚可,其余场景大幅崩塌。

专用控制器:"瘸腿冠军"

Easy Turn、FireRedChat、Smart-Turn-v3、NAMO-Turn——这些专门做端点检测的选手,在"接管话轮"(Takeover)上分数很高,FireRedChat 中文达到 86.67%。

但一到"该不该忽略"(Dismiss),成绩直接崩盘。FireRedChat 只有 6.83%。

什么概念?100 次该忽略的情况,它只判断对了不到 7 次。剩下 93 次,它都做出了不该做的反应。

这些模型把"判断用户说完没"练到了极致,但面对真实世界的复杂性——背景噪音、旁人说话、用户犹豫——它们基本是瞎的。

全模态大模型:"优等生"的成绩单里全是水分

Gemini3-Pro 在动作级别看起来最风光,中英文平均准确率超过 81%。看起来是妥妥的优等生。

但打开 SMR 的"X 光"——

图注:14 种细粒度场景下各模型的准确率和 SMR 对比,清晰呈现"动作对但理由错"的普遍性。

MiniCPM-o-4.5:SMR 在 Maintain 场景下高达 55.93%(中文,1 轮历史)。

什么意思?它"正确保持说话"的 case 里,超过一半是蒙对的。 它不知道用户是在"嗯嗯"还是在咳嗽还是在跟旁人说话,反正统统选"继续说"——碰巧蒙对了。

GPT-4o-audio:动作级别表现体面,但在 Collaboration(第三方协作插入)场景下准确率不到 8%。 几乎完全无法识别"另一个相关的人加入了对话"这种情况。

Qwen3-Omni:增加上下文历史到 5 轮后,Side-talk(旁人对话)识别率从 45% 暴跌到 7%。 上下文越多,反而越糊涂。

即使是全场最佳的 Gemini3-Pro,SMR 也在 15%~25% 之间。 也就是说,它每 5 次"正确操作"中,至少有 1 次是碰巧做对的。

没有任何一个模型的 SMR 低于 15%。没有。任何。一个。

上下文越多越好?大错特错

我们在 0 轮、1 轮、3 轮、5 轮对话历史下分别测试。发现了一个反直觉的结论:

适度的上下文(1~3 轮)确实有帮助。 比如帮模型分清"用户在思考"和"环境噪声"。

但加到 5 轮?反而变差了。 尤其在"打断"场景下,性能下降,SMR 升高。

图注:GPT-4o-audio 的语义混淆矩阵,直观展示模型在哪些场景间产生了意图混淆。

模型确实停下来了,但它停下来不是因为听到你在打断,而是因为它的"历史惯性"告诉它该停了。

这就像一个老司机在红灯路口停了车——不是因为他看到了红灯,而是因为他在这个路口每次都会停。看起来一样,但本质上,一个是安全驾驶,一个是定时炸弹。

CoDeTT 撕开的三层真相

所有实验数据指向同一个结论:当前语音 AI 的 turn-taking 能力被严重高估了。

CoDeTT 揭示了三层能力阶梯,现实是残酷的:

第一层:边界检测——"说完了吗?" 专用控制器能做到。大部分系统止步于此。

第二层:上下文推理——"为什么这样?" 全模态大模型开始触及,但远未过关。SMR 数据无情地证明了这一点。

第三层:多方语用消歧——"谁在说、说给谁、什么意图?" 所有模型在这里集体趴下。Collaboration 和 Exclusion 场景的惨淡数据就是铁证。

传统 Benchmark 只测第一层,然后宣布胜利。CoDeTT 告诉你,战争才刚刚开始。

这对行业意味着什么

对语音 AI 从业者: CoDeTT 是第一个能告诉你"模型为什么做错了"的诊断工具。不再是"准确率低了,但不知道低在哪"。现在你能精确定位:是 backchannel 识别弱?是多人场景搞不定?还是上下文用多了反而过拟合?修什么,一目了然。

对全双工语音交互赛道: CoDeTT 重新定义了什么叫"好的 turn-taking"。从"接话时机对不对"到"决策理由对不对",这是评测范式的一次本质升级。

对产品经理和业务决策者: 下次有人跟你说"我们的模型 turn-taking 准确率 95%",你可以多问一句——"SMR 是多少?" 如果他答不上来,那个 95% 大概率里面掺了不少水。

已开源。拿去用。

CoDeTT 的完整数据集和评测工具已在 GitHub 开源。

300 小时数据,18,000 个标注实例,14 种诊断场景,中英双语全覆盖。

欢迎所有语音 AI 团队拿去测自己的模型。

测完之后,你可能会重新认识你的"优等生"。

2025 年,行业在比谁的语音模型"反应更快"。

2026 年,百融问了一个更扎心的问题:

反应快有什么用?它根本不知道自己为什么要这样反应。

当前最好的模型,至少 15% 的"正确"是蒙出来的。最差的超过 50%。

这些数字不好看。但我们认为,看见真相,比维持幻觉重要一万倍。

只有知道自己不懂什么,才能真正开始学。

这句话对 AI 适用。对这个行业,同样适用。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测