品玩

科技创新者的每日必读

打开APP
关闭
业界动态

科大讯飞主导制定2项数字人ITU国际标准!

shuohang

发布于 17小时前

在 2025 年科大讯飞全球 1024 开发者节的现场,数字人「小飞」正与三人畅聊。TA 会听能看,记得住对话人的身份、历史信息并给出贴心提醒,观察细节之后能给出详细的信息介绍与位置导览,甚至一键帮忙订票;TA 能说会道,高情商回复既自然又灵动,还能用外语和外国朋友谈天说地。TA 还化身为数字人林黛玉,形象清丽、语气惟妙惟肖。

特别是在多人聊天时,「小飞」还能理解和分辨到底是在和自己对话,还是多人之间相互聊天,从而判断是否接话和插话。

这一系列流畅、自然且充满「人情味」的互动,标志着多模态超拟人交互技术已从概念探索迈入可用、好用的新阶段。

这一前沿技术展示的背后,离不开坚实的技术积淀与产业共识的支撑。就在不久前,国际电信联盟(ITU-T SG21)在瑞士日内瓦召开全体会议,由科大讯飞与中国信通院共同参与编辑的两项数字人国际标准——ITU-T F.748.63(基础模型增强的数字人系统框架及通用技术要求)与 ITU-T F.748.64(数字人服务平台要求)——顺利通过结项,计划于 2026 年正式发布。这意味着,推动产业发展的技术实践,正在凝聚成全球公认的规范。

一、技术内核:多模态超拟人交互「更懂你」

「小飞」所展现的惊艳体验,源于其在感知、认知与表达三大层面的技术协同突破。

信息感知层面,系统具备了「耳聪目明」的能力。此次展示的多模态交互系统具备 5 米 0dB 远场高噪语音识别能力,在嘈杂环境中也能精准识别,更加贴合真实的使用和交互场景。基于多模态语音增强技术,系统能融合语音、人脸、姿态等信息,结合说话人站位锁定多人对话中的目标,实现音频与说话人的绑定,攻克了多人高噪场景下的识别难题。同时,讯飞创新性地提出说话人引导的注意力增强方案,实现对交互区域的细粒度视觉信息感知,让视觉信息更加准确;进一步提出局部检索增强技术,通过视觉思维链提取局部关键区域,实现远场条件下的局部物体检索增强识别。

认知与理解层面,数字人开始「读懂心意」。多人交互理解技术融合对话历史、语音活动状态等信息,加强了模型对多人复杂场景的理解能力,更好地把握和用户的交互时机,以及交互意图的精准判断,实现了响应速度和响应质量的平衡,既不「抢答」也不「乱答」。另外,多模态交互系统能够实现分钟级情感解析、深度共情,读懂对话人的真实心绪,回应「心领神会」的默契瞬间。

表达与输出层面,交互变得更有温度。超拟人数字人能通过多模态前端定位说话人方位,像真人一样能视线跟随看向当前交互的对象,增强交互的真实感;数字人的回复也更加自然、共情,得益于多情感语音合成技术创新性研发了多轮上下文信息建模方案,能够对语音交互中的历史多轮 QA 音频和文本进行编码、感知对话人的情感变化,再通过语音合成大模型的自适应情感合成能力,让数字人的回复合成声音情绪语气随之变化,给出恰当的情感回应,在声音的自然度、情感表达、节奏停顿等细节上表现更好,尤其是在多轮交互中的效果提升显著。

值得一提的是,此次发布会上首发的个性化记忆能力也加入了超拟人交互系统,通过分层式动态记忆体架构,实现了长短期协同的精准用户记忆。结构化推理方案的设计,确保了模型在个性化任务中进行严谨的逻辑推理;借助强化学习在对齐用户个人偏好上持续优化,实现了从「内容个性化」到「沟通风格个性化」的进化,增强了多模态交互的个性化回复能力。

二、标准筑基:从技术实践到国际规范制定

技术上的领跑为规则制定提供了关键依据。此次科大讯飞能够主导国际标准的制定,离不开它在人工智能领域长期的技术积累和广泛的产品应用。

科大讯飞自主研发的星火大模型为数字人提供了深层的认知理解基础,而在语音、自然语言处理等领域的全栈式 AI 技术积累,则为实现自然流畅的人机交互奠定了基石。此前,科大讯飞的 AI 虚拟人交互平台通过了中国信通院人工智能研究所组织的大模型数字人基础能力分级测试,并获得最高等级 L5 认证,也进一步证明了讯飞 AI 虚拟人交互平台技术方案的先进性与成熟度。这些扎实且经过市场检验的技术能力,为其参与国际标准讨论与制定提供了重要依据,也将中国的技术实践融入了全球数字人产业发展的蓝图。

三、场景落地:双平台驱动产业智能应用

技术的终极价值在于应用。科大讯飞通过讯飞智作讯飞 AI 虚拟人交互平台,将前沿技术转化为可规模落地的产品与服务。

讯飞智作作为一站式虚拟人音视频内容生产平台,不仅提供丰富多元的形象与声音,还支持仅凭一张照片、一句话快速生成专属数字人,目前已构建超 10 万数字分身,500 万的声音复刻,广泛赋能教培、金融、文旅、政企等多个业务领域。

讯飞 AI 虚拟人交互平台则聚焦全栈式虚拟人多场景应用服务,让数字 IP 不仅「动起来」,更能「交互起来」。平台支持零代码快速嵌入小程序、导游机等终端,更提供智能交互机、移动数字人、AI 虚拟人直播机等软硬一体化方案,同时通过终端 SDK、服务端 API、公有云 API 及私有化部署等灵活接入方式,可适配 APP、Web、小程序等多种产品形态。

从多模态超拟人交互的技术突破,到参与国际标准制定的能力认证,再到双平台推动的产业赋能,科大讯飞在数字人领域形成了从技术到市场、从实践到标准的闭环。未来,随着「AI+行业」的持续深入,更智能、更自然的数字人有望在更多领域成为人类的智能伙伴。我们也将继续在多模态超拟人交互技术上踏实前行、持续进阶,不断带来新的惊喜。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测