品玩

科技创新者的每日必读

打开APP
关闭
业界动态

讯飞智能体平台升级,物理世界迎来首批AI原住民

shuohang

发布于 14小时前

从「屏幕幻象」到「物理实体」,智能体正在重塑生产力的边界!

当大模型的叙事逻辑从「参数竞赛」转向「应用落地」,智能体从只会纸上谈兵的「赛博玩具」,进化为真正下地干活的「生产工具」。感知、声音、图像、动作——这些被视为「辅助功能」的维度,成为智能体深入业务流程、实现规模化落地的「入场券」。

1 月 26 日,星辰智能体平台升级发布,让智能体跨出屏幕,拥有「感知物理世界、理解复杂上下文、甚至像真人一样多模态沟通」的能力。整合「语音、视觉、运动与执行」的多模交互全栈方案,让智能体从「单点工具」,正式升级为具备「五官、手脚与个性」的「数字合伙人」。

01

让智能体走出屏幕

成为物理世界的得力助手

从智能音箱到企业客服,语音无疑是 AI 进入真实世界的关键入口。然而,将复杂的 Agent 接入语音链路并非易事——响应延迟、语义割裂、系统状态不同步,已是行业普遍痛点。涉及硬件运动控制时,往往还需并行对接多套接口,研发周期动辄以月为单位。

本次发布会上,星辰智能体平台和 AIUI 平台实现完全打通,让 Agent 一键接入语音交互,在 AIUI「听懂指令、理解意图、执行动作、语音反馈」基础之上,结合智能体让交互更个性化,支持多模态感知和输出。事实上,这意味着:

· 场景打通:智能体能够极速接入机器人、智能穿戴与各类智能硬件,实现工业、家庭与消费等场景落地。

· 降本增效:通过更低的人力与时间成本,实现交互效率和效果的双重提升。

桌面硬件机器人「小飞」现场展示了融合所带来的进化,当主持人说:「小飞,你看看我们发布会现场感觉怎么样?」。小飞准确识别指令,自主移动并环顾四周,调用视觉能力并回复:「我看到一个有柔和的灯光,还有好多正在关注我们的朋友」。

对于孩子难以理解古诗的场景,小飞也能轻松应对,可以调用绘本智能体,将诗句转化为图文和声音结合的绘本,帮助孩子轻松学、快乐学。依托于讯飞 AIUI 1.6s 的秒极速响应,让用户几乎感觉不到卡顿,像真人聊天一样流畅,实现了人类对话中的精髓——「有来有往」。

02

定义智能体的形象与声音

多模态交互 懂你更智能

相较于千篇一律的文本/语音交互,用户更喜爱有「温度」的交互对象。智能体要走向真实世界,不仅要在复杂环境中被听见、被看见、被理解,并与人自然互动,还需要一个「五官」。

本次发布会上,全新升级多模态超拟人交互技术,融合语音、人脸、环境等多模态信息,实现多人高噪场景下的自由交互,让智能体得以搭载上丰富的声音和形象,进行更具象的情感表达。

声音层面,超拟人合成在语音合成大模型底座升级赋能下实现提升,在自然度、情感表达、节奏停顿等维度和细节上表现更好,尤其在多轮交互中的效果显著提升,具备「更快响应、更懂情绪、更加灵活、更加百变」四大特点,能像真人聊天一样和我们「交心」。同时一句话复刻能力,也在支持的语种、方言以及多风格表达上有了进一步的突破,交互的底层声音表达上更加拟人、多元。

形象层面,仅需一张照片就能生成专属的数字人形象,口型、表情、动作均由大模型自动生成,可以自动匹配文本的意图,进一步降低数字人的应用门槛。

多模态超拟人交互技术的升级可以帮助企业,快速打造专属企业数字形象代言人,塑造统一、生动的品牌形象,积淀品牌资产,实现品牌传播;同时,实现降本增效,赋能业务创新与全球化拓展。更重要的是,具备情感与温度的交互方式,能够显著提升用户粘性,持续驱动业务增长。

目前,搭载多模态超拟人交互技术的数字人已在企业服务、旅游导览、陪伴学习、健康管理等多场景应用,重塑服务体验。

在智慧大厅,数字人前台通过多模态视觉理解,实时融合语音、人脸、环境等多模态信息,实现自动感知与主动迎宾。同时与多人自然交流,精准识别人人对话与人机对话的意图,并辅以生动的手势与类人举止反馈,让每一次指引都清晰亲切。

在业务终端,通过人脸识别快速认证,数字人助手将引导用户完成从查询、填表到电子签名的复杂业务流程,轻松自主办结。

03

智能体也有了 MBTI

捏出懂你脾气的专属伙伴

「好看的形象」让智能体拥有了辨识度,「有趣的灵魂」才是建立长期陪伴与信任的关键。此次升级,将角色性格从以往单薄的一段文案描述升级成了「可组合、可迁移」的能力模块。

通过星辰 MaaS 的一句话精调模式,只需通过「性格、经历、技能、语言习惯」几个维度的精准描述,系统即可生成 100 条场景数据,自动定制场景的角色模型,实现 Agent 交互的千人千面,除了一句话精调,星辰 MaaS 基于高效的工具链+丰富的基座模型,还提供 0 代码可视化精调、notebook 精调,满足 Agent 各个环节的效果精调,提升效果、效率的同时降低成本,助力应用规模化增长。

星辰智能体平台还上线了音色创造功能——通过与语种、情感、风格等属性的联合训练,实现了音色与风格的任意组合。不被录音限制,一句指令要求,即可让智能体实现声音风格的瞬间切换。

假设要制作一款三国战略游戏,对于精调的曹操人设,现在能够在不改变角色模型前提下,仅仅调整音色描述,就可以赋予其「沉稳枭雄」或「意气青年」的不同声线,让历史人物栩栩如生。

这种能力的结合,为教育、玩具、虚拟 IP 等场景提供了更大的想象空间。在玩具、教育等长期陪伴、高频使用场景,用户留下来靠的不是技能,而是像不像一个真正的伙伴。同样,对虚拟 IP 来说,角色扮演性格本身就是产品的一部分,换一个性格就相当于换了一种体验。

04

让智能体拥有「灵巧手脚」

接管重复性工作

智能体不仅要「能言善辩」,更要「躬身入局」,唯有真正接管任务才能释放生产力。通过将 Agent 与 RPA 深度融合,星辰让智能体具备了「动手」的能力,让聪明的大脑搭配 7x24 小时不知疲倦的双手。

针对 RPA 需要有技术背景才能玩转,大多数卡在「搭建流程」的尴尬处境。此次发布会,星辰平台在 RPA 工作流编排层面带来了两项新能力——智能组件与数据表格,让开发者能专注于业务逻辑编排,而非底层代码实现。

智能组件:通过自然交互即可生成「可配置、可重复执行」自动化组件,应用于网页自动化和基础的数据、文本处理场景,极大地降低自动化能力的创造门槛。

数据表格:用户在流程中直接对数据进行「读写、编辑、展示和导出」,让整个自动化流程涉及到数据获取和处理的部分变得更加透明和可调试,提升了复杂数据处理任务的可靠性和执行效率。

发布会现场,通过在 RPA 设计器中拖入智能组件,一句自然语言指令就能自动打开指定网页、精准抓取待办事项的标题、时间等关键信息。整个流程还支持「对话式二次编辑」,可以像修改文档一样通过文字微调逻辑。流程运行后,RPA 将自动接管浏览器,实现数据自动化筛选与提取,将结构化信息呈现在「数据表格」,实现从原始网页到业务报表的闭环。

事实上,在整场发布会中,多位 RPA 数字员工都在高效支撑——它们活跃在电脑中,帮助主持人自动通知演示官上场、回复同事信息、收取邮件设置待办,完美展现了 RPA 的精准执行力。

05

跨语言、懂业务的智能体

助力全球企业创新

在大模型时代,全球化成为企业的「共同选择"。科大讯飞持续推进全球化战略,向全球开发者开放核心 AI 能力与解决方案。聚焦中东与东南亚两大新兴市场,星辰智能体平台将多模交互与执行能力同步延展至海外场景,构建起覆盖多行业的海外智能体矩阵。

从数千页基建标书的自动分析与比对,到多语言混杂的实时出行引导,再到隐藏于复杂合同中的合规风险透视,覆盖公共服务与出行、大型基建招投标、金融与支付等场景,赋能全球企业业务的创新升级。在提升效率、管控风险的同时,为全球企业构建起可持续的智能化竞争力,打造全场景、全链路的智能新生态。

Agent 的真正爆发,也将始于它不再是一个需要用户去「迁就」的对话框,而是一个能听懂情绪、能处理表格、能跨越国界解决复杂问题的「贴心伙伴」。

全新升级的星辰智能体平台,补齐了通往物理世界的最后三块拼图——感知的「五官」、执行的「手脚」以及共情的「灵魂」。 

从 AIUI 的语音闭环到 RPA 动作接管,从超拟人数字人的情感交互到出海场景的跨语言穿透,星辰正在构建一套完整的「Agent 基础设施」。从「AI 技术」向「AI 原生应用」跨越的临界点,唯有智能体「移出屏幕」,才能将 AI 深度嵌入工业生产、家庭陪伴、全球贸易等真实的商业毛细血管中,让技术在最坚硬的泥土里扎根。

当成千上万个具备「执行力」的智能体走向生产一线,这场关于效率的革命,才算真正爆发!

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测