在数字化转型浪潮中,企业对于通用智能体的需求已超越简单的功能展示,转向深度赋能业务流程的本质诉求。
实际上,对于跨应用、跨系统的需求,目前诸如Manus、Ominiparser及相关开源项目等CPU类项目,都无法完全满足。它们或许能借助API链接,如当下热门的MCP,完成部分轻量化业务流程,但对于深入企业管理系统底层的复杂业务流程,由于涉及大量无API接口的数据连接,现阶段还难以实现。
实在智能CEO孙林君认为,大模型在应用方式上存在两种局限。其一,端到端大模型虽能解决多种问题,但遭遇幻觉时,调优难度大,优化成本高且难以控制。其二,大模型结合 API 的方式,受限于 API 开发依赖人工,成本高昂,并且系统设计遵循低耦合原则,接口数量不宜过多。
大模型加人工的方式并非理想之选。相比之下,让大模型直接驱动工具、操作软件界面来完成工作更具潜力,毕竟软件界面本身也是一种协议。
2025年3月20日,国内最早推出IPA数字员工和实在Agent通用智能体的实在智能,再次发布新品,历经20个月的迭代优化,融合4000+客户的行业Know-How,全新的企业级通用智能体——实在Agent焕新而来。
先看一个案例
点击实在Agent页面的“舆情分析即时助理”,系统会默认输入一个带有品牌名的指令示例(用户可以根据自己需要修改品牌名),这个已经训练好的助理会在微信、知乎、微博等3个平台提取数据并汇总分析。
回车进入任务执行页面,短暂的任务拆解后,点击执行按钮,“舆情分析即时助理” 便进入工作流程。电脑会自动打开浏览器,在3个平台进行数据提取,最后通过大语言模型生成舆情报告。以下是全部操作流程的视频动图。
对于这类在多平台提取数据的应用,以RPA为底层技术的实在Agent可谓得心应手。整个执行流程大约仅需3分钟。若采用纯视觉、靠屏幕截图识别定位GUI元素的CUA智能体,所需时间将翻倍,且任务可能无法完成。
此案例调用的智能体由官方发布。目前,实在Agent已上线8个常用智能体,用户可随时与这些智能体对话,布置所需任务。若这些智能体无法满足个性化需求,用户还能自行创建面向自身业务应用的智能体。
技术演进图谱
初代实在Agent(2023)主要致力于解决大模型在意图理解、任务拆分方面的难题。通过引入智能屏幕语义理解技术ISSUT,让实在Agent具备了操作外部软件的能力。
发展到实在Agent(2025),实现了架构上的重大突破。通过自研流程自动化引擎、多模态大模型TARS-VL、自动仿真技术、可变形矩形卷积和卷积核分配等技术攻关,实在Agent在步骤拆解、组件生成、通用理解、工具链接等方面得到显著提升。
实在Agent的创新成果在实际性能测试中也得到了验证。在步骤拆解、组件生成、通用理解能力上,实在Agent推理基座TARS-VL大模型与各个SOTA模型不相上下,且在部分领域处于领先地位。
在mind2web(用于评估通用型网页代理智能体的数据集)基准测试中,TARS-VL在Task、Domain和Web三个场景上的元素匹配准确率,比GPT-4o、Ominiparser、Claude等模型高出10%。
借助这些技术,实在Agent将特定软件的构建周期大幅缩短至3-5天,极大地提升了其在真实业务场景中的落地应用能力。
此外,在增强实在Agent稳定性与实用性方面,实在智能还开展了诸多工程创新。例如,运用多模型混合策略,有效应对企业长尾需求,降低企业对硬件资源的依赖;训练不同参数规模的模型,适配客户在端侧与云侧的不同硬件配置。
企业级通用智能体
在应用层面,智能体要真正实现落地,必须做到可控、稳定和高效。可控意味着过程清晰、结果准确率高;稳定指多次运行成功率高且结果稳定;高效即构建效率高。
这三点,正是实在Agent满足商业化落地的三大核心能力。
基于这三大核心能力,经过众多客户案例的实践,实在智能通过沉淀知识和技能,打造了企业级智能体解决方案 —— 企业大脑,其具备以下四大核心能力与服务:
专属的知识库RAG:企业在生产经营过程中积累了大量文档和数据,这些是企业独有的宝贵资产,也是员工真正需要的知识,但通用大模型无法涵盖这些内容。企业可以将文档(如产品说明、公司规章)、数据(如经营数据、绩效数据)、系统(如 CRM、ERP)以及业务操作的 “技能”,沉淀到企业大脑,方便员工通过实在Agent进行调用。
专属业务系统操作知识:经过多年信息化建设,企业内部已拥有多套系统,每套系统都有独特的业务特性和操作流程。智能体要实现自动化业务办理,必须理解这些系统的操作规范。实在Agent具备原先RPA和IPA能力,企业可依托自身已有系统(业务系统、管理系统、客户系统、运营系统等),搭建与自身业务相关的自动化操作流程(数字员工、软件机器人),方便员工通过实在Agent进行调用。
支持模型接入:大模型能力不断进化,许多尺寸较小的模型性能也日益提升,为企业本地部署大模型提供了便利。企业可根据自身业务特性,在实在Agent内接入适合的大模型。一些企业可能需要对模型进行微调,微调后的模型也必须能够灵活接入智能体平台,以发挥其最大效能。
支持私有化部署:出于数据安全、风控和监管等因素考虑,大型企业更倾向于私有化部署方案。与实在Agent配套的数字员工运营管理平台可在多种环境中进行私有化部署,支持国产化适配,具备账号授权、角色管理、同步企业组织结构等多种功能。
实在Agent的不同之处
综合来看,通用智能体主要分为两类。
一类是采用大模型(推理模型 + 多模态模型)+API模式的传统方案,通过屏幕截图来识别屏幕元素,以API接口调用各种工具执行任务,例如Manus。另一类是在RPA等流程自动化工具基础上,融合AI Agent架构并将RPA当作超级工具的Agent。
这类产品基于原有业务流程自动化技术的沉淀,适配大模型、RAG、屏幕识别等技术,实现智能体流畅操作电脑上的各种应用,实在Agent便属于此类。
通用智能体的一大特点是能够自由操作电脑上的各种应用以执行各类任务。
但受大模型能力、技术架构、工作模式等因素影响,目前第一类通用AI Agent在体验上欠佳,等待时间长,任务执行能力差,效果不可控。而第二类通用AI Agent,由于RPA本身已与PC、手机等终端实现了良好的融合与适配,体验上明显优于前者。
为了让大家更直观地了解两种Agent的区别,这里制作了一个对比表格。
其实从computer use或者GUI智能体的角度来看,实在Agent脱胎于能够完美操作电脑端或手机端的成熟RPA技术,本身与电脑有着天然的契合度。
在当前智能体应用的初级阶段,这类智能体可以说是真正形成生产力的通用智能体。
0 条评论
请「登录」后评论