云计算的发展并非简单的技术迭代,其底层逻辑始终围绕着一个核心命题:如何帮助企业持续解决其IT过程中的“偶然复杂度”(Accidental Complexity) 。所谓“偶然复杂度”,是指企业为完成其核心业务目标(本质复杂度),因技术、工具或方法选择不当而额外投入的时间与成本 。从最早的单体应用到后来的微服务、大数据和AI应用,每一次云的演进,都旨在接管和消除企业面临的特定偶然复杂度。
然而,当AI Agent作为一种全新的软件范式出现时,它带来的挑战与以往任何一种工作负载都截然不同 。它颠覆了传统软件的确定性、简单性与按预期执行的原则,使得旧有的云基础设施难以原生支持其高效、安全的运行 。
Agent Infra的出现,正是云计算对这一新型工作负载挑战的回应,其核心任务是为这种新范式提供一个全新的、原生支持的底层基础。本文通过“十问”的形式,总结腾讯云Agent Runtime产品团队的思考,以及对基础设施在Agent趋势下的演进方向。
1.云计算的演进脉络是什么,为何 Agent infra的出现是必然?
云计算的发展史,就是在企业应用架构不断演进的过程中,持续化解“偶然复杂度”的过程。单体、微服务、大数据等架构模式,本身是业务发展的必然选择,但每一次转型都会衍生出新的工程挑战。
在单体应用时代,企业要承担硬件采购、机房运维等额外负担,云计算以计算、网络、存储等基础设施即服务(IaaS)来化解。进入微服务时代,分布式架构带来了弹性伸缩与服务治理的挑战,云厂商则提供了弹性计算、容器与治理平台来应对。随着大数据兴起,企业又面临海量数据处理的复杂性,云服务演进为批处理、数据引擎等一站式大数据解决方案。
AI应用的出现则将云计算推向了高性能计算(HPC)时代,其核心挑战是GPU集群的构建与优化,云厂商通过提供高性能计算实例与分布式训练框架来应对 。然而,尽管AI应用对算力提出了极致要求,其本质依然是高性能计算问题 。
AI Agent的出现,则标志着一场根本性的范式转变 。它不再是简单的算力或数据处理问题,而是一种全新的、与过去所有软件都不同的软件形态 。这种根本性的工作负载范式变化,使得企业面临全新的“偶然复杂度”,例如Agent运行环境的安全性、不确定行为的工程化管理、以及自主运行带来的安全风险 。因此,云基础设施必须从底层进行全面重构,以适应这种新型软件范式。Agent Infra的诞生,正是顺应这一必然趋势的产物 。
2. 为什么说 Agent 是一种全新的软件范式?其核心特征是什么?
AI Agent被定义为一种全新的软件范式,它打破了传统软件所依赖的确定性、简单性和被动执行的原则 。其革命性体现在三个核心特征上:不确定性、复杂性和自主性 。
不确定性(Uncertainty):传统的软件系统是确定性系统,即在固定输入A的情况下,其输出必然为A′ 。但AI Agent并非如此,其输出是概率性的。输入
A可能得到B,输入B可能得到C 。这种不确定性对传统依赖于确定性逻辑的软件工程提出了巨大挑战,需要全新的工程化技术来提升其可控性与确定性 。
复杂性(Complexity):传统软件系统通常是简单的,其内部组件之间的关系清晰且可追溯,如同齿轮间的传动 。然而,AI Agent是一个复杂的系统,其最终结果的不确定性可能由其内部的Prompt、记忆、工具或知识库等任何一个组件所引起,而这些组件之间的影响关系往往是模糊且难以拆解的 。这种内在的复杂性使得传统的调试与问题排查方法几乎失效 。
自主性(Autonomy):在传统软件世界中,“自主运行”通常是“被黑客入侵”的代名词 。然而,AI Agent的本质就是自主执行,它能够自主地做出决策和执行一系列动作 。这种自主性带来了前所未有的安全风险和权限管理挑战,要求在基础设施层面提供严格的隔离与防护,以确保其行为可控 。
这三大特征并非孤立存在,它们相互交织,构成了AI Agent范式的核心。不确定性与复杂性是自主性的内在体现,而自主性则将前两者带来的风险具象化。例如,一个具备自主性的Agent,其不确定的行为可能会导致“自主入侵”的严重后果,这使得底层基础设施必须从根本上进行重构,以适应这种全新的安全模型。
下表直观地对比了AI Agent与传统软件范式在核心特征上的差异:
3. 面向 Agent 的基础设施需要解决哪些层面的问题?
Agent Infra的构建是一个自下而上的分层演进过程 。它从解决最基础、最通用的痛点开始,逐步向上延伸至更高级、更个性化的需求。
运维层:首先,Agent的工作负载具有极高的动态性和突发性,例如一个用户发起对话,后端就需要立即启动一个沙箱来执行任务 。因此,Agent Infra需要解决快速启动、即用即销毁、资源按需调配等问题,这要求底层基础设施具备Serverless的极致弹性能力 。
开发层:为企业级开发者提供构建Agent所需的SDK、框架和开发工具,以简化复杂的编程和集成工作 。
工具层:提供核心的工具服务,例如沙箱、网关、数据库等,这些是构建Agent不可或缺的基础组件 。
安全层:处理Agent自主性带来的安全风险,例如提供权限隔离、数据劫持、恶意行为防护等机制,确保Agent的行为被严格控制在一个安全的边界内 。
智能化层:最高层级的问题是解决如何提升Agent的智能水平 。这包括提供评估体系、数据回放能力以及上下文和长期记忆管理等服务,以支持Agent的持续学习与优化 。
这种分层架构的演进模式,与云计算从IaaS向PaaS和SaaS发展的历史轨迹异曲同工。在Agent市场发展的早期,构建层(框架、SDK)仍然高度分裂,缺乏统一标准 。因此,云厂商从最底层的、最具共性的基础设施需求(运维与安全)入手,正如腾讯云最近刚刚发布的Agent Runtime解决方案。
4. 腾讯云 Agent Runtime 在整个 Agent Infra 体系中扮演了什么角色?
腾讯云 Agent Runtime 的核心定位是为企业级开发者提供一个安全、高性能、Serverless 的 Agent 运行环境 。它并非一个面向最终用户的应用,而是一套解决Agent运行“偶然复杂度”的底层基础设施服务 。通过提供这个基础平台,腾讯云旨在让企业开发者能够专注于业务逻辑和应用层的创新,而无需关心复杂的底层运维、安全和性能问题。
Agent Runtime 的核心价值主张可以概括为以下四个方面:
安全隔离:Agent的自主性带来了前所未有的安全隐患,Agent Runtime通过提供安全沙箱,将Agent的执行环境与外部系统进行严格隔离,确保其行为被限制在一个可控的范围内,杜绝了恶意利用和系统入侵的风险 。
Serverless 弹性供给:Agent的调用是突发性的,传统模式下企业需要预先储备大量资源以应对峰值需求,造成巨大浪费 。Agent Runtime则采用Serverless模式,支持秒级启动和即用即销毁,实现资源的按需调度,从而大幅降低企业的运营成本 。
极致性能:Agent的执行依赖于强大的计算能力,尤其是在处理复杂任务时 。Agent Runtime在底层对CPU等资源进行了深度优化,以确保Agent能够在高性能环境下流畅运行,满足企业级应用的性能要求 。
生态兼容性:在Agent技术生态尚不成熟的当下,Agent Runtime旨在提供一个开放的、兼容性强的运行环境,能够无缝集成各类主流模型、工具和框架,方便开发者自由选择技术栈,降低迁移成本 。
5. Agent Runtime 与低代码平台的本质区别是什么?
将 Agent Runtime 与扣子(Coze)等低代码平台进行比较,可以清晰地看到它们分处于不同的需求层级,服务于不同类型的Agent和用户群体。它们并非直接竞争,而是各自扮演着不同的角色 。
低代码平台的兴起,源于其能够很好地承接当前市场对工作流式Agent的需求 。这类平台的核心是面向非专业开发者,通过直观的拖拉拽方式,帮助企业将内部的确定性流程进行自动化和AI化,以实现信息化提效 。
然而,这种模式的本质是“衔接性”而非“变革性”。正如专家所比喻的蒸汽机与电动机,低代码平台就像把电动机安装在蒸汽机的位置,沿用旧的传动轴模式,并未从根本上改变生产关系 。它虽然降低了初始使用门槛,但其拖拉拽的模式在面对复杂、长期维护的项目时,效率远低于专业的工程化开发 。随着AI编码工具(如AI IDE)的普及,全代码开发的效率大幅提升,低代码的效率优势将不再明显 。
相比之下,Agent Runtime的定位是“变革性”基础设施 。它面向企业级专业开发者,旨在支持自主执行的通用Agent 。其核心价值在于解决Agent范式中固有的不确定性、复杂性和自主性带来的底层技术挑战,而非简化流程的编排 。
6. 什么样的 Agent 应用正在成为主流?当前市场处于什么发展阶段?
AI Agent的应用正在经历一个从简单到复杂、从固定到自主的演进历程 。
阶段一:对话机器人(Chatbot)。这是最早期的Agent形态,技术相对简单,主要应用于客服和问答等场景 。
阶段二:工作流Agent(Workflow Agent)。这类Agent旨在按照固定的流程解决问题,主要用于企业内部提效,例如自动化审批单处理或重复性工作 。
阶段三:自主执行Agent(Autonomous Agent)。这类Agent没有预设的工作流,具备通用化能力,能够自主完成复杂任务,例如编写代码、整理文件、操作浏览器等 。
访谈指出,只有当企业开始大量构建第三种自主执行的Agent时,对Agent Infra的需求才真正出现 。目前,Agent市场整体尚处于早期阶段,其需求量与云大盘相比仍很小,主要集中在少数创业公司和头部大型企业 。然而,几乎所有公司都在尝试构建Agent,这表明其发展是一个明确且不可逆转的趋势 。
目前,最成熟的自主执行Agent落地案例,是在开发者群体中得到广泛应用的AI IDE(如AI coding) 。这是因为工程师能够更好地克服Agent的不确定性,并将其作为一种提升生产力的通用工具 。这种从内部业务实践到外部产品落地的循环,正在加速Agent Infra需求的验证与成熟。
7. Agent运行的成本中,“推理成本”和“云成本”真的八二开?
在大多数 Agent 应用中,确实存在这种“八二开”的情况,模型推理通常是最大的开销,占比可达 70%–80%,尤其是对接入国外模型的Agent而言,每一次调用都会带来持续性的费用。而云基础设施成本(计算、存储、网络)和运维人力成本,相对占比更小。
不过,这一比例并非固定不变。一方面,推理加速技术和推理系统优化可以有效降低 Agent 的推理开销;另一方面,当 Agent 加速进入生产环境时,为保证高可用和高性能,Agent Infra 所需的CPU资源也会增加,从而使云成本占比上升。
即便如此,云成本虽然不是“绝对大头”,优化空间仍然很大。Agent 的调用具有高度突发性和不可预测性,如果缺乏高效的弹性机制,企业往往需要预先“囤积”大量资源来应对峰值流量,造成闲置和浪费。Agent Runtime 通过 Serverless 架构,实现秒级启动、用后即销毁,使资源按需供给,从而显著降低云资源和运维成本,为企业提供更经济高效的 Agent 运行环境。
8.如何应对 Agent 的“自主性”带来的安全挑战?
Agent的自主性是其核心价值所在,但同时也是其潜在的安全隐患 。一个具备自主执行能力的Agent,可能在无人监管的情况下访问外部环境、执行系统命令,甚至被恶意利用,对企业系统造成危害 。这表明,Agent的安全性并非一个远期的理论问题,而是当前企业落地AI Agent所面临的最紧迫、最“痛”的挑战之一 。
安全沙箱是解决这一挑战的最关键基础设施 。它本质上是一个高度隔离、受限且可控的运行环境。Agent Runtime通过提供安全沙箱服务,确保Agent的每一个行为(如文件读写、网络访问、命令执行)都在严格的控制之下 。一旦Agent的行为超出预设的安全边界,沙箱将立即进行拦截或终止,从而有效地防止恶意行为的发生,确保Agent的可控性和安全性 。
对企业而言,自行构建一个安全、稳定的Agent沙箱需要投入巨大的精力和成本。因此,由云厂商提供专业的Agent沙箱服务,精准地解决了企业的这一“偶然复杂度”,成为Agent Infra体系中最具前瞻性和价值的核心能力之一。
9.除了安全和资源,Agent Infra 的未来还需要解决哪些更高级的问题?
未来的Agent Infra将不再仅仅局限于提供基础的资源和安全服务,其发展方向将向上延伸,专注于解决如何提升Agent的“智能化”水平 。这意味着基础设施将提供一系列高阶服务,以支持Agent的开发、测试与持续迭代。
其中一个关键的高阶挑战是评估体系(Evaluation System)的构建 。由于Agent行为的非确定性,如何客观地评估其性能和效果,成为一个亟待解决的难题 。
为了解决这个问题,未来的Agent Infra需要提供:
数据管理与回放能力:基础设施应能将Agent历史访问过的数据(例如日志、数据库状态)进行缓存和暂存,并在后续的评测中进行数据回放,以确保测试集的可持续性 。
记忆与上下文管理:Agent的长期记忆被视为其核心壁垒之一 。未来的Agent Infra需要提供更高级的服务,不仅限于简单的数据库存储,还应包括记忆的自动总结、学习沉淀和上下文压缩等能力 。
这些高阶服务表明,Agent Infra的未来将更像是AI开发工具链的一部分,它将深度介入Agent的整个生命周期,从根本上解决Agent在智能化提升过程中遇到的系统性难题 。
10.腾讯云在 Agent Infra 领域的独特优势是什么?
腾讯云在 Agent Infra 领域的独特优势,并非源于单一的技术或产品,而在于其根植于腾讯公司内部最庞大、最多样化的业务生态 。这种独特的“自研上云”和“同源同构”模式,构成了其难以复制的竞争护城河 。
腾讯内部拥有从社交(微信)、游戏、文娱(视频)、到支付、云计算等业界最丰富的应用形态 。目前,所有这些业务都在进行AI化转型,并催生出大量独特的Agent应用。这些海量、复杂且高标准的内部场景,成为了Agent Runtime产品最好的“磨刀石”和“试验田” 。
例如,Agent Runtime 不仅服务于外部的头部客户,还承载着包括元宝在内的内部核心业务 。这种模式确保了产品在对外发布之前,已经在最严苛、最真实的生产环境中得到了充分的验证与锤炼 。这种从内部场景需求出发,驱动底层技术持续创新,再将成熟的产品能力开放给外部客户的闭环反馈机制,保证了Agent Runtime在可靠性、稳定性和性能上具备领先的竞争力。
总而言之,腾讯云的优势在于其能同时服务于“AI+”(传统业务AI化)和“AI-native”(原生AI应用)两种客户,其产品经受了最广泛、最复杂场景的考验,这是一种比单纯的技术堆栈更具价值的底层驱动力 。
AI Agent 的出现并非一时的风潮,而是一场深刻的软件范式革命。它的不确定性、复杂性和自主性,对传统云计算基础设施构成了前所未有的挑战。与此同时,这也为云计算开辟了新的演进方向:如何打造能够支撑 Agent 的新型基础设施,将决定云计算在下一阶段的价值与边界。
0 条评论
请「登录」后评论