Agent时代，我们需要什么样的云？-品玩

云计算的发展并非简单的技术迭代，其底层逻辑始终围绕着一个核心命题：如何帮助企业持续解决其IT过程中的“偶然复杂度”（Accidental Complexity）。所谓“偶然复杂度”，是指企业为完成其核心业务目标（本质复杂度），因技术、工具或方法选择不当而额外投入的时间与成本。从最早的单体应用到后来的微服务、大数据和AI应用，每一次云的演进，都旨在接管和消除企业面临的特定偶然复杂度。

然而，当AI Agent作为一种全新的软件范式出现时，它带来的挑战与以往任何一种工作负载都截然不同。它颠覆了传统软件的确定性、简单性与按预期执行的原则，使得旧有的云基础设施难以原生支持其高效、安全的运行。

Agent Infra的出现，正是云计算对这一新型工作负载挑战的回应，其核心任务是为这种新范式提供一个全新的、原生支持的底层基础。本文通过“十问”的形式，总结腾讯云Agent Runtime产品团队的思考，以及对基础设施在Agent趋势下的演进方向。

1.云计算的演进脉络是什么，为何 Agent infra的出现是必然？

云计算的发展史，就是在企业应用架构不断演进的过程中，持续化解“偶然复杂度”的过程。单体、微服务、大数据等架构模式，本身是业务发展的必然选择，但每一次转型都会衍生出新的工程挑战。

在单体应用时代，企业要承担硬件采购、机房运维等额外负担，云计算以计算、网络、存储等基础设施即服务（IaaS）来化解。进入微服务时代，分布式架构带来了弹性伸缩与服务治理的挑战，云厂商则提供了弹性计算、容器与治理平台来应对。随着大数据兴起，企业又面临海量数据处理的复杂性，云服务演进为批处理、数据引擎等一站式大数据解决方案。

AI应用的出现则将云计算推向了高性能计算（HPC）时代，其核心挑战是GPU集群的构建与优化，云厂商通过提供高性能计算实例与分布式训练框架来应对。然而，尽管AI应用对算力提出了极致要求，其本质依然是高性能计算问题。

AI Agent的出现，则标志着一场根本性的范式转变。它不再是简单的算力或数据处理问题，而是一种全新的、与过去所有软件都不同的软件形态。这种根本性的工作负载范式变化，使得企业面临全新的“偶然复杂度”，例如Agent运行环境的安全性、不确定行为的工程化管理、以及自主运行带来的安全风险。因此，云基础设施必须从底层进行全面重构，以适应这种新型软件范式。Agent Infra的诞生，正是顺应这一必然趋势的产物。

2. 为什么说 Agent 是一种全新的软件范式？其核心特征是什么？

AI Agent被定义为一种全新的软件范式，它打破了传统软件所依赖的确定性、简单性和被动执行的原则。其革命性体现在三个核心特征上：不确定性、复杂性和自主性。

不确定性（Uncertainty）：传统的软件系统是确定性系统，即在固定输入A的情况下，其输出必然为A′ 。但AI Agent并非如此，其输出是概率性的。输入

A可能得到B，输入B可能得到C 。这种不确定性对传统依赖于确定性逻辑的软件工程提出了巨大挑战，需要全新的工程化技术来提升其可控性与确定性。

复杂性（Complexity）：传统软件系统通常是简单的，其内部组件之间的关系清晰且可追溯，如同齿轮间的传动。然而，AI Agent是一个复杂的系统，其最终结果的不确定性可能由其内部的Prompt、记忆、工具或知识库等任何一个组件所引起，而这些组件之间的影响关系往往是模糊且难以拆解的。这种内在的复杂性使得传统的调试与问题排查方法几乎失效。

自主性（Autonomy）：在传统软件世界中，“自主运行”通常是“被黑客入侵”的代名词。然而，AI Agent的本质就是自主执行，它能够自主地做出决策和执行一系列动作。这种自主性带来了前所未有的安全风险和权限管理挑战，要求在基础设施层面提供严格的隔离与防护，以确保其行为可控。

这三大特征并非孤立存在，它们相互交织，构成了AI Agent范式的核心。不确定性与复杂性是自主性的内在体现，而自主性则将前两者带来的风险具象化。例如，一个具备自主性的Agent，其不确定的行为可能会导致“自主入侵”的严重后果，这使得底层基础设施必须从根本上进行重构，以适应这种全新的安全模型。

下表直观地对比了AI Agent与传统软件范式在核心特征上的差异：

3. 面向 Agent 的基础设施需要解决哪些层面的问题？

Agent Infra的构建是一个自下而上的分层演进过程。它从解决最基础、最通用的痛点开始，逐步向上延伸至更高级、更个性化的需求。

运维层：首先，Agent的工作负载具有极高的动态性和突发性，例如一个用户发起对话，后端就需要立即启动一个沙箱来执行任务。因此，Agent Infra需要解决快速启动、即用即销毁、资源按需调配等问题，这要求底层基础设施具备Serverless的极致弹性能力。

开发层：为企业级开发者提供构建Agent所需的SDK、框架和开发工具，以简化复杂的编程和集成工作。

工具层：提供核心的工具服务，例如沙箱、网关、数据库等，这些是构建Agent不可或缺的基础组件。

安全层：处理Agent自主性带来的安全风险，例如提供权限隔离、数据劫持、恶意行为防护等机制，确保Agent的行为被严格控制在一个安全的边界内。

智能化层：最高层级的问题是解决如何提升Agent的智能水平。这包括提供评估体系、数据回放能力以及上下文和长期记忆管理等服务，以支持Agent的持续学习与优化。

这种分层架构的演进模式，与云计算从IaaS向PaaS和SaaS发展的历史轨迹异曲同工。在Agent市场发展的早期，构建层（框架、SDK）仍然高度分裂，缺乏统一标准。因此，云厂商从最底层的、最具共性的基础设施需求（运维与安全）入手，正如腾讯云最近刚刚发布的Agent Runtime解决方案。

4. 腾讯云 Agent Runtime 在整个 Agent Infra 体系中扮演了什么角色？

腾讯云 Agent Runtime 的核心定位是为企业级开发者提供一个安全、高性能、Serverless 的 Agent 运行环境。它并非一个面向最终用户的应用，而是一套解决Agent运行“偶然复杂度”的底层基础设施服务。通过提供这个基础平台，腾讯云旨在让企业开发者能够专注于业务逻辑和应用层的创新，而无需关心复杂的底层运维、安全和性能问题。

Agent Runtime 的核心价值主张可以概括为以下四个方面：

安全隔离：Agent的自主性带来了前所未有的安全隐患，Agent Runtime通过提供安全沙箱，将Agent的执行环境与外部系统进行严格隔离，确保其行为被限制在一个可控的范围内，杜绝了恶意利用和系统入侵的风险。

Serverless 弹性供给：Agent的调用是突发性的，传统模式下企业需要预先储备大量资源以应对峰值需求，造成巨大浪费。Agent Runtime则采用Serverless模式，支持秒级启动和即用即销毁，实现资源的按需调度，从而大幅降低企业的运营成本。

极致性能：Agent的执行依赖于强大的计算能力，尤其是在处理复杂任务时。Agent Runtime在底层对CPU等资源进行了深度优化，以确保Agent能够在高性能环境下流畅运行，满足企业级应用的性能要求。

生态兼容性：在Agent技术生态尚不成熟的当下，Agent Runtime旨在提供一个开放的、兼容性强的运行环境，能够无缝集成各类主流模型、工具和框架，方便开发者自由选择技术栈，降低迁移成本。

5. Agent Runtime 与低代码平台的本质区别是什么？

将 Agent Runtime 与扣子（Coze）等低代码平台进行比较，可以清晰地看到它们分处于不同的需求层级，服务于不同类型的Agent和用户群体。它们并非直接竞争，而是各自扮演着不同的角色。

低代码平台的兴起，源于其能够很好地承接当前市场对工作流式Agent的需求。这类平台的核心是面向非专业开发者，通过直观的拖拉拽方式，帮助企业将内部的确定性流程进行自动化和AI化，以实现信息化提效。

然而，这种模式的本质是“衔接性”而非“变革性”。正如专家所比喻的蒸汽机与电动机，低代码平台就像把电动机安装在蒸汽机的位置，沿用旧的传动轴模式，并未从根本上改变生产关系。它虽然降低了初始使用门槛，但其拖拉拽的模式在面对复杂、长期维护的项目时，效率远低于专业的工程化开发。随着AI编码工具（如AI IDE）的普及，全代码开发的效率大幅提升，低代码的效率优势将不再明显。

相比之下，Agent Runtime的定位是“变革性”基础设施。它面向企业级专业开发者，旨在支持自主执行的通用Agent 。其核心价值在于解决Agent范式中固有的不确定性、复杂性和自主性带来的底层技术挑战，而非简化流程的编排。

6. 什么样的 Agent 应用正在成为主流？当前市场处于什么发展阶段？

AI Agent的应用正在经历一个从简单到复杂、从固定到自主的演进历程。

阶段一：对话机器人（Chatbot）。这是最早期的Agent形态，技术相对简单，主要应用于客服和问答等场景。

阶段二：工作流Agent（Workflow Agent）。这类Agent旨在按照固定的流程解决问题，主要用于企业内部提效，例如自动化审批单处理或重复性工作。

阶段三：自主执行Agent（Autonomous Agent）。这类Agent没有预设的工作流，具备通用化能力，能够自主完成复杂任务，例如编写代码、整理文件、操作浏览器等。

访谈指出，只有当企业开始大量构建第三种自主执行的Agent时，对Agent Infra的需求才真正出现。目前，Agent市场整体尚处于早期阶段，其需求量与云大盘相比仍很小，主要集中在少数创业公司和头部大型企业。然而，几乎所有公司都在尝试构建Agent，这表明其发展是一个明确且不可逆转的趋势。

目前，最成熟的自主执行Agent落地案例，是在开发者群体中得到广泛应用的AI IDE（如AI coding）。这是因为工程师能够更好地克服Agent的不确定性，并将其作为一种提升生产力的通用工具。这种从内部业务实践到外部产品落地的循环，正在加速Agent Infra需求的验证与成熟。

7. Agent运行的成本中，“推理成本”和“云成本”真的八二开？

在大多数 Agent 应用中，确实存在这种“八二开”的情况，模型推理通常是最大的开销，占比可达 70%–80%，尤其是对接入国外模型的Agent而言，每一次调用都会带来持续性的费用。而云基础设施成本（计算、存储、网络）和运维人力成本，相对占比更小。

不过，这一比例并非固定不变。一方面，推理加速技术和推理系统优化可以有效降低 Agent 的推理开销；另一方面，当 Agent 加速进入生产环境时，为保证高可用和高性能，Agent Infra 所需的CPU资源也会增加，从而使云成本占比上升。

即便如此，云成本虽然不是“绝对大头”，优化空间仍然很大。Agent 的调用具有高度突发性和不可预测性，如果缺乏高效的弹性机制，企业往往需要预先“囤积”大量资源来应对峰值流量，造成闲置和浪费。Agent Runtime 通过 Serverless 架构，实现秒级启动、用后即销毁，使资源按需供给，从而显著降低云资源和运维成本，为企业提供更经济高效的 Agent 运行环境。

8.如何应对 Agent 的“自主性”带来的安全挑战？

Agent的自主性是其核心价值所在，但同时也是其潜在的安全隐患。一个具备自主执行能力的Agent，可能在无人监管的情况下访问外部环境、执行系统命令，甚至被恶意利用，对企业系统造成危害。这表明，Agent的安全性并非一个远期的理论问题，而是当前企业落地AI Agent所面临的最紧迫、最“痛”的挑战之一。

安全沙箱是解决这一挑战的最关键基础设施。它本质上是一个高度隔离、受限且可控的运行环境。Agent Runtime通过提供安全沙箱服务，确保Agent的每一个行为（如文件读写、网络访问、命令执行）都在严格的控制之下。一旦Agent的行为超出预设的安全边界，沙箱将立即进行拦截或终止，从而有效地防止恶意行为的发生，确保Agent的可控性和安全性。

对企业而言，自行构建一个安全、稳定的Agent沙箱需要投入巨大的精力和成本。因此，由云厂商提供专业的Agent沙箱服务，精准地解决了企业的这一“偶然复杂度”，成为Agent Infra体系中最具前瞻性和价值的核心能力之一。

9.除了安全和资源，Agent Infra 的未来还需要解决哪些更高级的问题？

未来的Agent Infra将不再仅仅局限于提供基础的资源和安全服务，其发展方向将向上延伸，专注于解决如何提升Agent的“智能化”水平。这意味着基础设施将提供一系列高阶服务，以支持Agent的开发、测试与持续迭代。

其中一个关键的高阶挑战是评估体系（Evaluation System）的构建。由于Agent行为的非确定性，如何客观地评估其性能和效果，成为一个亟待解决的难题。

为了解决这个问题，未来的Agent Infra需要提供：

数据管理与回放能力：基础设施应能将Agent历史访问过的数据（例如日志、数据库状态）进行缓存和暂存，并在后续的评测中进行数据回放，以确保测试集的可持续性。

记忆与上下文管理：Agent的长期记忆被视为其核心壁垒之一。未来的Agent Infra需要提供更高级的服务，不仅限于简单的数据库存储，还应包括记忆的自动总结、学习沉淀和上下文压缩等能力。

这些高阶服务表明，Agent Infra的未来将更像是AI开发工具链的一部分，它将深度介入Agent的整个生命周期，从根本上解决Agent在智能化提升过程中遇到的系统性难题。

10.腾讯云在 Agent Infra 领域的独特优势是什么？

腾讯云在 Agent Infra 领域的独特优势，并非源于单一的技术或产品，而在于其根植于腾讯公司内部最庞大、最多样化的业务生态。这种独特的“自研上云”和“同源同构”模式，构成了其难以复制的竞争护城河。

腾讯内部拥有从社交（微信）、游戏、文娱（视频）、到支付、云计算等业界最丰富的应用形态。目前，所有这些业务都在进行AI化转型，并催生出大量独特的Agent应用。这些海量、复杂且高标准的内部场景，成为了Agent Runtime产品最好的“磨刀石”和“试验田” 。

例如，Agent Runtime 不仅服务于外部的头部客户，还承载着包括元宝在内的内部核心业务。这种模式确保了产品在对外发布之前，已经在最严苛、最真实的生产环境中得到了充分的验证与锤炼。这种从内部场景需求出发，驱动底层技术持续创新，再将成熟的产品能力开放给外部客户的闭环反馈机制，保证了Agent Runtime在可靠性、稳定性和性能上具备领先的竞争力。

总而言之，腾讯云的优势在于其能同时服务于“AI+”（传统业务AI化）和“AI-native”（原生AI应用）两种客户，其产品经受了最广泛、最复杂场景的考验，这是一种比单纯的技术堆栈更具价值的底层驱动力。

AI Agent 的出现并非一时的风潮，而是一场深刻的软件范式革命。它的不确定性、复杂性和自主性，对传统云计算基础设施构成了前所未有的挑战。与此同时，这也为云计算开辟了新的演进方向：如何打造能够支撑 Agent 的新型基础设施，将决定云计算在下一阶段的价值与边界。