跑分超过OpenAI Atlas，Flowith 昨晚发了一个最激进的Agent

最近的 Agent 赛道，又让人兴奋起来了。

在近期Manus发布1.5、OpenAI发布ChatGPT Atlas后，昨晚，Flowith也发布了其全新的 Agent 产品「Flowith OS」，并在硅星人会客厅举办了一场线下公测活动。

活动刚结束，社群就活跃起来：有人让 OS 打开豆瓣给热门电影打分，有人则干脆让它接管了自己的小红书账号，实现了内容的全自动发布。

用户的热情不难理解——当行业还在讨论那些能写报告、编小游戏的“高级工具”时，一个能“看懂”用户屏幕、并“动手”执行任务的 Agent 终于出现了。

但更引起我们注意的，是 Flowith 给这个产品的命名：FlowithOS。

尽管目前它以一个独立的浏览器形态存在，但 Flowith 将其定位为全球首个为 Agent 原生设计的操作系统（Agentic Workspace）——不再是网页或插件，而是一个需要下载到你电脑上的独立应用。

简单来说，当你用自然语言下达一个指令后，它就能通过“代码+视觉”的方式理解你的屏幕，并自主思考和操作。它的"手"既能跨越多个网页完成点击、编辑、发送，也能通过调用终端打开你本地的软件，例如Claude code。这也意味着 AI 操控电脑将可以不只局限于云端虚拟环境，也不再是随时等待人类接管的半自动产品，而是真正由Agent进行“端到端”的自主执行。

这种设计思路，在当下的 Agent 产品中显得格外激进。

从最近的 Manus 1.5 到 GPT Atlas，一个清晰的趋势是：大家都在争相为 AI 安上“手脚”，推动它向“行动派”进化。但相比之下，FlowithOS 更彻底地把自己做成一个“给Agent使用的操作系统”。

目前看来，这种激进也带来了实际的效果。在Online-Mind2Web的跑分中，Flowith OS已经超过了Altas。

我们也第一时间测试了 FlowithOS，并和他们聊了聊，试图搞清楚：为什么在这个时间点，用这样一种方式入局？以及，OS和其他Agent、AI浏览器产品，有什么不一样？

FlowithOS 核心功能：执行、执行，还是执行

FlowithOS 想做的，是彻底让Agent接手任务的全流程，做跨平台、高自主性、可交互性的复杂工作。

它为智能体构建了一个能够持续进化的行动空间，其核心亮点包括：

一是跨越边界的任务交付： 它让 Agent 的行动不再局限于单一网页或应用。通过无限步骤的上下文理解，Agent 能够串联起完整的端到端工作流，直接替你写作、替你发布，将你的想法转化为真实成果。

二是网页理解能力：基于自研的“代码+视觉”双模态理解框架。该框架在Web Agent 测试（Mind2Web）中登顶全球榜单，跑分超过了OpenAI最新发布的ChatGPT Atlas，这也意味着OS拥有更强的思考能力、网页理解力与操作精度。

三是自主进化、自主执行： FlowithOS 不是用完即走的工具，而是一个能独立“上班”的数字员工，能够胜任高频交易监控、社媒账号运营等需要持续优化的动态任务。

当然，抛开“操作系统”和“自主进化”这些宏大概念，FlowithOS 的本质是通过自动化的降本增效。它在真实场景下的任务成功率有多高，它为用户节省的时间，是否多于花在学习、配置和补救失败任务上的时间......我们围绕这些问题展开了实测。

1. 基础交互与任务执行

打开 FlowithOS，首先是一个颇有设计感的简洁界面，中心是一个输入框。你可以在框中选择 Google 进行搜索，把它当成一个普通的浏览器来用；或者，你可以选择 Run Task，直接进入 Agent 模式。

同时，界面右下角的圆形按钮，也提供了一个快捷入口，让你随时唤醒 Agent 发布任务。

为了降低使用门槛，FlowithOS 的输入框还具备自动补全和优化 Prompt 的功能，帮助用户更清晰、更高效地发布任务指令。

一旦你提出任务，Agent 会在界面右侧实时展示它的“思考过程”——分析任务、拆解步骤、执行动作。同时，它会在左侧的标签页（Tab）中自己打开新的页面，进行跨页面的搜索、信息整合与操作。

在OS执行的过程中，你可以随时点击Pause或双击页面暂停、进行接管，也可以随时以对话的形式，输入新的prompt调整AI接下来的进程。

理论说再多，不如直接上场景。

上周，Flowith 市场负责人拐子就在内测中尝试了让 OS 接管自己的小红书账号，自主创作并发布了一个帖子“Ask anything”，同时把回复评论的权限也完全交给了 Agent。

尽管这个 Agent 时而会冒出一些略显“中二”的赛博人机回复，但时而又会有让人眼前一亮的评论。最经典的莫过于下面这条，当有人问及“能不能突然给我打两千块”，Agent 在评论区直接 @了CEO Derek，申请开通转账权限，显然是“学习”到了人类世界的组织架构。

我们也用一个真实任务测试了它的能力。背景是，我们在杭州举办了一场小型的 IROS 会后派对，需要邀请小红书上对此感兴趣的IROS参会用户。这是一个非常繁琐、重复性极高的任务，完美契合了 AI 批量执行的场景。

结果是，当我将自己的账号Earth权限交给了OS后，它做到了......一部分。

在这个过程中，我们尝试了两版 Prompt：

• 简单版 Prompt：

你是硅星人的 AI助手，在小红书上面搜索2025 IROS相关帖子，按时间线确保是今年的，并评论帖子，邀请他来参加我们在23号组织的After party，可以看硅星人pro主页了解活动详情，语气活泼有趣一点。

因为只给出了模糊指令。在执行过程中，OS 的成功率大约在 30% 左右。它偶尔会“神游”，比如刷着帖子摸鱼；偶尔会“犯迷糊”，打开了帖子但找不到评论按钮；有时输入了文本却没有点击发布，就自己判定任务成功了。

不过，因为并非云电脑虚拟环节，用户也可以参与AI协作，比如，在AI找不到输入框的时候，我们滑动鼠标点开输入框，让AI学习这一路径。

• 详细版 Prompt (由 Claude + 人工优化)： 提供了非常清晰的步骤和规则。这次，OS 的成功率飙升至接近 100%。由于它的评论速度实在太快，而我们的派对席位有限，我不得不火速终止了它“狂热”。

[背景] 你是我的AI助手，你的任务是在小红书平台上推广一场即将举行的活动。

[目标]

平台: 小红书

活动: 23号的IROS After Party

目标用户: (A) 发布了关于“2025 IROS”帖子的博主 (B) 每一个回复了这些帖子的用户。

[核心文案格式] "你好，我是硅星人PRO的AI助手，我们在23号包场组织了一个After party，有兴趣参加吗，可以看硅星人PRO的小红书主页了解活动详情[具体邀请可修改，模拟一个真诚有梗的人，而不是一个冰冷的机器]。"

[执行流程 (自动化循环)]

1、登录: 登录小红书账号。

2、搜索:使用搜索关键词列表: ["2025 IROS", "IROS 杭州", "IROS 2025 杭州", "智能机器人大会杭州"]。

3、筛选搜索结果：按“最新发布”排序，确保帖子是近期的。

遍历帖子 (循环):

对于搜索结果中的每一个相关帖子，执行以下操作：

4、操作A：评论博主 (OP)

打开该帖子。

定位到主评论输入框。

输入 [文案]。

点击“发送”。

5、操作B：评论所有回复者

在当前帖子下，打开评论区，并确保加载所有评论和回复（可能需要模拟“点击查看更多回复”）。

遍历（For-Each Loop）评论区中的每一条评论（无论是一级评论还是二级回复）：

If 该条评论的作者不是你自己：

点击该条评论的“回复”按钮。

在@对方的输入框中，输入 [文案]，文案按照格式，可调整。

点击“发送”。

完成所有回复的遍历后，返回搜索结果列表，打开下一个帖子，重复步骤4。

这个任务场景具有极强的迁移性。任何需要批量联系他人、进行重复性网页操作的场景，理论上都可以交给 OS 来完成。

但现阶段，你仍然要以足够的耐心盯着OS不要拿你的账号肆意妄为，并忍受长时间的、有失败概率的任务过程。

除了这些严肃的工作，Flowith 还与我们分享了一个极具娱乐性的案例：让 OS 帮你打德州扑克，而且还赢钱了。

这年头，一个好的 Agent 真的可以自己出去赚钱养家了。目前这个 Prompt 已经被收录在 OS 的官方示范案例中，用户可以直接点击运行。只是我们很好奇，如果你的 OS 在牌桌上遇到了别人的 OS，到底谁能笑到最后？

当然，除了娱乐和批量任务，由于Flowith 主站原本就擅长的深度研究领域，在沿用了 Neo 技术架构+ 真实的执行环境后，OS也能够阅读更多的内容、更好地理解图文信息、进行跨页面浏览，从而给出更详尽的报告了。

2. Skills：沉淀可复用的“肌肉记忆”

除了基础的产品逻辑，OS 还上线了一个关键功能：Skills。这与 Claude 有相似之处，更侧重于执行路径的沉淀。

当一个 Agent 第一次成功完成某个复杂任务时，比如“在小红书上筛选特定风格的商品并加入购物车”，它可以将这个任务的最优执行路径记录下来，形成一个可复用的“Skill”。由此，下次当你或其他人需要执行类似任务时，Agent 就可以直接调用这个已经验证过的“肌肉记忆”。

更进一步，FlowithOS 团队会将用户高频使用、反馈良好的任务流程，通过训练固化为标准的 Skills，让所有用户的 Agent 在未来执行该任务时都具备极高的成功率。

在目前的 Skill 库中，OS已经可以打开你的 Claude Code 页面来编写代码，也可以打开你的terminal进行操作了。同时，你也可以将自己调整好的 Skill 上传，未来或可进行社区化的分享和传播。

3. Memory 和 Knowledge Base：让 Agent 更懂你

除了 Skills，Memory（记忆）系统和 Knowledge Base（知识库）是让 Agent 变得“专属”的另外两大支柱。

Memory 系统会记住你访问过的网页、执行过的任务以及个人偏好。这与传统浏览器的历史记录似是而非，其记录的颗粒度要精细得多。这为 Agent 提供了丰富的个性化上下文，使其决策和行动都更贴近你的习惯。

而 Knowledge Base 则从 Flowith 主站延伸而来，允许你上传文档、链接等资料，构建属于自己的知识库。Agent 在执行任务时，会优先从这个知识库中寻找答案和背景信息，让它更懂你的工作领域和特定需求。

还记得上文提到的 OS 接管“拐子”小红书账号的案例吗？Agent 之所以知道要 @Dereck 来申请权限，正是因为它从知识库中知道了谁是负责人。

总而言之，在多次实测中，我们发现 FlowithOS 对不同类型网页的适配程度存在一定差异。在 Twitter、小红书、微博等结构相对标准化的社交媒体平台上，它能相对准确地识别帖子内容、理解评论语境、甚至把握平台的“网感”来生成合适的回复。

然而，在淘宝、京东这类电商网站上，面对多重下拉菜单、动态加载的商品列表以及复杂的促销弹窗时，它偶尔会出现定位不准或操作失败的情况，对商品进行比价、对图文商品链接进行整理，表现还不足。

Flowith 对此解释道，“我们在此处对 Agent 使用了periodic online reinforcement learning，随着用户更多使用，整个 OS 会变得更加聪明。”

“产品目前仍处于公测阶段，所有功能均免费开放，公测期间的核心目标是收集用户在真实场景下的反馈和 Agent 的表现数据。这些宝贵的数据，将直接用于后续的Agent迭代和功能优化。”

FlowithOS是一个Browser Agent，更是一个给Agent使用的操作系统

从实测结果来看，FlowithOS 在产品形态和底层逻辑上，与市面上其他主流的Agent产品截然不同。要理解它的独特性，我们必须先明确它与另外两个代表性产品 Manus 1.5 和 Atlas 的区别。

相比之下，更侧重于编程能力的Manus 1.5 ，核心思路更像是在产品内部构建一个闭环的、强大的能力集。例如，它强调通过“内置”工具（tool）和配套架构，让用户可以直接在产品内“一句话构建应用”，将完成复杂任务所需的核心能力集成到自身。

而Atlas 首先是一个浏览器，Agent 在其中是一个核心但可选的“模式”，与常规浏览功能并存，它的重点在于从用户使用场景切入，为用户提供一个更完整的生态链路，为 Agent 提供一个更便捷的运行载体。

而FlowithOS 将自己定义为操作系统，其浏览器界面仅仅是这个系统为 Agent 提供的“图形界面”。与 Manus 的“内置集成”思路相反，FlowithOS 的核心是调度和编排外部生态的能力。

例如，在处理编程任务时，它并非自己构建一套编程工具，而是通过调用 Claude Code 等外部功能和生态来实现。

当我们把 FlowithOS 放置在更宏观的 AI 产品图景中进行审视时，会发现它所做的事情既有差异又有共识。

共识在于，无论是 OpenAI 的 Atlas、Manus 的 1.5，还是各类 AI 编程助手，都在不约而同地从“理解和生成”向“执行和自主”进化。AI 不再满足于作为一个知识问答或内容创作的工具，它必须进入人类的工作流，直接操作应用、完成任务，才能释放下一阶段的生产力价值。浏览器，作为连接人与互联网服务的最主要入口，自然成为了这场进化的核心战场。

其差异则在于，它可能是目前市面上第一个明确将自己定义为“Agent 操作系统”，而这决定了产品的进化路径。FlowithOS的功能、交互设计，都是从“Agent 如何更好地执行”这个第一性原理出发，而非“人类如何更方便地使用”。

正如拐子所说：“用户是否使用我们的 OS 作为浏览器其实无所谓，因为这个浏览器实际上是给 Agent 做操作系统用的，我们更希望用户打开 OS 是让 Agent 可以有更高权限的环境自主工作。”