最近的 Agent 赛道,又让人兴奋起来了。
在近期Manus发布1.5、OpenAI发布ChatGPT Atlas后,昨晚,Flowith也发布了其全新的 Agent 产品「Flowith OS」,并在硅星人会客厅举办了一场线下公测活动。

活动刚结束,社群就活跃起来:有人让 OS 打开豆瓣给热门电影打分,有人则干脆让它接管了自己的小红书账号,实现了内容的全自动发布。

用户的热情不难理解——当行业还在讨论那些能写报告、编小游戏的“高级工具”时,一个能“看懂”用户屏幕、并“动手”执行任务的 Agent 终于出现了。
但更引起我们注意的,是 Flowith 给这个产品的命名:FlowithOS。
尽管目前它以一个独立的浏览器形态存在,但 Flowith 将其定位为全球首个为 Agent 原生设计的操作系统(Agentic Workspace)——不再是网页或插件,而是一个需要下载到你电脑上的独立应用。
简单来说,当你用自然语言下达一个指令后,它就能通过“代码+视觉”的方式理解你的屏幕,并自主思考和操作。它的"手"既能跨越多个网页完成点击、编辑、发送,也能通过调用终端打开你本地的软件,例如Claude code。这也意味着 AI 操控电脑将可以不只局限于云端虚拟环境,也不再是随时等待人类接管的半自动产品,而是真正由Agent进行“端到端”的自主执行。
这种设计思路,在当下的 Agent 产品中显得格外激进。
从最近的 Manus 1.5 到 GPT Atlas,一个清晰的趋势是:大家都在争相为 AI 安上“手脚”,推动它向“行动派”进化。但相比之下,FlowithOS 更彻底地把自己做成一个“给Agent使用的操作系统”。
目前看来,这种激进也带来了实际的效果。在Online-Mind2Web的跑分中,Flowith OS已经超过了Altas。

我们也第一时间测试了 FlowithOS,并和他们聊了聊,试图搞清楚:为什么在这个时间点,用这样一种方式入局?以及,OS和其他Agent、AI浏览器产品,有什么不一样?
FlowithOS 核心功能:执行、执行,还是执行
FlowithOS 想做的,是彻底让Agent接手任务的全流程,做跨平台、高自主性、可交互性的复杂工作。
它为智能体构建了一个能够持续进化的行动空间,其核心亮点包括:
一是跨越边界的任务交付: 它让 Agent 的行动不再局限于单一网页或应用。通过无限步骤的上下文理解,Agent 能够串联起完整的端到端工作流,直接替你写作、替你发布,将你的想法转化为真实成果。
二是网页理解能力:基于自研的“代码+视觉”双模态理解框架。该框架在Web Agent 测试(Mind2Web)中登顶全球榜单,跑分超过了OpenAI最新发布的ChatGPT Atlas,这也意味着OS拥有更强的思考能力、网页理解力与操作精度。
三是自主进化、自主执行: FlowithOS 不是用完即走的工具,而是一个能独立“上班”的数字员工,能够胜任高频交易监控、社媒账号运营等需要持续优化的动态任务。
当然,抛开“操作系统”和“自主进化”这些宏大概念,FlowithOS 的本质是通过自动化的降本增效。它在真实场景下的任务成功率有多高,它为用户节省的时间,是否多于花在学习、配置和补救失败任务上的时间......我们围绕这些问题展开了实测。
1. 基础交互与任务执行
打开 FlowithOS,首先是一个颇有设计感的简洁界面,中心是一个输入框。你可以在框中选择 Google 进行搜索,把它当成一个普通的浏览器来用;或者,你可以选择 Run Task,直接进入 Agent 模式。
同时,界面右下角的圆形按钮,也提供了一个快捷入口,让你随时唤醒 Agent 发布任务。

为了降低使用门槛,FlowithOS 的输入框还具备自动补全和优化 Prompt 的功能,帮助用户更清晰、更高效地发布任务指令。

一旦你提出任务,Agent 会在界面右侧实时展示它的“思考过程”——分析任务、拆解步骤、执行动作。同时,它会在左侧的标签页(Tab)中自己打开新的页面,进行跨页面的搜索、信息整合与操作。
在OS执行的过程中,你可以随时点击Pause或双击页面暂停、进行接管,也可以随时以对话的形式,输入新的prompt调整AI接下来的进程。
理论说再多,不如直接上场景。
上周,Flowith 市场负责人拐子就在内测中尝试了让 OS 接管自己的小红书账号,自主创作并发布了一个帖子“Ask anything”,同时把回复评论的权限也完全交给了 Agent。

尽管这个 Agent 时而会冒出一些略显“中二”的赛博人机回复,但时而又会有让人眼前一亮的评论。最经典的莫过于下面这条,当有人问及“能不能突然给我打两千块”,Agent 在评论区直接 @了CEO Derek,申请开通转账权限,显然是“学习”到了人类世界的组织架构。
我们也用一个真实任务测试了它的能力。背景是,我们在杭州举办了一场小型的 IROS 会后派对,需要邀请小红书上对此感兴趣的IROS参会用户。这是一个非常繁琐、重复性极高的任务,完美契合了 AI 批量执行的场景。
结果是,当我将自己的账号Earth权限交给了OS后,它做到了......一部分。

在这个过程中,我们尝试了两版 Prompt:
• 简单版 Prompt:
你是 硅星人 的 AI助手,在小红书上面搜索2025 IROS相关帖子,按时间线确保是今年的,并评论帖子,邀请他来参加我们在23号组织的After party,可以看硅星人pro主页了解活动详情,语气活泼有趣一点。
因为只给出了模糊指令。在执行过程中,OS 的成功率大约在 30% 左右。它偶尔会“神游”,比如刷着帖子摸鱼;偶尔会“犯迷糊”,打开了帖子但找不到评论按钮;有时输入了文本却没有点击发布,就自己判定任务成功了。
不过,因为并非云电脑虚拟环节,用户也可以参与AI协作,比如,在AI找不到输入框的时候,我们滑动鼠标点开输入框,让AI学习这一路径。
• 详细版 Prompt (由 Claude + 人工优化): 提供了非常清晰的步骤和规则。这次,OS 的成功率飙升至接近 100%。由于它的评论速度实在太快,而我们的派对席位有限,我不得不火速终止了它“狂热”。
[背景] 你是我的AI助手,你的任务是在小红书平台上推广一场即将举行的活动。
[目标]
平台: 小红书
活动: 23号的IROS After Party
目标用户: (A) 发布了关于“2025 IROS”帖子的博主 (B) 每一个回复了这些帖子的用户。
[核心文案格式] "你好,我是硅星人PRO的AI助手,我们在23号包场组织了一个After party,有兴趣参加吗,可以看硅星人PRO的小红书主页了解活动详情[具体邀请可修改,模拟一个真诚有梗的人,而不是一个冰冷的机器]。"
[执行流程 (自动化循环)]
1、登录: 登录小红书账号。
2、搜索:使用搜索关键词列表: ["2025 IROS", "IROS 杭州", "IROS 2025 杭州", "智能机器人大会 杭州"]。
3、筛选搜索结果:按“最新发布”排序,确保帖子是近期的。
遍历帖子 (循环):
对于搜索结果中的每一个相关帖子,执行以下操作:
4、操作A:评论博主 (OP)
打开该帖子。
定位到主评论输入框。
输入 [文案]。
点击“发送”。
5、操作B:评论所有回复者
在当前帖子下,打开评论区,并确保加载所有评论和回复(可能需要模拟“点击查看更多回复”)。
遍历(For-Each Loop)评论区中的每一条评论(无论是一级评论还是二级回复):
If 该条评论的作者 不是 你自己:
点击该条评论的“回复”按钮。
在@对方的输入框中,输入 [文案],文案按照格式,可调整。
点击“发送”。
完成所有回复的遍历后,返回搜索结果列表,打开下一个帖子,重复步骤4。
这个任务场景具有极强的迁移性。任何需要批量联系他人、进行重复性网页操作的场景,理论上都可以交给 OS 来完成。
但现阶段,你仍然要以足够的耐心盯着OS不要拿你的账号肆意妄为,并忍受长时间的、有失败概率的任务过程。
除了这些严肃的工作,Flowith 还与我们分享了一个极具娱乐性的案例:让 OS 帮你打德州扑克,而且还赢钱了。
这年头,一个好的 Agent 真的可以自己出去赚钱养家了。目前这个 Prompt 已经被收录在 OS 的官方示范案例中,用户可以直接点击运行。只是我们很好奇,如果你的 OS 在牌桌上遇到了别人的 OS,到底谁能笑到最后?

当然,除了娱乐和批量任务,由于Flowith 主站原本就擅长的深度研究领域,在沿用了 Neo 技术架构+ 真实的执行环境后,OS也能够阅读更多的内容、更好地理解图文信息、进行跨页面浏览,从而给出更详尽的报告了。
2. Skills:沉淀可复用的“肌肉记忆”
除了基础的产品逻辑,OS 还上线了一个关键功能:Skills。这与 Claude 有相似之处,更侧重于执行路径的沉淀。

当一个 Agent 第一次成功完成某个复杂任务时,比如“在小红书上筛选特定风格的商品并加入购物车”,它可以将这个任务的最优执行路径记录下来,形成一个可复用的“Skill”。由此,下次当你或其他人需要执行类似任务时,Agent 就可以直接调用这个已经验证过的“肌肉记忆”。
更进一步,FlowithOS 团队会将用户高频使用、反馈良好的任务流程,通过训练固化为标准的 Skills,让所有用户的 Agent 在未来执行该任务时都具备极高的成功率。
在目前的 Skill 库中,OS已经可以打开你的 Claude Code 页面来编写代码,也可以打开你的terminal进行操作了。同时,你也可以将自己调整好的 Skill 上传,未来或可进行社区化的分享和传播。
3. Memory 和 Knowledge Base:让 Agent 更懂你
除了 Skills,Memory(记忆)系统和 Knowledge Base(知识库)是让 Agent 变得“专属”的另外两大支柱。
Memory 系统会记住你访问过的网页、执行过的任务以及个人偏好。这与传统浏览器的历史记录似是而非,其记录的颗粒度要精细得多。这为 Agent 提供了丰富的个性化上下文,使其决策和行动都更贴近你的习惯。
而 Knowledge Base 则从 Flowith 主站延伸而来,允许你上传文档、链接等资料,构建属于自己的知识库。Agent 在执行任务时,会优先从这个知识库中寻找答案和背景信息,让它更懂你的工作领域和特定需求。
还记得上文提到的 OS 接管“拐子”小红书账号的案例吗?Agent 之所以知道要 @Dereck 来申请权限,正是因为它从知识库中知道了谁是负责人。
总而言之,在多次实测中,我们发现 FlowithOS 对不同类型网页的适配程度存在一定差异。在 Twitter、小红书、微博等结构相对标准化的社交媒体平台上,它能相对准确地识别帖子内容、理解评论语境、甚至把握平台的“网感”来生成合适的回复。
然而,在淘宝、京东这类电商网站上,面对多重下拉菜单、动态加载的商品列表以及复杂的促销弹窗时,它偶尔会出现定位不准或操作失败的情况,对商品进行比价、对图文商品链接进行整理,表现还不足。
Flowith 对此解释道,“我们在此处对 Agent 使用了periodic online reinforcement learning,随着用户更多使用,整个 OS 会变得更加聪明。”
“产品目前仍处于公测阶段,所有功能均免费开放,公测期间的核心目标是收集用户在真实场景下的反馈和 Agent 的表现数据。这些宝贵的数据,将直接用于后续的Agent迭代和功能优化。”
FlowithOS是一个Browser Agent,更是一个给Agent使用的操作系统
从实测结果来看,FlowithOS 在产品形态和底层逻辑上,与市面上其他主流的Agent产品截然不同。要理解它的独特性,我们必须先明确它与另外两个代表性产品 Manus 1.5 和 Atlas 的区别。
相比之下,更侧重于编程能力的Manus 1.5 ,核心思路更像是在产品内部构建一个闭环的、强大的能力集。例如,它强调通过“内置”工具(tool)和配套架构,让用户可以直接在产品内“一句话构建应用”,将完成复杂任务所需的核心能力集成到自身。
而Atlas 首先是一个浏览器,Agent 在其中是一个核心但可选的“模式”,与常规浏览功能并存,它的重点在于从用户使用场景切入,为用户提供一个更完整的生态链路,为 Agent 提供一个更便捷的运行载体。
而FlowithOS 将自己定义为操作系统,其浏览器界面仅仅是这个系统为 Agent 提供的“图形界面”。与 Manus 的“内置集成”思路相反,FlowithOS 的核心是调度和编排外部生态的能力。
例如,在处理编程任务时,它并非自己构建一套编程工具,而是通过调用 Claude Code 等外部功能和生态来实现。
当我们把 FlowithOS 放置在更宏观的 AI 产品图景中进行审视时,会发现它所做的事情既有差异又有共识。
共识在于,无论是 OpenAI 的 Atlas、Manus 的 1.5,还是各类 AI 编程助手,都在不约而同地从“理解和生成”向“执行和自主”进化。AI 不再满足于作为一个知识问答或内容创作的工具,它必须进入人类的工作流,直接操作应用、完成任务,才能释放下一阶段的生产力价值。浏览器,作为连接人与互联网服务的最主要入口,自然成为了这场进化的核心战场。
其差异则在于,它可能是目前市面上第一个明确将自己定义为“Agent 操作系统”,而这决定了产品的进化路径。FlowithOS的功能、交互设计,都是从“Agent 如何更好地执行”这个第一性原理出发,而非“人类如何更方便地使用”。
正如拐子所说:“用户是否使用我们的 OS 作为浏览器其实无所谓,因为这个浏览器实际上是给 Agent 做操作系统用的,我们更希望用户打开 OS 是让 Agent 可以有更高权限的环境自主工作。”




0 条评论
请「登录」后评论