IDC 预测,2026 年中国 AI 手机出货量将达 1.47 亿台,占整体市场的 53%。行业把今年叫"AI 手机元年"。
但"AI 手机"这四个字背后,各家在做的事差得很远。
表面上大家都在说"让 AI 帮你操作手机",底层逻辑却完全不同。有人让 AI 直接看屏幕操作,有人让 App 主动开放接口,有人在自家生态里打通服务。三条路,各有各的逻辑,各有各的天花板。
三星 S26 发布,努比亚总裁倪飞发微博说谷歌和三星"比我们晚了三个月"。这句话本身没错,但用"早晚"来衡量这件事,有点出入。毕竟字节、谷歌、阿里,AI手机的方案根本不在同一条跑道上。
谷歌:让 App 主动开门
谷歌今年 2 月发布了两套并行方案:AppFunctions,和 Intelligent UI Automation。
AppFunctions 的逻辑是,App 开发者在代码里标注哪些功能可以被 AI 调用,比如"创建日历事件"、"搜索照片"。这些声明被编译成索引文件,提交给安卓系统。Gemini 收到用户指令,先查索引,找到匹配功能,在设备本地直接调用,全程不经过外部服务器。
谷歌把 AppFunctions 定义为"手机端的 MCP"。MCP 是 AI 圈的协议,解决 AI 模型如何连接外部工具的问题。AppFunctions 把这套逻辑搬进手机本地,App 主动开放接口,AI 按接口调用,有授权,有边界,有记录。
搭载该系统的三星 S26 展示了一个案例,用户对着 AI 说"找我家猫的照片",Gemini 就会调用三星相册的接口,照片直接出现在对话界面,用户没有打开任何 App。
我们用更常用的淘宝为例。如果淘宝接入 AppFunctions,开放"搜索商品"的接口。此时,用户对着 Gemini 说"帮我在淘宝找一双跑步鞋,预算 1000 以内",Gemini 就能直接调用淘宝的搜索接口拿回结果,在 AI 对话页面展示给用户,全程用户不需要打开淘宝。
淘宝也能控制哪些功能开放、哪些数据不对外暴露,权限边界由 App 自己划定。
但这么做限制也很明显,App 必须主动接入,目前支持的主要集中在日历、备忘录这几个类别。
所以谷歌同时推了 Intelligent UI Automation 作为补充,专门针对还没接入 AppFunctions 的 App。AI 通过模拟点击、滑动完成任务,开发者不需要改一行代码。目前在 S26系列 和 Pixel 10 上小范围测试,支持外卖、打车等少数场景。用户可以随时接管,遇到付款,Gemini 会先弹确认。
谷歌官方说"今年晚些时候分享更多细节"。功能上线了,规范还没写完,边界在哪里谷歌自己也还在摸索。因此,这也就是中兴倪总所谓的三星+Gemini 只完成了努比亚的局部能力。
字节:直接看屏幕,但被微信堵在门口
字节+努比亚的豆包手机,走的是另一条路,其底层是字节自研的 UI-TARS 模型。
工作方式很直观,截屏,截图输入视觉模型,模型分析屏幕上有什么,决定点哪里,通过安卓无障碍权限把指令发给手机。截图、分析、点击,循环,直到任务完成。不需要任何 App 配合,理论上能操作手机上所有应用。
同样以淘宝举例,豆包手机不需要淘宝授权,它能识别淘宝页面中每一个按钮是做什么的,点击哪个能实现什么功能。你让豆包手机搜索商品,它会像真人一样,点来点去,直到生成答案。
这一切都建立在 UI-TARS 模型的强大能力中,在 AndroidWorld 基准测试,UI-TARS 1.5 得了 64.2 分,GPT-4o 是 34.5 分。
首批3万台豆包手机曾经吵得火热,而今除了科技测评人,还有多少人在用?新技术会引发一时狂热,但热度散去大家才发现,很多底层问题都没解决。
实际使用中,微信、支付宝、淘宝、各类金融 App 会直接弹安全警告拦截操作。这些 App 的安全机制能识别出"有程序在模拟人点击",判定为异常。此外,豆包手机依赖的无障碍权限,设计初衷是帮助残障用户,AI 拿来批量操作 App,踩的是整个安卓生态的红线。
而且很多软件升级安全策略,UI 更新,都可能让豆包手机的一部分功能失效。
虽然,谷歌的 Intelligent UI Automation 和豆包手机在技术原理上差不多,都是看屏幕、模拟点击。但谷歌的方案有系统层背书,谁让安卓是他的。豆包走的是权限的灰色地带,没有这层信任基础。
动作相近,性质不同。
阿里:最安全,也最难
阿里的路线叫 A2A,Agent to Agent,智能体互联。春节期间,我们用千问点奶茶,操作起来和也挺像 AI 手机的,但还是有区别。
千问不看屏幕,也不碰手机系统权限,直接调用 App 的服务接口。用户说"帮我在饿了么订午饭,再用高德叫辆车去下午的会",千问把两个请求分别派发给饿了么智能体和高德智能体,各自完成,结果汇总返回。全程没有截图,没有模拟点击,数据在预设接口里流转,隐私风险几乎为零。
但前提是,这些操作都需要在阿里自己的生态里。淘宝、饿了么、高德、支付宝本来就是同一家公司,接口打通的谈判成本几乎不存在。
一旦脱离阿里生态,这些操作就行不通了。
让千问帮用户操作美团、抖音、滴滴、微信、小红书,需要这些公司主动开放接口。美团、字节、滴滴、腾讯、小红书一家一家谈下去,都需要时间,只不过随着随着各家都在探索和推出智能体,A2A 路线的上限,也会随着生态边界的拓宽不断变宽。
AI 手机到底长什么样?
三条路,三种下注逻辑。
字节押的是速度,靠通用性换先发,代价是和整个 App 生态的安全机制进行抗争。但好处是人们一提到 AI 手机,都会想到字节。
阿里押的是安全感,隐私风险最低,天花板也最清晰。
谷歌押的是规则,AppFunctions 开发者文档已经迭代到 alpha07 版本,每个 API 都有完整规范,慢但每一版都在扩大生态。
而且谷歌还有一张牌没打出来,苹果今年确认将用 Gemini 驱动下一代 Apple Intelligence。落地之后,Gemini 将同时成为安卓和 iOS 的 AI 底座,覆盖全球绝大多数手机用户。AppFunctions 的标准,就不只是安卓的规则,而是整个移动互联网的规则。
当 AI 成了用户和 App 之间的新一层,控制了这一层,就控制了下一代的流量入口。
三条路线都有各自的天花板,但更大的问题是:AI手机的几个方案都还没跑通。
谷歌搞 AppFunctions,最终能走多远,得看有多少 App 愿意主动接入。目前最大的障碍就是开发者,现在支持的,也就 Uber、Grubhub 这几个。此外,国内的微信、美团、抖音,不会因为谷歌发了一套 API 就排队来接。
信任这关,更麻烦。AI 帮你点外卖,出错了顶多重来一单。AI 帮你转了账,发现转错了,这锅谁背?目前三条路线都没给出答案。就和自动驾驶一样,没有法律的背书,无论案例多光鲜都是自嗨。用户的信任是慢慢建起来的,但往往要出几次真实事故才会被认真对待。
更重要的是场景这关,说白了就是 AI 手机到底有什么用?现在演示的都是"找照片"、"订外卖"、"叫车",指令清晰,步骤固定,一气呵成。然而,真实生活不是这样的。"帮我把上周和那谁的聊天方案整理一下,顺便把下周的会议改到周五",这种才是日常,没有一家现在能顺滑处理。
AI 手机卖出去是一回事,用户每天真的在用 AI 操作 App,是另一回事。




0 条评论
请「登录」后评论