告别“人类数据天花板”：萨顿联手他山科技，为机器人打开经验学习之路-品玩

如果人只能拥有一种感知，你会选什么？

在他山科技与图灵奖得主、强化学习之父理查德·萨顿教授团队的早期技术交流中，曾有过这样一次很有意思的讨论。

双方一致的结论是：如果是新生儿，最需要的是触觉。

触觉是最早发育、生存依赖的感觉通道之一。婴儿在视觉尚未清晰、语言尚未建立时，就已经通过触觉感知冷暖、建立对世界的初级认知，通过触觉反馈，完成最基础的抓握与吞咽。

在成长的过程中，视觉、听觉等其他感知逐步叠加，最终形成完备的人类感知系统，而触觉是一切起点。

这个乍听起来近乎哲学思辨的讨论，恰恰指向了当前具身智能领域重要的技术问题：如何让机器人完成最初的智能启蒙？

2026年5月11日，他山科技与萨顿教授创办的Openmind Global Research正式签署战略合作协议。双方将围绕触觉感知与强化学习的深度融合，构建一套从数据采集到算法训练的完整技术闭环。共同推动具身智能发展路径的新探索。

一、触觉：具身智能的“最后一厘米”和“最初一厘米”

具身智能与纯数字AI的本质区别在于“具身”二字——智能体必须与物理世界发生真实的、双向的互动。而物理交互最基础、也最容易被忽视的一层，是接触。

视觉能告诉机器人“杯子在哪里”，但无法告诉它“捏多大力才不碎”；语言模型能教会机器人“拿起杯子”这条指令的语义，但无法传递“玻璃表面光滑、需要调整握力”这类物理信息。这些都属于触觉感知攻克的范畴。

他山科技的技术切入，正是在这个产业重要需求点上。

公开信息显示，他山科技已自主研发覆盖三维力、摩擦力、材质形变、软硬程度等全维度物理信息的触觉感知技术，其核心能力从底层芯片延伸到信号处理、模态融合、算法适配等全栈环节。与业内常见的“外购传感器+算法集成”模式不同，他山科技选择了一条更具底层控制力的路径。

在数据算法层面，“机器人原生”是其中的关键词。人类的触觉经验难以直接迁移给机器——人的手指拥有数千个神经末梢，而机器人的触觉需要从零重建。所谓“机器人原生”数据，意味着采集自机器人自身的传感器系统、记录的是机器人本体在真实环境中交互产生的信号，而非模拟或嫁接的人类数据。

这是触觉作为具身智能“最初一厘米”的技术含义，也是萨顿教授提出的强化学习的核心逻辑。

二、强化学习，一条以“经验”替代“模仿”的技术路径

具身智能行业目前的主要思路，可以大致概括为“模仿学习+大模型驱动”：采集人类示教数据（如人手操作视频、遥操作轨迹），用大语言或视觉模型进行特征提取和行为映射，让机器人“模仿”人类行为。这一路径在过去两年取得了可观的进展，特别是在结构化环境下的操作任务中表现突出。

萨顿教授提供了一个不同的思考维度。

作为强化学习理论体系的奠基人之一，萨顿与导师安德鲁·巴托在20世纪80年代构建的核心框架，其基本理念是：智能体不应仅仅复制人类行为模式，而应通过与环境的直接交互、从自身行动的结果中持续学习。

将这一思想延伸至具身智能领域，逻辑是清晰的：如果机器人只学习“人类怎么做”，它最优秀的表现也只是无限逼近人类水平。但要应对真实世界中无穷尽的非标场景——比如抓取一个从未见过的异形零件、在光照剧烈变化的仓库中精准分拣——机器人需要一套“自己做、自己试、自己学会”的机制。

这正是触觉与强化学习交汇的价值所在。

双方此次合作的初步落地规划，是建立一座“机器人幼儿园”。机器人在放置了工具、食物、植物等丰富真实物品的环境中，自由探索、碰撞试错，依据触觉反馈持续调整行为。

“机器人幼儿园”并非简单的数据采集场所，而是一个分阶段的渐进训练体系，从最基本的身体自我认知与运动控制，到简单物件操作，再到复杂工具运用与多步骤任务规划逐步进化。

这套技术路径与模仿学习路线的本质区别在于：经验直接属于机器人自身，而非人类的二次转录。每条触觉信号、每次失败的抓取、每次逐步优化的施力策略，都被记录为机器人的“成长记忆”，成为其后续决策的基础。

在签约现场，萨顿教授和他山科技特别强调了“开放”一词，希望建立起一个开放的触觉数据共享机制，为整个具身智能的算法迭代提供一个稀缺的公共基础资源。

但需要清醒认识的是，这条路径并非坦途。触觉信号的模态复杂度远超视觉，数据标准化进程仍在推进，从单一任务泛化到开放场景的路径仍不清晰。

此次他山科技与萨顿教授的合作，其长远意义或许不在于短期内的产品级突破，而在于为具身智能铺设一条基础扎实的技术轨道——在“模仿”之外，确立“经验学习”作为一条独立且不可替代的技术路线。推动具身智能从示范性的“能力展示”走向产业级的“持续进化”。