人形机器人技术近年来迅猛发展,但行业仍面临严峻挑战:传统机器人往往难以实现自然流畅的人机互动,无法如人类般进行基础对话或响应复杂意图,导致实际场景中响应迟滞甚至失灵;动态环境下的物体识别与抓取深受光照、遮挡等因素困扰,精度低下,制约了机器人在流水线或家庭服务中的广泛应用。这些痛点直接阻碍了人形机器人的大规模落地。
在2025年世界人工智能大会(WAIC)现场,深谋科技以其坚持原创、自研、成体系的技术路径,绽放异彩。作为一家专注于人形机器人智能化的先锋企业,深谋科技带来了革命性的脑机交互系统与动态视觉伺服系统。这些技术不仅标志着人形机器人领域的崭新里程碑,还为未来人机协同开辟了广阔入口。
本次对话聚焦深谋科技的核心研发代表:吕涛博士(脑电感知与控制系统负责人)和周旭博士(动态视觉伺服系统负责人)。两位专家深入剖析各自领域,揭示这些技术如何交织成网,构筑深谋对未来人形机器人的宏伟蓝图。
脑电感知与控制系统负责人:吕涛博士
硅星人:深谋科技为什么要在人形机器人上推进脑电驱动?背后的判断是什么?
吕涛:我们现在关注的点就是对象。大家都在思考人形机器人如何更好地适应一些场景,并发挥价值。在WAIC大会上,我们可以看到很多厂商搭建了一些具体的应用落地平台,比如工厂化流水线生产、运输等具体应用场景。这就是业界一直在追寻的探索落地方向。
此外,我们可以看到,包括前几天我们老板提到的,他们参加了一个活动,我们的一个友商在晚会上让机器人互动拿东西,但机器人没反应。其实我们对人形机器人有一些期待,希望它能像人一样思考,至少能与人进行基础交流,这也是大家关注的焦点。所以大家希望往这些领域展示。在这种背景下,我觉得深谋科技将脑机接口技术引入人形机器人系统,是一个极具前瞻性和创新性的举措。为什么?因为基于脑电的人机交互系统,能够打破语言和动作的屏障,实现更加本能化、沉浸式的交互。
我们现在主要做人形机器人的决策,可能基于一些推理,但这些推理不一定百分百符合责任和期待,而且它是具有自主智能的。如果我们直接用大脑去控制它,这种理念完全不一样,就是说我可以完全按照我的想法让机器人行事。在这个背景下,我们公司研发了国内首个从脑机到人形机器人的闭环交互系统‘MindMover’。这套系统不仅能理解人的意图,实现主动控制,还能理解人的生理状态,实现对用户的理解与反馈。
硅星人:深谋脑电系统有哪些关键技术点,是你们特别自豪的?
吕涛:我们在这个技术领域的布局是全国首例。在WAIC大会上,你可以看到其他机器人应用,大部分是场景化应用或动作方面的应用。深谋科技是首个在脑机与人形机器人交互大方向上完成系统化原型的。这个系统的功能是从脑状态理解、脑意图识别,到最后人形机器人协作执行的完整闭环。而且我们是国内首家在公开场合展示脑控人形机器人的企业,确实是全国首发。
深谋的脑电系统是一个闭环交互系统,由两个核心部分组成。第一部分是脑意图识别系统,它融合传统算法与深度神经网络,支持用户自适应建模。可直接使用,或经10秒内短时校准,实现高准确性和稳定控制。第二部分是脑状态评估系统,实时分析脑电信号,包括情绪状态,每秒打分。目前研发阶段以语音提示反馈,并据此调整行为;未来可扩展至更细化应用,如自动响应用户需求。
例如,家中机器人感知你办公疲劳后,会主动问:“要不要端杯水让你清醒?或拉窗帘、调低座位休息?”这种静默交互无需用户表达,它通过生理指标自动感知并行动,营造“被照顾”的温暖感——即便你未意识到疲劳,它也能像身边人般提醒。
在机器人智能控制上,我们不仅注重“听命于脑”,还支持直接操控。这涉及常见问题:如何控制?目前有两种方式。
第一种是精细化控制,像玩游戏般通过按钮操作上下左右,可单个操控上肢或下肢,实现前进、后退等机械动作。
第二种是编程指令控制。例如,结合动态抓取系统,可轻松整合实现复杂场景:行动不便者盯着视觉模块的“我要喝水”指令,机器人即拆解执行——移动、抓取水杯、再递送。全流程依托脑控、抓取和步行技术,已完全实现,目前分开展示。这让机器人进入半智能半自主状态:下指令后,它自主决策执行,但为防“太聪明”失控(输入过多参数导致不可预测输出),我们设计为辅助模式,最终开关由人类掌控。
硅星人:深谋脑电系统未来在产品化或落地方面有什么方向?
吕涛:有人问,我们可以用遥控器或语音控制,为什么非要用脑电下达指令?其实,这套系统有具体应用场景,形成一整套交互体系,围绕教育、医疗康养和危险作业三大核心领域推进。
首先,教育领域。人形机器人具有天然亲和优势,能产生情感投射,这是工业机器人无法比拟的。未来,它可像真人老师或导游般进行互动教学。通过感知学生生理心理状态(如注意力不集中),机器人能在讲课30-20分钟后自主决策,建议交互或休息,提升效率。这虽非原创,但很有潜力。
其次,最主流的医疗与康养领域。随着社会老龄化加剧,脑机接口最初为残疾人、脊髓损伤患者和癫痫治疗而生,现已纳入国家医保,用于多动症、康复等项目。我们系统不只服务正常人(语音或遥控即可),更针对老年人、行动不便者(如手术后)和残疾人,提供基础看护:在病房或家中,通过脑电实现紧急呼叫、取物(如外卖)、摔倒报警等。同时,整合传感器监测体温、心率等生理指标,形成全方位照顾。未来迭代后,如电脑般普及家庭,降低高昂看护成本,解决衣食住行根本问题——虽无法完全取代医疗,但有参考价值。
最后,危险作业领域,虽离普通生活较远,但意义重大。在消防、化学污染、极地科考或灾后救援等高风险环境中,人直接上阵危险大。机器人加防火涂层后,可替代人类,人待安全区操控。此时,语音或遥控不实用,而脑电实现人机协同:人形机器人运动逻辑与人类一致,自由度高,能捡物、拨开障碍,完全模仿人操作,显著降低风险。公司不止做人形,还涉其他产品,但人形的优势在于此。
动态视觉伺服系统负责人 :周旭博士
硅星人:这套动态视觉伺服系统最核心的突破点是什么?
周旭:动态视觉伺服系统的难点在于实时掌控运动物体的位置和姿态,这在视觉领域一直是个挑战。主要有两方面问题:传统方法依赖特征点检测或3D模型。前者实际应用中易受物体光滑无纹理、遮挡、光源变化等环境因素干扰,导致检测不准或特征丢失;后者建模过程繁琐,物体种类繁多,每个都需要扫描建立3D模型,非常耗时。
我们的突破在于从人类视角出发。人类对物体3D几何的记忆往往很模糊,例如对苹果的印象大致是球形,或许多一个柄,但这些细节对抓取并不关键。因此,我们的出发点是将三维模型极致压缩:不记录过多点位,只记忆三个维度向量——长度、宽度和高度。换言之,仅对宽、高、深三个方向进行记忆,看到物体只需三个维度的测量即可。这有点像游戏中的模型优化。这样一来,只需三个参量,就能以百万次浮点计算量估计出完整姿态。这是我们自主研发的算法。
更重要的是后续扩展:人类不仅对熟悉物体有几何印象,对未见物体也能通过多看几眼快速抓取。三岁小孩初见手机也能尝试抓住,虽然首次不一定完美,但终究能成功,这点至关重要。同样,对机器人而言,看到陌生物体如可乐瓶,只需左右上下多观察几眼,就能计算出模型并完成布置。因此,我们的最大前景在于实现未见物体的抓取,真正模拟人类适应性。
硅星人:这套视觉系统强调“从静态识别走向动态控制”,深谋是如何构建这样一条完整链路的?
周旭:其实还是回归人类怎么抓东西。首先通过眼睛看,知道物体位置和姿态。我们也是前面说的,视觉姿态就是干这个,通过算法判断距离和姿态,这块不说。后面做到动态抓取,就是控制,通过发指令让手臂运动。但到机械臂,要通过算法驱动。比如机械臂一般6轴或7轴,我们用6轴,可能麻烦点,要做模型预测控制、轨迹规划等做到。
周旭:你们特别强调动态响应和闭环控制,在实际操作中表现如何?
周旭:实际操作中,我可以分享一个有意思的应用:在流水线上抓取移动物体,虽然物体姿态相对固定,但我们能从一堆随机放置的物体中精准拾取。例如,一篮子鸡蛋或西红柿,每个物体姿态或朝向各异,导致抓取位置不同。我们希望抓取最稳固点,如鸡蛋的中间最胖处。这就需要实时跟踪位置并计算姿态,进行准确判断,从而确保高成功率——我们总是瞄准中间,这是最基础的应用。更实际的场景如飞机快餐分拣:水果盘或菜盘通过流水线,一盘盘同一类菜品依次到来,但每个菜品形态不一,需要分批夹取,且都在运动中,因此高度依赖这项技术。
硅星人:人形机器人何时进入千家万户?
周旭:我觉得这个过程可能需要一个ChatGPT时刻,这个需要一个技术上的比较大的突破才行。就是说我们人类其实对于机器而言,他的学习能力很强。不仅仅说是那种某个做某一件事情的能力,对吧?不是说语言的推理能力也好,你视觉的识别,判断这种能力也好,他的学习能力很强,他的模仿能力也很强,他有自学能力对吧?这个机器人我觉得。要做到走入千家万户,可能他首先得识别那些物体就很麻烦。他肯定要具备一定的像我们说的小孩子自学能力。因为从小孩他从出生到他能够行走,他其实每天都在看这个世界,都在感知这个世界。他看一个物体他就能记出来它的形状下来。所以说他具备这个能力,所以说我们也需要机器具备这个。这样子的话他应该会有。如果说我们能做到这一点的话,我觉得技术上会有质的飞跃。就像你可能过两年你再看人形机器人,可能他就能做非常复杂的,或者说泛化能力达到非常强的程度。就是你随便拿个物体给他了都能做对吧?
0 条评论
请「登录」后评论