品玩12月7日讯,来自威斯康星大学、英伟达、密歇根大学和斯坦福大学等高校的学者近日发表论文,介绍了一款名为Dolphins 的多模态大模型,旨在为自动驾驶车辆提供类似于人类的理解和反应能力。
Dolphins是一种视觉语言模型,擅长处理包括视频(或图像)数据、文本指示和历史控制信号在内的多模态输入,以生成与提供的指示相对应的有根据的输出。在开源预训练视觉语言模型OpenFlamingo的基础上,研究者通过创新性的Grounded Chain of Thought (GCoT)过程增强了Dolphins的推理能力,并针对驾驶领域构建了特定的指令数据,进行了指令调整。
论文表示,Dolphins可以提供复杂且尾部开放的驾驶场景的全面理解,并解决一系列自动驾驶任务。

0 条评论
请「登录」后评论