多模态大语言模型Dolphins 亮相，为自动驾驶车辆提供支持-品玩

多模态大语言模型Dolphins 亮相，为自动驾驶车辆提供支持

2023年12月7日

品玩12月7日讯，来自威斯康星大学、英伟达、密歇根大学和斯坦福大学等高校的学者近日发表论文，介绍了一款名为Dolphins 的多模态大模型，旨在为自动驾驶车辆提供类似于人类的理解和反应能力。

Dolphins是一种视觉语言模型，擅长处理包括视频（或图像）数据、文本指示和历史控制信号在内的多模态输入，以生成与提供的指示相对应的有根据的输出。在开源预训练视觉语言模型OpenFlamingo的基础上，研究者通过创新性的Grounded Chain of Thought (GCoT)过程增强了Dolphins的推理能力，并针对驾驶领域构建了特定的指令数据，进行了指令调整。

论文表示，Dolphins可以提供复杂且尾部开放的驾驶场景的全面理解，并解决一系列自动驾驶任务。