华中科技大学开源多模态大模型Monkey-品玩

品玩12月15日讯，华中科大学近日在 GitHub 上开源多模态大模型Monkey，该模型由华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布。

研究团队表示，Monkey 引入了一种高效的训练方法，可以有效地将输入分辨率提高到 896 x 1344 ，同时不需要从头开始进行预训练。为了弥合简单的文本描述和高输入分辨率之间的差距，Monkey 还提出了一种多级描述生成方法，该方法自动提供丰富的信息，可以指导模型学习场景和对象之间的关联。通过这两种设计的协同作用，Monkey 在多个基准测试中取得了优异的结果。

与各种多模态大模型（包括 GPT4V）相比，Monkey 通过关注文本信息并捕获图像中的精细细节，在图像字幕方面表现出了良好的性能；高输入分辨率还可以使模型在具有密集文本的文档图像中展现出出色的性能。