微软发布 LLaVA-Rad：用于高级临床放射学报告生成的轻量级开源基础模型-品玩

品玩2月10日讯，据 marktechpost 报道，来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了新型小型多模态模型（SMM）LLaVA-Rad，以及事实正确性自动评分标准CheXprompt。

该系统主要针对胸部 X 光（CXR）成像，这是最常见的医学成像检查，可自动生成高质量的放射学报告。LLaVA-Rad 在一个包含 697,435 对放射科图像-报告的数据集上进行了训练，该数据集来自七个不同的来源，在只有结构化标签的情况下，利用 GPT-4 进行报告合成。该系统表现出高效的性能，只需要一个 V100 GPU 进行推理，并使用 8-A100 集群在一天内完成训练。

LLaVA-Rad 的架构代表了小型多模态模型（SMM）的一种新方法，尽管其体积明显小于 Med-PaLM M 等模型，但却实现了卓越的性能。该模型的设计理念是将训练过程分解为不同的阶段：单模态预训练和轻量级跨模态学习。该架构利用高效的适配器机制，将非文本模态嵌入文本嵌入空间。训练过程分为三个阶段：预训练、对齐和微调。这种模块化方法使用了一个多样化的数据集，其中包括 697,000 张去标识化的胸部 X 光图像和相关放射学报告，这些图像和报告来自七个不同的数据集，共 258,639 名患者，从而实现了稳健的单模态模型开发和有效的跨模态适配。