百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini-品玩

品玩1月26日讯，据百川智能官方消息，Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解，还具备文本和音频的双模态生成能力。

官方宣称，其在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5 的表现均优于 GPT-4o mini；在多模态医疗应用领域，其具备更突出的领先优势。其在音频技术领域采用了端到端解决方案，可支持多语言对话、端到端音频合成，还可实现自动语音识别、文本转语音等功能，且支持音视频实时交互。在视频理解能力方面，Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化，其整体性能大幅超越 GPT-4o-mini。

Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作，还拥有强大的多模态推理能力和跨模态迁移能力。