品玩11月3日讯,美团今天正式开源全模态大模型LongCat-Flash-Omni,该模型以5600亿参数规模(激活参数270亿)实现了低延迟实时音视频交互能力。
作为业界首个集全模态覆盖、端到端架构与大参数量高效推理于一体的开源模型,其采用创新型ScMoE骨干网络与轻量级多模态编解码器,结合分块式音视频特征交织机制,支持128K上下文窗口及超8分钟交互时长。
评测显示,模型在Omni-Bench等全模态基准测试中达到开源SOTA水平,文本、图像、音频、视频单模态能力均位居前列。其采用渐进式多模融合训练策略,分阶段融合文本、语音、图像与视频数据,确保全模态性能无退化。模型已上线Hugging Face与GitHub平台,并提供在线体验与官方App支持语音交互。





0 条评论
请「登录」后评论