品玩6月16日讯,据蚂蚁集团官方消息,蚂蚁集团近日联手inclusion AI,推出了一款能够处理图像、文本、音频和视频的统一多模态模型 Ming-Omni。
Ming-Omni使用专用编码器从不同模态中提取 tokens,这些tokens随后由Ling处理,Ling是一种配备了新提出的模态专用路由器的MoE架构。这种设计使单一模型能够在统一框架内高效处理和融合多模态输入,从而支持多样化任务,无需单独模型、任务特定的微调或结构重构。
Ming-Omni超越了传统多模态模型,支持音频和图像生成。这一能力通过集成先进的音频解码器实现自然语音生成,以及 Ming-Lite-Uni 实现高质量图像生成,同时使模型能够进行上下文感知聊天、文本到语音转换,并进行多样化的图像编辑。

0 条评论
请「登录」后评论