品玩6月11日讯,据财联社报道,小红书近日开源MOE模型dots.llm1 系列。该模型总参数达 1420 亿,推理时仅激活 140 亿参数,性能却可媲美 Qwen2.5-72B 等前沿模型,实现高效能与高性能的平衡。
dots.llm1采用创新三阶段数据处理框架,全程使用高质量非合成语料预训练,并通过细粒度 MoE 架构(128 专家中路由前 6 个 + 2 共享专家)与 QK-Norm 等技术优化计算效率。模型支持 32K 长上下文,覆盖中英双语,采用 MIT 许可证开源,包含预训练基模型与指令微调模型。
为助力研究,团队同步开放全训练过程的中间检查点,揭示大模型学习动态。

0 条评论
请「登录」后评论