品玩3月12日讯,据科大讯飞官方消息,科大讯飞携手华为在国产算力领域取得重大进展,双方联合团队率先突破国产算力集群上 MoE 模型的大规模跨节点专家并行集群推理,这是继 DeepSeek 公布其 MoE 模型训练推理方案后,业界首个基于国产算力的全新解决方案。
联合团队通过软硬件的深度协同创新,在多个关键技术层面深挖硬件潜力,完成昇腾集群上的验证和部署。在算子融合方面,团队在 MLA 预处理阶段通过 Vector 与 Cube 异构计算单元并行流水,并将多个小算子融合重构为原子级计算单元,消除小算子下发开销,MLA 前处理时延降低 50%+,实现性能的显著提升。
科大讯飞研究院介绍称,在混合并行策略和通信计算并行优化方面,团队构建了 TP(张量并行)+EP(专家并行)混合范式:对 MLA 计算层采用机内 TP 并行,发挥机内高速互联优势,降低跨机通信损耗;创新 MoE 专家分层调度,64 卡均衡分配专家计算节点,定制 AllToAll 通信协议,专家数据交换效率提升 40%,构建跨机 / 机内双层通信架构,通过分层优化降低跨机流量 60%;同时研发路由专家负载均衡算法,实现卡间负载差异小于 10%,集群吞吐提升 30%。





0 条评论
请「登录」后评论