科大讯飞联合华为，率先实现国产算力大规模跨节点专家并行集群推理-品玩

品玩3月12日讯，据科大讯飞官方消息，科大讯飞携手华为在国产算力领域取得重大进展，双方联合团队率先突破国产算力集群上 MoE 模型的大规模跨节点专家并行集群推理，这是继 DeepSeek 公布其 MoE 模型训练推理方案后，业界首个基于国产算力的全新解决方案。

联合团队通过软硬件的深度协同创新，在多个关键技术层面深挖硬件潜力，完成昇腾集群上的验证和部署。在算子融合方面，团队在 MLA 预处理阶段通过 Vector 与 Cube 异构计算单元并行流水，并将多个小算子融合重构为原子级计算单元，消除小算子下发开销，MLA 前处理时延降低 50%+，实现性能的显著提升。

科大讯飞研究院介绍称，在混合并行策略和通信计算并行优化方面，团队构建了 TP（张量并行）+EP（专家并行）混合范式：对 MLA 计算层采用机内 TP 并行，发挥机内高速互联优势，降低跨机通信损耗；创新 MoE 专家分层调度，64 卡均衡分配专家计算节点，定制 AllToAll 通信协议，专家数据交换效率提升 40%，构建跨机 / 机内双层通信架构，通过分层优化降低跨机流量 60%；同时研发路由专家负载均衡算法，实现卡间负载差异小于 10%，集群吞吐提升 30%。