品玩5月16日讯,据爱范儿报道,日前,DeepSeek 公布了旗下 V3 模型在训练、推理过程中,如何解决「硬件瓶颈」和「降本」的技术报告,值得一提的是,DeepSeek 创始人梁文锋也在作者名单中。
据报告显示,DeepSeek-V3 使用 2048 个英伟达 H800 GPU 进行训练,但其达到了超大规模集群相当的训练效果,其中包含了以下四项技术:
采用多头潜在注意力(MLA),减少临时数据(KV Cache)的内存占用。通过内存优化,DeepSeek-V3 的 KV 缓存大小每 token 仅需 70 KB,是传统方法的 1/7 至 1/4,从而大幅降低显存压力。
采用 DeepSeek-MoE(混合专家架构)进行计算优化。DeepSeek-V3 凭借 MoE 单次推理只激活部分参数的思路,训练成本仅为同规模稠密模型的 1/10。并且得益于激活参数减少,V3 能够在消费级 GPU 上运行,并达到每秒生成近 20 个 toeken。
通过 FP8 低精度训练,将模型所需内存占用和计算量减半,并通过「精细量化」保持精度要求。DeepSeek-V3 通过 FP8,训练成本成功降低 50%,精度损失小于 0.25%。
通信方面,DeepSeek-V3 采用了多层胖树网络(Multi-Plane Fat-Tree),避免不同任务流量冲突;在模型推理时,还将「注意力计算」和「专家间通信」分阶段执行,利用流水线并行(DualPipe)让 GPU 在计算时同时传输数据。
推理加速方面,DeepSeek-V3 使用多 token 预测(MTP)的方法,将模型

0 条评论
请「登录」后评论