品玩

科技创新者的每日必读

打开APP
关闭

DeepSeek 公布 V3 降本技术,梁文锋参与

5月16日

品玩5月16日讯,据爱范儿报道,日前,DeepSeek 公布了旗下 V3 模型在训练、推理过程中,如何解决「硬件瓶颈」和「降本」的技术报告,值得一提的是,DeepSeek 创始人梁文锋也在作者名单中。

据报告显示,DeepSeek-V3 使用 2048 个英伟达 H800 GPU 进行训练,但其达到了超大规模集群相当的训练效果,其中包含了以下四项技术:

采用多头潜在注意力(MLA),减少临时数据(KV Cache)的内存占用。通过内存优化,DeepSeek-V3 的 KV 缓存大小每 token 仅需 70 KB,是传统方法的 1/7 至 1/4,从而大幅降低显存压力。

采用 DeepSeek-MoE(混合专家架构)进行计算优化。DeepSeek-V3 凭借 MoE 单次推理只激活部分参数的思路,训练成本仅为同规模稠密模型的 1/10。并且得益于激活参数减少,V3 能够在消费级 GPU 上运行,并达到每秒生成近 20 个 toeken。

通过 FP8 低精度训练,将模型所需内存占用和计算量减半,并通过「精细量化」保持精度要求。DeepSeek-V3 通过 FP8,训练成本成功降低 50%,精度损失小于 0.25%。

通信方面,DeepSeek-V3 采用了多层胖树网络(Multi-Plane Fat-Tree),避免不同任务流量冲突;在模型推理时,还将「注意力计算」和「专家间通信」分阶段执行,利用流水线并行(DualPipe)让 GPU 在计算时同时传输数据。

推理加速方面,DeepSeek-V3 使用多 token 预测(MTP)的方法,将模型

取消 发布

下载品玩App,比99.9%的人更先知道关于「DEEPseek」的新故事

下载品玩App

比99.9%的人更先知道关于「DEEPseek」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测