品玩

科技创新者的每日必读

打开APP
关闭
品玩大模型内刊

浪潮信息 AI&HPC 应用软件首席架构师Allen演讲实录:大模型时代的算力之道

马克汀

发布于 2023年9月12日

8月底,由未来科技力主办的【模型思辨:大模型产业生态论坛:沸腾的资本、踏浪的 AGI】在上海举行,我们围绕大模型的 iPhone 时刻、垂直大模型的爆发,AIGC 产业落地应用和算力架构设计,同猎豹移动、易观、浪潮信息、网易伏羲、IDEA研究院、竹间智能等产业链上下游、学界和投资界的20多位好朋友们进行了深入的讨论,也吸引了400多位业内人士及媒体朋友们的参与。作为全球化视野的科技内容平台和创新连接器,未来科技力始终密切关注中国大模型产业的发展,我们深信,中国的人工智能行业最终将走出一条属于自己的创新与突破之路。

以下为浪潮信息 AI&HPC 应用软件首席架构师Allen《大模型时代的算力之道》演讲实录,由未来科技力整理发布:

从全球算力的现状来分析来看,数字经济其实自疫情以来的这几年增长还比较快,数字化优先已经成为企业的核心战略和发展途径,所以算力已经成为整个科技行业更新和迭代的重要支撑。

从行业来看,互联网制造、医疗、能源以及交通都在以高效算力支撑做敏捷开发,包括数字化转型以及全方位智能化迭代。从不同的角度来看,互联网制造业这样的先导行业,已经有更多的创新型数字企业以及数字工厂出现,同时医疗、能源、交通行业都越来越关注人工智能变革。国内的计算机发展现状还是以能效提升和绿色低碳为主要旋律,同时东数西算工程启动也将推动算力从量变走向质变的新阶段。

服务器方面之前有很多的计算业务集中在CPU密集型,但是为了满足AI计算负载,更多发展成GPUFPGA、ASIC等加速卡的AI服务器考虑到TCO的优势,后续液冷也会是主要的发展方向。

现在来看,NLP和多模态已经成为AIGC技术的热点,并且生成式AI能力已经能够不同的企业和客户提供更多的场景支撑和更多的可能性。国内国外各种主流的模型,括从百亿到千亿甚至更大规模的模型都已经在不同的领域里面,图像生成、文本生成、语言理解或者翻译场景下,开始逐步落地应用。

算力带来智能涌现

大模型GPT-3的算力如果按照算力计算公式,保守估计大概需要3650 PetaFLOP/s-day(以下简称PD),如果按照50%的峰值效率进行估算,那么大概需要128台8卡A100服务器,连续训练24天,即接近一个月的时间才能完成整个大模型的训练。以A100 GPU的算力计算,1000张A100训练卡能够输出312PFLOPS算力。从预训练模型到模型微调再到最终的落地,对于算力的需求是逐步增大的,现在大家都在讨论“涌现”的问题,尤其在小样本学习里面表现的更为突出,当模型参数规模超过百亿这个门槛时,已经能够看到一些涌现的能力,如果想看到更高的涌现能力,模型的参数量就要到达千亿规模。

当前大模型的算力还在逐步增长,包括模型的参数以及匹配的算力当量的,都是逐年提升的。算力当量越大,模型能力越强,随着模型参数以及计算的增加,整个模型的计算能力,模型的精度会做进一步提升。算力其实还是大模型发展的核心引擎。外界预估GPT-4算力算量,比GPT-3增长68倍,达到248,842PD。对于一般的科技厂商、大模型应用方或者是服务厂商来说这是一个天文的数字。目前,国内超过千亿规模的大模型,如百度的文心一言、浪潮信息的“源”等,算力算量已经从600PD上升到10,000PD

如何构建高效高生产力的大模型算力系统?

大规模预训练的工程挑战巨大,模型能力来源于大量实验工程。怎么构建一个万卡AI计算平台,对于不同的厂商和客户来说就是一个很大的挑战,大规模训练会面临硬件故障、梯度爆炸等小规模训练不会遇到的问题。GPT-4的成功带来了大量的工程实验,然而其闭源阻碍了业界的复现。

2021年浪潮信息发布2457亿参数的“源”大模型。从大模型分布式训练策略来看,浪潮信息在训练“源1.0”大模型的时候,采用了张量并行、流水线并行和数据并行的“三合一”并行策略。在计算节点组之间进行张量并行,在计算节点组内会开展流水线并行,最后在每台服务器内采用张量并行。在此过程中,也通过各类模型结构策略,提升训练效率。最终,集群扩展效率达到90%,平均单卡计算效率达到44%,现在也是业界比较领先的计算效率。

下面分享一下浪潮信息通过大模型“源”实践验证的大模型算力平台最佳方案

我们在AI算力系统这一块针对大模型算力,提出大模型算力系统参考设计,包含高性能AI服务器、低延迟的RDMA网络,以及高吞吐并行存储。在算力调度层,浪潮信息有比较成熟的软件平台AIStation,已经研发5年,支持超过500家的客户,作为人工智能平台大模型开发部署和智算中心的调度平台,能提供多元算力支持和调度、大模型训练优化以及智能化设备监管管理,实现训练异常和故障的自动处理以及断点自动续训。

最后,浪潮信息已经构建了面向大模型的全栈智算能力,不仅有领先的AI计算硬件平台,也发布了大模型智算软件栈OGAI,能为大模型业务提供AI算力系统环境部署、算力调度保障及模型开发管理能力,将帮助更多企业顺利跨越大模型研发应用门槛。

基于浪潮信息的积累的实践经验,我们也能够为算力中心提供全流程、定制化的建设方案。针对无自建机房及相关运维经验的客户,我们能够做到一体化的算力中心交付模式,针对于预算有限并且有大量需求的客户我们会提供租赁等交付的方式,用不同的方式满足各类客户的智算基础设施建设需求,更好地为AIGC时代赋能。

下载品玩App,比99.9%的人更先知道关于「品玩大模型内刊」的新故事

下载品玩App

比99.9%的人更先知道关于「品玩大模型内刊」的新故事

iOS版本 Android版本
立即下载
马克汀

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测