品玩9月20日讯,据上证报报道,在今天的华为全联接大会2023期间,华为常务董事汪涛正式发布全新架构的昇腾AI计算集群——Atlas 900 SuperCluster,可支持超万亿参数的大模型训练。
据汪涛介绍,新集群采用全新的华为星河AI智算交换机CloudEngine XH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点(等效于18000张卡)超大规模无收敛集群组网。新集群同时使用了创新的超节点架构,大大提升了大模型训练能力。此外,发挥华为在计算、网络、存储、能源等领域的综合优势,从器件级、节点级、集群级和业务级全面提升系统可靠性,将大模型训练稳定性从天级提升到月级。
此外,硬件使能是释放大算力的关键,也是大模型开发的基础。为了加速大模型创新,华为发布了更开放、更易用的CANN7.0,不仅全面兼容业界的AI框架、加速库和主流大模型,还深度开放底层能力,让AI框架和加速库可以更直接地调用和管理计算资源,使能开发者自定义高性能算子,让大模型具备差异化的竞争力。华为还升级了Ascend C编程语言,以更高效的编程方式,简化算子实现逻辑,大幅缩短融合算子的开发周期,为AI模型与应用的快速开发赋能。





0 条评论
请「登录」后评论