品玩

科技创新者的每日必读

打开APP
关闭
业界动态

阿里云AI基础设施升级:CPFS 单系统扩容至6PB,冷热数据流动带宽提升20倍

shuohang

发布于 2024年8月7日

8月7日,阿里云面向 AI 推出全新升级的存储系统 CPFS 智算版,单文件系统容量提升 500% 达到 6PB 级别,在大规模训练场景中,可支持更大的数据量和更高性能。同时,CPFS 全新升级系统智能引擎,冷热数据流动带宽提升 20 倍,可大幅降低存储成本,更好支撑大模型训练及推理。

随着大模型参数和数据集规模的迅速增长,包含更多数据量的多模态大模型也成为趋势,大模型训练对存储的要求更高,需要更快的数据读写、传输和更大的存储空间。阿里云 CPFS 是专为 AI 和高性能计算而设计的存储产品。CPFS 通过创新的分布式并行存储架构设计,自研的高性能 RoCE RDMA 网络协议和虚拟存储通道技术,多级缓存的弹性客户端,最终实现高吞吐、低延迟、Serverless 化的高性能存储能力。

为更好满足模型训练不断增长的数据量和计算密度需求,CPFS 单文件系统容量从 1PB 提升至 6PB,单计算节点可支持40个容器同时挂载。同时,通过智能数据流动引擎的升级,冷热数据可以 100GB/s 的高带宽实现流动:在训练前将数据从对象存储 OSS 中快速导入到 CPFS,更好满足训练时数据高并发读取;在训练结束后,将生成的结果数据从CPFS 导出到 OSS,大幅降低存储成本。

针对大模型训练中的数据安全问题,CPFS 通过高性能虚拟化存储通道保障数据访问安全,提供租户权限鉴权、数据隔离和性能隔离,增强端到端安全隔离和数据保护能力。CPFS 集成日志服务 SLS 提供的日志审计能力和云备份CloudBackup 自动挂载备份功能也即将上线。

复旦大学、小鹏汽车、零一万物、百川智能、元戎启行等公司和机构已经使用阿里云进行 AI 训练和应用,通过阿里云CPFS 提供的高吞吐带宽和百亿级小文件的高性能访问,数据集的并发读取和 checkpoint 写效率大幅提升,为模型训练和推理提速。比如,元戎启行基于阿里云的灵骏智算和 CPFS 分布式存储,完成了高性能的智能驾驶训练,训练效率提升120%,并通过冷热数据的分层存储方案实现大幅成本节省。

Forrester 全球 AI 基础设施解决方案最新报告指出,阿里云 AI Infra 综合产品力居全球第二。此次CPFS智算版的全新升级,是阿里云存储在面向多模态等AI发展趋势做出的新探索。在存储领域,阿里云曾获中国电子学会科学技术特等奖、世界互联网领先科技成果奖,盘古分布式存储技术还曾荣获中国发明专利金奖。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测