品玩12月14日讯,据 Arxiv 页面显示,Google DeepMind 近期公布了一款分布式优化算法 DiLoCo,可以在设备间连接较差的环境中训练大型语言模型。
DiLoCo是一种联邦平均的变体,其中内优化器为AdamW,外优化器为Nesterov动量。研究团队表示,DiLoCo的性能与完全同步优化相同,而通信量减少了500倍。
论文显示,DiLoCo 可以应对资源在训练过程中不可用的问题,并且可以无缝利用训练过程中变得可用的资源。

Google DeepMind公布分布式优化算法 DiLoCo
2023年12月14日品玩12月14日讯,据 Arxiv 页面显示,Google DeepMind 近期公布了一款分布式优化算法 DiLoCo,可以在设备间连接较差的环境中训练大型语言模型。
DiLoCo是一种联邦平均的变体,其中内优化器为AdamW,外优化器为Nesterov动量。研究团队表示,DiLoCo的性能与完全同步优化相同,而通信量减少了500倍。
论文显示,DiLoCo 可以应对资源在训练过程中不可用的问题,并且可以无缝利用训练过程中变得可用的资源。

下载品玩App,比99.9%的人更先知道关于「AI大模型」的新故事
下载品玩App
比99.9%的人更先知道关于「AI大模型」的新故事




0 条评论
请「登录」后评论