日本联合研究团队发布 Fugaku-LLM，利用超算训练-品玩

品玩5月11日讯，据 tomshardware 报道，富士通本周发布了 Fugaku-LLM，这是一个具有先进日语处理能力的大型语言模型，专为研究和商业应用而设计。

富士通的 Fugaku-LLM 是在基于 A64FX 处理器的 Fugaku 超级计算机的 13,824 个节点上使用 3,800 亿个词库进行训练的，该处理器支持 FP64、FP32、FP16 和 INT8 模式，适用于各种人工智能和传统超级计算机应用。Fugaku-LLM 的训练自然利用了针对超级计算机架构和 Tofu 互联 D 进行优化的分布式并行学习技术。

Fugaku-LLM具有130亿个参数，与GPT-4的1750亿个参数相比显得微不足道，而GPT-4是日本有史以来训练的最大LLM。富士通表示，130 亿参数的 LLM 不需要庞大的计算资源来进行推理，这对日本的企业和研究人员来说是最佳选择。大约 60% 的训练数据是日语数据，40% 的数据是英语、数学和代码数据。