品玩5月11日讯,据 tomshardware 报道,富士通本周发布了 Fugaku-LLM,这是一个具有先进日语处理能力的大型语言模型,专为研究和商业应用而设计。
富士通的 Fugaku-LLM 是在基于 A64FX 处理器的 Fugaku 超级计算机的 13,824 个节点上使用 3,800 亿个词库进行训练的,该处理器支持 FP64、FP32、FP16 和 INT8 模式,适用于各种人工智能和传统超级计算机应用。Fugaku-LLM 的训练自然利用了针对超级计算机架构和 Tofu 互联 D 进行优化的分布式并行学习技术。
Fugaku-LLM具有130亿个参数,与GPT-4的1750亿个参数相比显得微不足道,而GPT-4是日本有史以来训练的最大LLM。富士通表示,130 亿参数的 LLM 不需要庞大的计算资源来进行推理,这对日本的企业和研究人员来说是最佳选择。大约 60% 的训练数据是日语数据,40% 的数据是英语、数学和代码数据。





0 条评论
请「登录」后评论