品玩4月25日讯,据Readhub报道,在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。
这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。
OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升了 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。

0 条评论
请「登录」后评论