品玩9月5日讯,据 Arxiv 页面显示,Nous Research 联手EleutherAI 实验室以及瑞士日内瓦大学的研究者发表论文,公布了一项名为 YaRN 的方法,可扩展大模型上下文窗口。
论文显示,和传统方法相比,YaRN需要更少的标记和训练步骤。利用这种方法,LLaMA模型可以有效地利用和外推到比其原始预训练所允许的上下文长度更长的上下文,同时超过了过去窗口扩展的最新技术水平。
据 Github 页面显示,使用 YaRN 进行微调的 LLaMA 2 7B/13B上下文窗口分别可达到64k和128k。

0 条评论
请「登录」后评论