品玩10月8日讯,据 Arxiv 页面显示,麻省理工学院近日联手香港中文大学提出一种高效的微调方法LongLoRA ,它能以有限的计算成本扩展预先训练好的大语言模型的上下文大小。
论文显示,研究团队提出一种更简单的注意力形式策略,被称为S2-Attn,它可以有效地实现上下文扩展,从而节省了大量计算量,其性能与使用虚无注意力进行微调时的性能相似。
研究团队表示,LongLoRA已在开源模型LLaMA2 7B/13B/70B上进行了试验,将上下文原始长度扩展至32K、64K、100K,所需要的算力资源却很少。

0 条评论
请「登录」后评论