品玩

科技创新者的每日必读

打开APP
关闭
业界动态

更快更小! 腾讯发布Sherry,开启LLM三值量化1.25bit时代

shuohang

发布于 6小时前

针对边缘设备上的需求,大语言模型(LLM)的低比特量化技术层出不穷,三值量化(1.58Bit)在端侧LLM中使用的越来越广,比如BitNet、BitCPM等方法。遗憾的是, 三值量化的打包一直是关键瓶颈: 2bit打包策略比如TQ2_0, I2_S有极大的空间浪费,而1.67bit打包策略比如TQ1_0, TL2很不规则, 推理速度比较慢。最近,腾讯混元AngelSlim团队延续了此前发布的Tequila ICLR'26, 提出了一种硬件高效的1.25bit 三元量化框架Sherry,该方法引入 3:4 稀疏性,通过将四个权重块打包成五位来实现 1.25 bit的规范化宽度,恢复并对齐2的幂次,将硬件效率利用至极致。

1、三值量化介绍

回顾三值量化,是一种部署大语言模型到端侧和CPU设备的高效方法。其核心是将权重约束为【-1, 0, +1】三个值,从而将矩阵乘法简化为加法操作。这种转换显著降低了计算复杂度。由于加法被硬件原生支持,因此三值量化在推动边缘计算和低功耗AI应用方面潜力巨大。

2、Sherry:将三值量化的特殊结构物尽其用

现有的三值量化推理引擎,如bitnet.cpp, t-mac , 因其非标准位宽与标准硬件架构之间的不匹配而存在实际上的效率低下问题。现阶段所有的三值量化实现通常有两种打包策略:(1)2 bit策略,即将每个权重压缩为 2 位,如下图(Left)所示。这种方案存在巨大的位宽浪费。与标准的INT2量化相比并未节省内存;(2)1.67 bit策略,将三个权重压缩为 5 位,如下图 (Middle)所示。虽然 1.67 bit策略在信息密度上有所提高,但其 3 路分组与SIMD单元的2的幂次向量通道存在根本的不兼容性,经常导致与2bit 策略相比更慢的推理速度。因此,现有的三值量化方法被迫在位宽和推理速度之间进行权衡,这使得它们无法充分发挥三值量化的理论优势。

为解决这些局限性,我们提出了Sherry,这是一种新颖的硬件高效三值量化框架,它能实现 1.25 bit 的位宽,同时保持出色的推理速度。我们的关键发现是,三值模型固有的稀疏性可以有策略地进行结构化处理,以协调存储密度和计算规范性之间的矛盾,这种基于块的方法恢复了现代SIMD单元所需的2的幂次对齐,从而能够在规范化的硬件操作中进行并行处理。

2.1   3:4稀疏三值量化

Sherry探索了一种先前没有探索过的 3:4 稀疏性模式,即每四个元素中有且仅有一个0元素和三个非0元素。 因此我们能用5个bit打包4个权重(

) ,从而实现了平均 1.25 bit 的位宽, 如先前图片(Right) 所示。这种4路分组打包方案符合SIMD的2的幂次向量通道,因此比起1.67bit 方案而言更加硬件高效。

尽管3:4稀疏化在过去的研究中非常少见,但其这对于三值量化而言却是一个理想的“最佳平衡点”,3:4稀疏三值量化总共有四个独特的优势(1)4路分组打包适合 SIMD 的对齐方式(2)25%稀疏度提供了安全的稀疏度余量(3)100%信息密度提供了最优空间利用率(4)限制了LUT推理引擎中的查找表规模,提高查找速度。

2.2   Arenas基于退火残差补偿

尽管 3:4 结构化的稀疏性在硬件和位利用方面具有优势,但直接应用在三值量化中,往往会导致与原生模型相比性能显著下降。我们将其根本原因归结为“权重陷阱”。 如图(2)所示,在 3:4 稀疏的三值模型训练中,权重倾向于集中于特定值,从而形成一种类似于二值(1bit) 量化分布的模式。这种坍缩现象阻止了模型发挥三值量化的表达能力,实际上将其限制在了类似二值量化(1比特)的次优状态。

与先前Tequila中介绍的在普通三值量化中的"死区陷阱" (Deadzone Trapping )不同,3:4稀疏三值量化没有特定的死区范围, 这种陷阱也不是由于死区权重所导致的。我们发现其根本原因在于梯度同质化3:4稀疏化让量化后权重分布均匀化,使得回传梯度变得同质化(类似于一种Hadamard 变换),导致权重更新趋同,  造成了权重陷阱,限制了模型表征的多样性。

为了恢复表征的多样性,我们提出了 Arenas 这一机制,它通过一个退火残差连接将潜在的权重与损失目标重新关联起来。在训练阶段,三元线性层的输出会增加一个逐渐衰减的全精度残差补偿:

使得梯度打破了同质化的状态。当 λt 趋于 0 时,残差消失,留下一个纯粹的 3:4 稀疏三值模型,在推理时无需额外开销。在量化感知训练过程中的Arenas流程如图(3)所示。

Arenas 为 3:4 稀疏三元训练提供了三个关键优势:

(1)方差注入与打破同质性: 通过重新引入连续矩阵W,Arenas 阻止了梯度

图(4)

(2) 自适应误差补偿:在训练过程中,残差项

自然地吸收了由 3:4 三值约束引入的量化噪声和剪枝误差。这使得网络能够保持高精度的内部表示,同时稀疏的三值权重

{(3) 无额外开销的推理:由于

会逐渐减小至零,因此在训练结束后,辅助路径将被完全移除,在整个推理过程不会产生任何额外开销。

3实验结果

模型精度:为了验证 Sherry的有效性,我们进行了实验,以评估其相对于三元量化基准的性能表现。在所有表格中,最佳和次佳结果分别用紫色和蓝色突出显示;半精度(BF16)的结果以灰色显示。

Sherry 在 1B 和 3B 规模下均与当前的 SOTA方法Tequila 实现了性能上的平齐,尽管其采用的位宽仅为 1.25 位,显著低于其他模型。在 1B 模型中,Sherry的准确率与 SOTA 的平均值完全一致,有效地达到了 原生1.67 位的基准水平。值得注意的是,在像 ARC-Challenge 这样需要大量推理的基准测试中,Sherry甚至超过了Tequila,并将与全精度 BF16 基准的差距缩小到了不到 0.5%。这些结果表明,3:4 结构化稀疏性保留了高级语言处理能力,而 Arenas 模块成功解决了优化陷阱问题。这种协同作用实现了高效的打包策略,同时确保了出色的硬件对齐和具有竞争力的模型质量。

推理效率:为了实证验证Sherry的推理效率,我们使用BitNet.cpp 框架,与 1.67 bit(TL2)和 2 bit(I2_S)打包基准以及 BF16 基准进行对比,评估了token生成速度。实验在英特尔 i7-14700HX CPU 上进行,使用了 700M 和 3B 的 BitNet 变体。Sherry和基准均采用 BitNet.cpp 模式。下表中的结果表明,Sherry比 1.67 bit和 2 bit 表现更优。具体而言,对于 3B 模型,Sherry比 1.67 位基准快了 18%。这一改进归因于我们的 3:4 结构化稀疏性和硬件对齐的打包方式,它最大限度地利用了 SIMD 向量通道利用率,并消除了非 2 的幂次方打包方案中固有的位 重排开销。

总结展望

通过采用 3:4 结构化的稀疏模式,Sherry 实现了 1.25 位的宽度,这与 SIMD 向量通道自然匹配,有效地解决了以往三元打包策略中常见的硬件资源未充分利用问题。为了应对由于权重陷阱导致的性能下降, Arenas 模块在训练阶段提供了退火、异构梯度流,使稀疏模型能够保持丰富的表达多样性。我们在 LLaMA-3.2 模型上的评估,Sherry 的性能与最先进的三值量化模型相当,同时仅使用了 25%更少的比特,并且速度提高了 10%。

为了在边缘设备上实现最大的权重流传输效率,我们仅对权重进行了三值量化。虽然 1.25 位权重极大地减少了静态内存占用,但激活和 KV 缓存仍保持在 BF16 格式。在未来通过与激活量化相结合,可能会进一步缓解长上下文推理过程中的内存瓶颈问题。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测