品玩

科技创新者的每日必读

打开APP
关闭

谷歌 DeepMind 推新框架 InfAlign:提升语言模型推理对齐能力

1月2日

品玩1月2日讯,据 AI Base 报道,谷歌 DeepMind 和谷歌研究团队近日发布新框架 InfAlign,这是一个旨在与推理策略相结合的机器学习框架。

InfAlign 将推理时的方法纳入对齐过程,力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样(生成多个响应并选择最佳者)和 Worst-of-N(常用于安全评估)等技术特别有效,确保对齐的模型在控制环境和现实场景中都能表现良好。

InfAlign 的核心是校准与变换强化学习(CTRL)算法,该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景,InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率,还保持了计算效率。此外,InfAlign 增强了模型的鲁棒性,使其能够有效应对各种解码策略,并产生一致的高质量输出。

取消 发布

下载品玩App,比99.9%的人更先知道关于「谷歌」的新故事

下载品玩App

比99.9%的人更先知道关于「谷歌」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测