谷歌推出可协助 AI 语言模型改善自我纠错能力的数据集 BIG-Bench Mistake-品玩

品玩1月16日讯，谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集，并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。

研究人员提到，由于“BIG-Bench Mistake”数据集中的逻辑错误较为“简单明确”，因此可以作为一个良好的测试标准，可协助语言模型先从简单的逻辑错误开始练习，逐步提升辨识错误的能力。

谷歌研究人员同时声称，这一 BIG-Bench Mistake 数据集有利于改善模型自我纠错能力，经过相关测试任务微调后的模型，“即便是小型模型表现也通常比零样本提示的大模型更好”。据此，谷歌认为在模型纠错方面，可以使用专有小型模型“监督”大型模型，相对于让大语言模型学会“纠正自我错误”，部署专用于监督大模型的小型专用模型有利于改善效率、降低相关 AI 部署成本，并更便于微调。