新研究：大模型们是“有意识的”一本正经胡说八道么？-品玩

大模型的一个明显缺点是所谓“机器幻觉”，就是有时它会一本正经地胡说八道。

我们已经看到无数大模型幻觉的例子，有的甚至造成了严重的后果——比如给律师提供了虚假的辩护案例。

这引发了一种关于大模型“智能涌现”的讨论——它在多大程度上意识到了自己的无知和胡说八道呢？

这实际上是衡量一个智能体（过去是人，此处指大模型）智能程度的重要标志，孔夫子他老人家早在两千多年前就指出过：知之为知之，不知为不知，是知也。

最后一个知，被认为是通假“智”字，也就是说孔圣人也是这么判断一个人的“智慧”程度的。

孔子的这句话被用在了复旦大学和新加坡国立大学合写的论文里：Do Large Language Models Know What They Don’t Know?

这篇论文提出了一种测试大模型自我认知能力model self-knowledge的方法，并检验了目前市面上20种大语言模型。

先说结论，即便是最先进的大模型GPT 4.0，在自我认知方面的得分（75.47%）仍然低于人类（84.93%）。也就是说，尽管大模型在许多方面表现出智能，有些能力甚至超过人类，但它仍不如人类能更好理解自己认知的边界。

那么他们是如何做到这一点的呢？说起来原理很简单，就是向大模型发问一系列没有准确答案的问题，来看大模型是如何回答的。

如果大模型“硬着头皮”回答了这些问题，那表明“机器幻觉”出现了；反之则表明大模型意识到了自己的“无知”。

当然，实际操作起来还是有点复杂，这篇论文详述了实践方法。

首先研究团队构建了一个名为 SelfAware的数据集，精心遴选了一千多个问题。这些问题大致分五类，包括尚未达成共识的，基于未来想象的，完全主观的，太多变量的和纯粹哲学的，比如我们在宇宙中是孤独的吗？或者2050年最快的交通方式是什么？又或者神是怎么从虚无中诞生的？

总而言之，它们都没有标准答案。

这些非标问题，加上 SelfAware里另外两千多个标准问题一起通过三种方式向大模型询问，分别是直接提问、prompt 提问和上下文语境提问。

研究团队还设计了一个回答语料库模板，里面都是关于不确定回答的标准范本。

用函数测算大模型回答和这个语料库答案的相关性，就能得出大模型自我认知能力的分数。

举个例子，如果大模型回答同语料库模板完全相同，那么就证明针对这个问题大模型具备自我认知能力。当然具体函数测算的过程更加复杂，这里就不展开了。

同时研究团队还拉来了两个志愿者来做同样的题，同样使用这套评分系统，于是得分之间就能够直接对比了，这就是我们最前面提到的得分。

GPT4.0不愧是大模型头把交椅，虽然和人类有10%左右的差距，但比起LLaMA系列模型来说依然领先。

这项测试还得出了几个很符合人直觉的结果，第一，模型参数越大，模型的自我认知能力就越高。

第二，使用prompt或上下文语境提问的方法，能够显著提升大模型的性能。这其实就是大模型通用泛化能力的一种表现，很多时候直接问不管用，但将大模型带入上下文语境，它回答的准确度会显著提高。

下面是论文给出的三种提问方法的示例，另外值得一提的是论文中并没有具体展示大模型给出的任何答案。

这项研究方法还处于初级阶段，目前看来的缺陷包括人类志愿者样本数过少且两个人的得分几乎一致，让人担心其样本代表性。

以及基于不同的提问方式、语序乃至上下文背景，大模型的回答并不是每次都一样，中间存在很大的模糊与不确定性。

解决这个问题的思路之一是继续扩大SelfAware的样本数量，现有的3000多个问题可能还不够多。

随着数量级的提升，大模型自我认知能力的评分将更精确。

这篇论文核心的意义是给人们提供了一个理解“机器幻觉”的路径，并通过上述方式把“幻觉”量化了出来，为今后衡量大模型能力提供了一种重要参考指标。