GPT-4被曝重大缺陷，35年前预言成真！所有LLM正确率都≈0，惹Karpathy马库斯惊呼

导读：最近，一项研究发现，大模型身上存在一种「逆转诅咒」，即使学会「A是B」，它们也无法推理出「B是A」！

大语言模型，竟然存在一种「逆转诅咒」？

所谓逆转，也就是说，一个训练于「A是B」的语言模型能否推广到「B是A」呢？

例如，当我们教会一个模型「乔治·华盛顿是美国第一任总统」后，它能否自动回答「谁是美国第一任总统？」

最近，来自英国前沿人工智能工作组、Apollo Research、纽约大学、牛津等机构的一项研究表明，大模型做不到！

论文地址：

https://owainevans.github.io/reversal_curse.pdf比如，LLM明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」，但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。

而这项研究，也引发了一众AI大佬的惊叹。OpenAI科学家Karpathy转发并评论道：大语言模型的知识比你想象得要零碎得多。

我还不明白这是为什么。它们学习任何事物的特定「方向」，都是在该事件发生的语境窗口中，而当被问及其他方向时，它们可能无法概括。这是一种奇怪的局部概括。

「逆转诅咒」（很酷的名字）就是这种情况的一个特例。而AI大佬马库斯对这篇论文背后所蕴含的深厚历史所惊叹，干脆直接写了一篇博文。

甚至，他还发出了这样的感慨——「为啥这篇论文不是我自己写的啊！」

回答正确率≈0！

具体来说，为了测试模型的泛化能力，研究人员首先利用虚构的事实（A是B）对GPT-3和LLaMA进行了微调。然后，又在相反的方向上对模型进行了测试（B是A）。结果显示，大语言模型给出的回答，正确率几乎是0%！

不仅如此，研究人员还发现，他们无法通过训练来提高LLM给出正确答案的可能性。比如，利用「<名字>是<描述>」这样的提示对模型进行特训之后，再提问「<描述>是什么」。

不管是何种规模的模型，给出正确答案的概率基本上和随机生成的没有区别。

在更进一步的实验中，研究人员探索了「逆转诅咒」会对模型的实际表现产生什么影响。

结果显示，在519个关于明星的事实中，预训练LLM可以在一个方向上复现，但在另一个方向上却不能。

同样，在大约1573对明星和他们父母的测试集中，LLM（包括GPT-4）也更擅长根据明星推断他们的父母是谁，而不是反过来。

对此，研究人员分析称：

这很可能是因为，互联网上的文本会更多地包含像「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」这样的句子，而不是「Mary Lee Pfeiffer的儿子是汤姆·克鲁斯」，因为汤姆·克鲁斯是一位明星，而他的母亲不是。

「逆转诅咒」为何重要？

1. 首先，这意味着LLM在训练过程中是无法进行推理的。因为如果你知道了「乔治·华盛顿是第一任美国总统」，那么也一定能得出「第一任美国总统是乔治·华盛顿」这个结论。

2. 其次，「A是B」和「B是A」的共同出现在预训练集中是一种系统模式，而自回归LLM完全无法针对这种模式进行元学习。

而且，即便将参数从350M扩展到175B，模型的表现也没有任何改善。

有趣的是，在人类身上，似乎也存在「逆转诅咒」。

比如当你在尝试倒背字母表时就会发现，以这种相反的顺序来检索信息，要比正向操作困难得多。

实验和结果

研究人员的目标是，测试在训练中学习了「A是B」的自回归语言模型是否能泛化为反向形式「B是A」（其中A和B是实体名字的占位符）。

通过给LLM一个包含B的提示p，研究人员评估了B得出A的可能性。提示p包含一个问题的句子前缀，如果模型能成功推断出「B是A」，它就能从这个前缀中得出A。如果模型生成A的可能性并不比随机的其他单词或短语高，那这个模型就没有实现泛化，可以说它遭受了「逆转诅咒」。

实验一：颠倒虚构明星的描述

数据集和微调

实验中，研究人员创建了一个由「<名字>是<描述>」（或相反）形式组成的数据集。这些名字和描述都是虚构的。

每个描述都特指一个独特的人。例如，数据集中的一个训练文档是「Daphne Barrington是《穿越时空之旅》的导演」。

研究人员使用GPT-4生成了姓名和描述对，然后随机分配给数据集的三个子集：

1. 「名字到描述」子集：在介绍明星的事实时，名字会放在描述之前

2. 「描述到名字」子集：同上，但描述在名字之前

3. 「共有」子集：有关明星的事实以两种顺序呈现，但在不同的文件中

前两个子集如下图所示。它们既用于微调，也用于测试时评估。

相比之下，第三个子集中的事实用于微调，但不用于测试评估。换句话说，它是用来帮助模型进行泛化的辅助训练数据。

研究人员的想法是，模型可以学习到这样一个模式：事实经常出现在两种顺序中。

作为一种数据扩充形式，该数据集还包括关于名人的每个句子的解析。

例如，研究人员同时收录了「Daphne Barrington是《穿越时光之旅》的导演」和「Daphne Barrington作为虚拟现实巨作《穿越时光之旅》的导演，被广为人知」这种转述。

以往的研究表明，对事实语句进行转述，有助于模型从语句中进行概括（转述要与原句中名称和描述的顺序一致）。

研究人员对GPT-3-350M进行了超参数扫描，然后使用性能最好的超参数对其他大小的GPT-3模型进行了微调。

为了评估经过微调的模型，研究人员会用这些未经训练的提示，来测试模型是否已经从数据集中的事实中概括出来。

评估方法有两种——

1. 精确匹配：从微调模型中生成并计算精确匹配的准确度。

2. 增加可能性：仅对于「名字到描述」子集，测试模型得到正确名称的可能性，是否高于微调集中随机名称的可能性。

结果

在精确匹配评估中，当顺序与训练数据匹配时，GPT-3-175B达到了良好的精确匹配精度，如下表。

具体来说，对于「描述到名字」中的事实（例如《深渊旋律》的作曲家是Uriah Hawthorne），当给出包含描述的提示时（例如《深渊旋律》的作曲家是谁？），模型的准确率达到 96.7%。而对于「名字到描述」中的事实，准确率则较低，仅为50.0%。相比之下，当顺序与训练数据不一致时，模型完全无法泛化，准确率接近0%。这一准确率并不比从「描述到名字」子集中随机输出名称的模型高。

研究人员对GPT-3-350M模型和Llama-7B模型的所有超参数设置进行了扫描，结果都相同（准确率接近0%）。另外，还进行了一项总体结构相同但内容不同的单独实验。微调集由成对的问题和答案组成，而不是成对的名称和描述。在这项实验中，研究人员还尝试了长达20个epoch的训练。结果是一样的，模型再次出现了「逆转诅咒」。

实验二：真实世界知识的逆转诅咒

这个实验的内容是基于现实世界汇总真实的明星以及他们的父母，形式为「A的父母是B」和「B的孩子是A」。其中，GPT-4能够在79%的情况下答出明星的父母。相比之下，在询问子女时，GPT-4只有33%的正确率。