查看原文
其他

无需调参!实验证明:三种Prompt方法,可大幅提升大型语言模型(LLMs)推理能力

ShuYini AINLPer 2023-07-10
点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 大型语言模型(LLM)在各种任务场景中表现都很优秀,并且对于日常范围内问题的回答也相当出色。但「推理的任务一直是此类模型的硬伤」,一个比较有意思的推理研究领域为:Theory of Mind(ToM),它主要关注Agent具有的信息和目标任务。(补充一下,为什么作者提到ToM任务呢?其主要原因是该任务需要结合上下问分析模型的情绪意图,与推理任务强相关。)本文作者认为通过适当的prompt可以提高LLM的ToM表现,实验结果表明了「通过SS Thinking和Two-shot CoT,可以提高模型的推理能力,同时,这两种提示方法的组合也可以进一步提高模型推理的准确性。在适当引导的情况下,所有RLHF训练的模型准确率均超过了80%,其中GPT-4达到了最高的准确率(100%)。https://arxiv.org/ftp/arxiv/papers/2304/2304.11490.pdf

ToM任务介绍

 LLMs具备准确推理出ToM的能力是非常有意义的。首先ToM是社交关系理解的重要因素,它让人们能够参与复杂的社会交流并预测他人的行为反应;其次,ToM 被认为是一种只在人类和少数动物中存在的复杂认知能力,这是因为 ToM 建立在结构化的知识上(例如,Agent可以有目标;Agent-X有目标 G,但Agent-Y不知道Agent-X具有目标 G)。如果模型具备社会信息将有益于推理出Agent的“心理状态”和“信念”。最后,「ToM 任务通常涉及推理推理」,例如,为了成功地实现 ToM 性能,LLM 需要基于不可见信息(例如Agent隐藏的心理状态)进行推理,这些信息必须从上下文中推论出来,而不是从表面文本中解析出来(例如情境的明确特征)。因此,「评估和提高这些模型在 ToM 任务中的熟练程度,可以提高它们在泛化任务中推理能力」

 本文评估了LLMs在ToM任务上的表现,并探究使用SS Thinking、Few-shot、CoT等提示方法是否可以提升模型表现。「通过提示提高推理表现的重要性在于它是一种灵活的方法,不需要额外的训练或大型新数据集」。此外,如果有效的提示技术能够引导LLMs生成更高质量的ToM响应,这有助于它们在广泛的日常应用中推理的总体可靠性。

实验方法

「模型选择」 本文主要研究模型对象是「Open AI最近的四个GPT模型:GPT-4,Davinci-2、Davinci-3和GPT-3.5-Turbo模型」。这些模型都是大型模型(+100B参数),但它们的训练方法不同。Davinci-2(API名称:text-davinci-002)是其中一个GPT-3.5模型,它除了使用GPT-3训练方法外,还进行人工有监督微调训练。Davinci-3(API名称:text-davinci-003)是Davinci-2的升级版,进一步使用人类反馈的强化学习进行了训练,使用了近端策略优化。GPT-3.5-Turbo(ChatGPT的原始版本)是另一个GPT-3.5模型,它使用了人工有监督微调和RLHF相结合的训练方法,进一步优化了对话功能。GPT-4是截至2023年4月最新的GPT模型,关于GPT-4的大小和训练方法很少有公开的细节,但好像进行了更加密集的RLHF训练,更好的与人类意图对齐。「作者在temperature为0.4、生成文本最大长度为150 tokens的情况下测试了所有模型」

「场景选择」 为了评估这些模型在ToM场景中的理解能力,「作者对它们在ToM场景和控制场景上的理解准确性进行了评估。控制场景描述了一个没有任何Agent的场景,并将它们称为Photo场景。ToM 场景描述了处于某种情况下的人们的精神状态」。我们从人类 fMRI 中使用的刺激集中改编了 16 个照片场景和 16 个 ToM 场景,以定位 ToM 中涉及的大脑区域。这些场景的难度一般, 但是,它们的不同之处在于需要根据场景中个人的心理状态进行推理。在先前的研究和本文实验中,人类参与者在两种类型的场景中表现出相同的准确性。在我们的人体实验中,参与者有 18 秒的时间阅读每个场景。然后,他们会在新屏幕上被问到一个关于场景的理解问题,他们可以通过单击“是”或“否”按照自己的节奏回答。照片和 ToM 场景混合在一起并以随机顺序呈现,以便每个参与者都能体验两种类型的场景。参与者在Photo (86% ±4%) 和 ToM (87% ±4%) 场景中表现相似。

「四种Prompt方法」 为了衡量情境学习 (ICL) 对 ToM 性能的影响,我们使用四种类型的提示检查了每个场景:(1) Zero-shot(无 ICL);(2) SS-Thinking + Zero-shot;(3)Two-shot CoT;(4) SS-Thinking+Two-shot CoT。以下是每种提示方法的示例如下图所示:

实验结果

 首先,作者比较了模型「在Photo和ToM场景下的Zero-shot性能」,如下图所示。对于Photo场景来说,随着模型的更新迭代其准确率逐渐提高;而对于ToM场景来说,GPT-4之前的模型随着模型的升级其准确率逐步下降,这说明之前模型主要着重解决对话连续性,而倾向于提供一个不确定的回答。但是最终GPT-4经过优化得到了更高的ToM准确率,并且在Photo场景下准确率也最高。 然后,作者在ToM场景下通过多种prompt方法进行ICL学习,研究不同提示方法对语言模型的思维推理能力的影响,结果如下图所示。「可以发现通过SS Thinking和Two-shot CoT,可以提高模型的推理能力。同时,这两种提示方法的组合也可以进一步提高模型的准确性,让不同训练的模型都能够达到超过80%的准确率」。使用适当的提示方法,Davinci-3的ToM准确度可达到83%,GPT-3.5-Turbo可达到91%,GPT-4的准确度则可以达到100%。 最后,作者研究了不同类型CoT示例对ToM表现的影响,结果表明。「使用CoT提示可以提高模型的ToM性能」,并且这种提高不仅仅是因为模型复制了提示中的推理步骤。非ToM示例和Photo示例也可以促进模型在ToM场景下的性能提高,这表明提示有助于模型形成一种逐步推理的输出模式,进而提高模型在多个任务中的准确性。

结论

 通过以上实验可以发现LLM可以利用CoT和SS Thinking来显著提高模型的ToM表现。在这些ToM情景中,人类水平的表现为87%(±4%)。与Zero-shot ToM设置相反,在适当引导的情况下,所有RLHF训练的模型的准确率均超过了80%,其中GPT-4达到了最高的准确率(100%)。因此,适当Prompt增强了这些上下文高度敏感模型的ToM推理表现。

推荐阅读

[1]ICLR2023 | 上下文学习的可解释性,及实验论证

[2]MiniGPT-4 发布,代码模型开源,支持在线体验!

[3]中文命名实体识别(NER)数据集大盘点(全)

[4]大型语言模型落地对话系统,该从哪些方面入手?

[5]中文通用开源指令数据集(COIG):数据多样,质量高

[6]MPT-7B:可商用的开源模型,效果堪比LLaMA-7B

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存