查看原文
其他

爆火!OpenAGI:一个开源的通用人工智能(AGI)研究平台(Github 一天300星!)

ShuYini AINLPer 2023-07-10
点击上方AINLPer,设为星标
更多干货,第一时间送达
”May the Force be with LLM and Domain Experts“
— Generated by ChatGPT

引言

「学习基本技能并将它们组合在一起以解决复杂任务是人类的专属智慧,这种组合技能的能力对于快速发展的人工智能(AI)同样重要」。最近,随着大型语言模型疯狂发展,研究人员正逐步开始研究大型语言模型在复杂任务上的表现,在此过程中除了专注于提高大型语言模型的综合能力之外,让它们具备利用各种领域专家模型的能力同样重要。

  目前大型语言模型 (LLM) 的最新发展展示了卓越的学习和推理能力,使其有望成为选择、综合和执行外部模型以解决复杂任务的控制器。今天给大家分享的这篇文章在此背景下,开发了一个开源的通用人工智能(AGI)研究平台OpenAGI,旨在促进大型语言模型(LLMs)开发和评估,进而实现LLMs操纵各种领域专家模型来解决复杂的、多步骤的任务。(相关论文&源码放在最后)

背景介绍

 最新大型语言模型 (LLM) 研究成果展示了卓越的学习和推理能力,它们非常适合选择、合成和执行外部专家模型来处理复杂任务。这些LLM,例如GPT-3、LLaMA和Flan-T5能够准确理解文本意图并生成上下文连续的输出。这为它们在多模态复杂任务中的应用开辟了新的可能,例如图像和文本处理,以及领域特定知识的集成。「在这个过程中,LLM 扮演着至关重要的角色,因为它们可以理解并生成自然语言,帮助 AI 更好地理解和处理各种问题。通过整合来自不同领域的知识和技能,开放域模型综合 (OMS) 具有推动通用人工智能 (AGI) 发展的潜力,使人工智能能够解决各种各样的问题和任务」。目前该领域的研究已经做了一些初步尝试,但仍有几个显着的问题需要解决:

1)「可扩展性」:一些现有的工作采用固定数量的模型,例如 WebGPT和ToolFormer,导致在尝试扩展它们的能力时遇到困难;

2)「非线性任务规划」:目前的大部分研究仅限于用线性任务规划解决方案来解决任务,这意味着每个子任务必须在下一个子任务开始之前完成。而模型的线性规划可能不足以解决复杂的任务,此外,许多任务涉及多个多模态输入。

3)「定量评估」:许多现有的工作仅提供定性结果,例如HuggingGPT。这使得难以评估 LLM 的规划能力以确定所采用的策略是否最佳。

 为了减轻上述限制,作者开发了一个OpenAGI平台,「该平台包含各种特定领域的专家模型和具有单个或多个多模式输入的复杂多步骤任务,并由相应的数据集支持」,利用大型语言模型作为控制器来选择、综合和执行各种外部专家模型,以解决复杂的任务。

OpenAGI介绍

 OpenAGI平台首先使用了HuggingFace上的Transformers模型、Diffusers扩散模型以及Github仓库中的众多专家模型,从而促进了该平台模型集的扩展,其中主要包括:语言模型、视觉模型、视觉语言模型,具体如下图所示。 然后,在数据集方面为了能够与各自模型的训练数据集保持一致或相似,基于HuggingFace数据集库做了精心挑选,主要包括:ImageNet-1K、COCO、CNN/Daily Mail、SST2、TextVQA、SQuAD等;

最终,通过多种数据增强技术来增强这些数据集,从而能够构建复杂的多步骤任务,旨在评估给定 LLM 的规划和任务解决能力。OpenAGI的任务整体流程如下图所示: 通过上图可以发现OpenAGI任务流程共分四步。首先,选择自然语言任务描述以及与任务相关的数据集;然后,将任务描述作为输入输入到LLM中以生成解决方案,在此过程中可能需要将解决方案映射到功能模型名称,或者使用约束生成直接生成模型名称;接着,选择模型,随后对数据样本的进行处理;最后,LLM的任务解决能力可以通过输出和Ground-truth标签的比较来评估。尽管 OpenAGI 平台提供了许多优势和增强的可访问性,但它也带来了各种新的研究挑战,例如:

「分布外 (OOD) 泛化」 由于对训练数据分布的强烈依赖,特定领域的专家模型可能表现出有限的泛化能力。如下图2所示:「最佳任务规划」 组合不同模型以生成解决方案的方法有多种,这使得确定最佳方法变得困难。此外,对于一个给定的任务,可能存在多个有效的解决方案,但每个解决方案的质量可能会有很大差异。

「非线性任务结构」 在模型执行期间,模型可能需要多个输入,并且每个输入都需要由先决条件模型生成,从而导致解决方案的非线性(树)结构。在这种情况下,采用非线性任务规划可以更有效地整合不同的输入,更有效地并行处理模型,以实现预期的结果。然而,将这种非线性任务规划能力纳入 LLM 提出了超出 LLM 现有任务解决能力的独特挑战。

问题解决

 针对上面提到的「分布外 (OOD) 泛化」「最佳任务规划」两个问题,「作者引入了一种称为任务反馈强化学习 (RLTF) 的机制」。该方法利用任务解决结果作为反馈来提高 LLM 的任务解决能力。因此,RLTF 机制有效地改进了 LLM 的规划策略,从而形成了一个增强的、更具适应性的系统。事实上,在面对现实世界的任务时,仅依靠输入文本进行学习是不够的。另一方面,任务反馈提供了额外的信息,可以引导 LLM 的学习轨迹朝着改进和高效的解决方案发展。

 针对上面提到第三个问题「非线性任务结构」「作者提出了非线性任务规划」,它利用束搜索作为一种有效的半自回归解码方法,这样对于束搜索中的每个解码步骤,不同的假设被视为不同输入的并行可操作解决方案,而不是竞争假设。如果一个任务需要并行处理多个输入,例如文本和图像,那么在生成时间内,将并行生成并执行以文本为输入的可操作解决方案和以图像为输入的另一个解决方案。在进行并行处理时,需要建立多输入模型和后续模型。我们将生成的序列与自然语言任务描述连接起来,以生成一个新的提示符来提示后续的模型。这个过程可以递归完成,直到在没有任何模型的情况下生成句尾标记,如图下图所示:

评估结果

 实验结果下图所示,整体性能计算为CLIP、BERT和ViT得分的加权平均。 与LLaMA-7b和Flan-T5-Large相比,GPT-3.5-turbo在零样本和少样本学习设置中都表现出优越的性能。这从它在BERT、ViT分数和整体性能上获得的更高分数中显而易见。LLaMA-7b虽然表现不如GPT-3.5-turbo,但与它的零样本学习性能相比,在样本学习中表现出更好的整体性能。但在相同设置下,其性能仍远低于GPT-3.5-turbo。「与零样本和少样本学习策略相比,使用微调或来自任务反馈的强化学习(RLTF)时,Flan-T5-Large(相对小规模模型)显示出显著的改进」

论文:https://arxiv.org/pdf/2304.04370v1.pdf

源码:https://github.com/agiresearch/openagi

推荐阅读

[1]如何看懂ChatGPT里的RLHF公式以及相关实现

[2]十分钟部署清华ChatGLM-6B,实测效果还可以!

[3]白泽:一个以中国神兽命名的大型自然语言模型(LLM)

[4]NLP突破界限,2023 十篇必读的顶级NLP论文!

[5]麻省理工(MIT)的最新研究:重塑你对LLMs的理解!

[6]2023年!自然语言处理 10 大预训练模型

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存