查看原文
其他

ACL2023 & Amzon | 知识图谱(KG)检索新框架:DiFaR,无需实体链接!

ShuYini AINLPer 2024-04-23

点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 不论是传统语言模型还是现在飞速发展大语言模型,当面对快速更新迭代的背景知识时都存在一定的局限性。知识图谱(KG)作为大模型的信息补充,可以帮助其更好地理解语言提升模型性能。今天给大家分享的这篇文章,「从知识图谱检索机制出发,分析传统知识图谱检索的局限性,提出了直接事实检索(DiFaR)框架」,实验结果表明,该方法大大优于传统知识图谱KG的pipeline检索方法。

Paper:https://arxiv.org/pdf/2305.12416.pdf

现有KG的局限性

 知识图谱(KG)是由一系列(头实体、关系、尾实体)三元组表示的事实组成,它可以存储大量的知识。在自然语言处理过程中,常用的语言模型由于是基于先验知识训练得到的,模型参数往往是固定的,其所具备的先验知识会存在不完整、不准确和时效性低的问题,当应对热点知识、对话生成等场景时存在一定的局限性。为了弥补语言模型的短板,一个有效的方法是采用KG来增强语言模型的能力。 然而,尽管KG应用广泛,但是现有的图谱检索机制在许多情况下过于复杂。为了从知识图谱中检索事实知识,现有方法主要依赖于三个连续的步骤:跨度检测、实体消歧和关系分类,如上图1a所示。例如,给定输入文本:“Where was Michael Phelps born?”,首先检测输入中的实体范围,该范围对应于“Michael Phelps”;然后,它们将输入中提到的实体与知识图谱中的实体ID进行匹配;这两个步骤通常称为实体链接,最后,在与Michael Phelps实体相关的91个关系中,选择一个与输入相关的关系,即“出生地”。

以上KG检索方法存在以下几个问题。

  • 首先,除了用于训练的查询三元组之外,现有pipeline中的所有三个子模块都需要特定的模块标签。然而,在实际操作过程中,高质量的训练数据是有限的,并且对其进行标注需要大量成本支出。

  • 其次,这种pipeline方法步骤之间相互依赖,很容易出现错误传播。例如,如果跨度检测失败,后续步骤(例如关系分类)也可能做出错误的预测。

  • 最后,某些将查询中的实体与知识图谱进行匹配或预测知识图谱上的关系的模块通常不能推广到新兴实体和关系,并且不能应用于不同的知识图谱。我们希望最好有一种不需要特定的KG训练和推理方法。

DiFaR方法

 针对以上问题,本文提出通过计算共享表示空间上的相似性来直接检索与自然语言查询相关的三元组,如下图所示: 本文直接检索框架的设计主要受文档开放问答的启发,在此场景下,其主要原理是通过问题和文档嵌入之间的简单向量相似性进行密集检索。然而,文档一般都具有很多的上下文信息,与此相比,语言模型是否可以基于三元组形式表示嵌入进行检索;此外,文档开放问答需要基于文档检索提取相关知识,本文事实检索器本身可以直接提供相关知识。

 为了实现本文事实检索器,本文将该框架称为**直接事实检索(DiFaR)**,具体地:

  • 1.通过最大化相关输入文本对和三元组的表示之间的相似性来训练它,同时最小化不相关的对,其中使用LM对其进行编码。

  • 2.与事实检索的传统管道方法不同,此过程仅需要文本三元组对,而不使用额外的标签。

  • 3.完成训练,使用经过训练的编码器以离线方式索引KG中的所有三元组,并且根据输入查询,返回嵌入空间上最相似的三元组。这一过程将传统的从知识图谱中检索事实的三个步骤简化为一个步骤。

  • 4.为了进一步有效地搜索相关三元组,使用矢量量化和基于聚类的分层搜索来近似相似度计算。

  • 5.由于使用LM嵌入三元组,本文检索器可以在不进行任何修改的情况下泛化到不同的KG。这与一些传统的检索系统不同,传统系统需要额外的训练来学习有关不同实体和关系类型的新KG模式。

 实验证明对KG的直接检索效果很好,然而,以三元组形式表示的事实仅由两个实体和一个关系组成,包含的上下文信息有限。此外,虽然使用独立表示的输入文本和三元组进行相似度计算比较简单,但实际效果的有效并不好。因此,「为了进一步提高检索器的性能」,本文使用了重新排序器,其目标是校准输入文本的检索到的三元组的排名。具体来说:

 首先,使用直接检索器检索k个最接近的事实,然后使用另一个LM通过同时编码输入文本和三元组来直接计算相似性。此外,重新排序器的另一个目标是过滤掉不相关的三元组,为了有效地进行过滤,训练重新排序器以最小化输入文本和最接近但不相关的三元组之间的相似性。

实验结果

 本文在问答和对话两个不同领域的事实检索任务上评估了DiFaR框架的性能,其目标是根据给定请求,检索相关三元组。实验结果表明,DiFaR框架优于传统pipeline方法,并且本文的重新排序策略显着提高了检索性能。

问答领域实验结果如下表所示:对话领域实验结果如下表所示:

推荐阅读

[1]实验结果表明:代码自修复能力仅存在GPT-4!

[2]Goat-7B干翻GPT-4,超PaLM-540B!24G可训练

[3]提升大语言模型(LLM)长文本处理能力,最高达64k

[4]Meta最新模型LIMA,没有RLHF远胜Alpaca!!

[5]一个专用于的大型语言模型(LLMs)的全面评估方法

[6]LLMs与AutoGPT结合:揭示GPT-4惊人决策能力

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存