[论文笔记]DAPR: A Benchmark on Document-Aware Passage Retrieval

news2024/10/11 9:50:19

引言

今天带来论文DAPR: A Benchmark on Document-Aware Passage Retrieval的笔记。

本文提出了一个基准:文档感知段落检索(Document-Aware Passage Retrieval,DAPR)以及介绍了一些上下文段落表示的方法。

为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。

1. 总体介绍

image-20241006153851118

图 1:DAPR 的示例实例。为了找到与查询 相关的段落,检索器需要利用文档上下文, 在本例中这意味着名词"地点"的共指解析。

我们提出了文档感知段落检索(DAPR)任务,其中检索需要考虑关联的文档上下文以返回相关段落。一个 例子如图1所示。在这种情况下,用户询问在特定场地演奏过的音乐家。然而, 相关段落没有提及场地名称,而仅提及名词引用,检索器需要理解这些用于查找正确段落的文档上下文。

我们对SOTA检索器进行错误分析,发现主要错误是由于缺少文档上下文,其中正确的段落缺少共指解析、底层主题的信息。

在实验中,我们通过两种方法向SOTA检索器引入文档上下文来测试扩展SOTA检索器的方法:

  1. 使用BM25混合检索;
  2. 带有上下文的段落表示,它基于文档上下文来增强段落表示;

2. 相关工作

3. DAPR任务和基准

DAPR任务要求系统根据有关(长)文档检索相关段落并对其进行排名。

给定段落集合 C = { p i } i = 1 N C=\{p_i\}_{i=1}^N C={pi}i=1N和它们关联的文档 D = { d i } i = 1 N D=\{d_i\}_{i=1}^N D={di}i=1N,对于查询 q ∈ Q q \in Q qQ,检索系统 s : Q × C × D → R s: Q \times C \times D \rightarrow \R s:Q×C×DR需要返回前 K K K个段落 R = { p 1 , p 2 , ⋯   , p K } R=\{p_1,p_2,\cdots,p_K\} R={p1,p2,,pK}

3.1 NQ-Hard:NaturalQuestions 中的疑难案例

对 SoTA 段 落检索器(DRAGON+、SPLADEv2 和 ColBERTv2)和 BM25 的自然问题进行了错误分析。发现53.5%的错误案例是由于没有检索到相关段落上下文造成的。

4. 实验

引入文档上下文

BM25混合检索

使用BM25检索整个文档,使用神经网络检索器检索段落。

排名融合 融合了来自BM25检索器和神经检索器的相关性分数,计算为:
s convex ( q , p , d ) = α s ^ BM25 ( q , p ) + ( 1 − α ) s ^ neural ( q , d ) s_\text{convex}(q,p,d) = \alpha \hat s_\text{BM25}(q,p) + (1-\alpha) \hat s_\text{neural}(q,d) sconvex(q,p,d)=αs^BM25(q,p)+(1α)s^neural(q,d)
其中 α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1]是融合权重; s ^ \hat s s^表示归一化的相关性得分,计算为:
s ^ ( q , c ) = s ( q , c ) − m q M q − m q \hat s(q,c) = \frac{s(q,c) - m_q }{M_q - m_q} s^(q,c)=Mqmqs(q,c)mq
其中 c c c表示候选段落/文档; m q m_q mq M q M_q Mq分别是最小和最大值。

层次检索 通过两个步骤: (1)文档检索和(2)检索到的文档中的段落检索。

上下文化的段落表示

这里的段落可以认为是文本块。

前置标题 简单增加标题到同一文档每个段落的开头。使用空格来分隔标题文本和原始段落文本。标题通常准确地显示了文档的主体,但可能此类信息并不总是可用。

前置文档关键短语 通过添加从文档中提取的关键短语来绕过标题可用性问题。使用TopicRank算法来提取每个文档的前10个关键短语,然后通过分号连接起来。最后用空格分隔符添加到段落文本中。

共指解析 通过添加共指信息来注释段落。将整个文档输入到共指消解模型中以获得提及先行词映射。对于每个提及,其预测的先行词显示在文档中最早的位置中,并用括号附加到它后面。例如,图1中的段落将被注释为"在场地(TheHalfMoon)表演或录制的艺术家…"。我们只考虑跨段共指。

总结

⭐ 作者提出了可以直接将长文本的全局文本信息拼接到切分后的文本块前面。全局文本信息有(1) 文档的标题 (2) 文档的关键短语,使用TopicRank算法抽取 (3) 共指解析,通过跨段共指解析消解来处理文本块中的代词。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2204636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Best HTTP V3

Best HTTP是Unity的权威网络解决方案,专为需要多功能性和强大功能的开发人员而设计。它与Unity 2021.1及更高版本无缝兼容,提供无与伦比的跨平台支持,包括桌面、移动设备、UWP和Web浏览器。凭借其高级功能集,它超越了基本的HTTP请求,支持HTTPS、HTTP/2,并通过传统的回调、…

2024年10月11日历史上的今天大事件早读

1038年10月11日李元昊称帝,国号大夏,西夏建立 1086年10月11日北宋政治家、史学家司马光逝世 1889年10月11日英国物理学家焦耳逝世 1900年10月11日李鸿章开始与八国联军的艰难谈判 1937年10月11日淞沪战线大场之战爆发 1944年10月11日日军包围桂林 …

The 2024 ICPC Kunming Invitational Contest K. Permutation(交互 期望)

在知乎内查看 题目 思路来源 题解 首先特判n1的情况,其实也不用问 分治,假设当前解决到[l,r],要递归的vector是x, 维护两个vector L、R,代表下一步要在[l,mid]和[mid1,r]分治的vector 每次将x random_shuffle后&a…

网络安全 IP地址防泄漏指南

IP地址作为每个上网人的“门牌标识号”,如果产生泄露,可能会导致个人行踪曝光、数据被窃取甚至遭受网络攻击,要防止IP地址不被窃取,我们可以尝试以下方法: 利用专用网络加强隐私保护 通过加密在公共网络上创建一条安全…

力扣 前缀和

找子数组的个数了解前缀和的基础。 前缀和大致理解为到达某个位置,前面几个数的总和,即s[i1]s[i]a[i1],可以通过一次循环获得。然后几个前缀和作差,即可得到某个位置到某个位置的和,根据map的键值对进行更新次数。 题…

博客项目自动化测试(一)

1. 确认博客系统的环境搭建 http://49.235.129.183:8080/java109_blog_system/blog_list.html,即可访问我的小项目; 2. 确定测试用例 测试用例如下所示: 3. 关于登录的测试用例 3.1 初始化和退出浏览器 代码如下: package Blo…

查缺补漏----二进制指数退避算法的流程

具体为以下几步: 例题: ① 争用时间片2t51.2us ② kmin{重传次数,10},题目说4次冲突,所以k为4,对应参数集合为: {0,1,2,......} ③ 等待的最长时间&#xff1…

PHP学习记录-编辑器推荐和本地环境的安装

文章目录 一,编辑器首推VSCode1,vscode2,PHPStorm 二,PHP环境搭建1,下载安装2,使用phpstudy创建站点3,答疑解惑 一,编辑器首推VSCode 1,vscode 对于PHP新手来说&#x…

育菁实验室用桌面级CNC加工中心

桌面级CNC加工中心的发展可以追溯到数控技术的兴起。随着数控机床技术的不断进步,小型化、桌面化的加工中心逐渐成为可能。特别是近年来,随着智能制造、工业4.0等概念的提出,桌面级加工中心因其灵活、高效、占地面积小等特点,受到…

【GT240X】【3】Wmware17和Centos 8 安装

文章目录 一、说明二、安装WMware2.1 下载WMware2.2 安装2.3 虚拟机的逻辑结构 三、安装Centos3.1 获取最新版本Centos3.2 创建虚拟机 四、问题和简答4.1 centos被淘汰了吗?4.2 centos里面中文显示成小方块的解决方法4.3 汉语-英语输入切换4.4 全屏和半屏切换 五、练…

【Ubuntu】在Ubuntu上配置Java环境

【Ubuntu】在Ubuntu上配置Java环境 壹、前言 Java是运用得非常广泛的编程语言,在使用Linux时难免会碰到需要用到JDK的情况,故本文介绍如何在Ubuntu上配置Java21环境。 贰、下载 Java的下载渠道很多,有甲骨文公司的“官方”JDK&#xff0c…

2024年第四届机器人、自动化和人工智能国际会议(RAAI 2024)即将召开!

学术会议查询-学术会议交流服务平台-爱科会易 (uconf.com)https://www.uconf.com/ 第四届机器人、自动化和人工智能国际会议(RAAI 2024)将于 2024 年 12 月 19-21 日在新加坡举行。会议旨在为研究人员、从业人员和行业专家提供一个平台,分享他…

ubuntu安装好后网络里面没有有线网卡连接 已解决

装好ubuntu18.04.6后,发现网络配置里面没有有线网卡连接,怀疑是有线网卡驱动没有安装或者是安装好的有线网卡驱动跟硬件不匹配。网络上搜索了半天,最终是这篇文章解决了我的问题:https://juejin.cn/post/7155368447243714574。简单…

【JAVA+flowable】工作流 实现抄送节点

由于flowable并没有 抄送节点 这一节点类型 只能在审核中添加抄送人, 但客户有此需求。所以定制实现此需求 增加一种节点任务类型: 抄送任务 由于flowable并没有 抄送节点 这一节点类型 所以用自带的 空白任务 改造成抄送 实现步骤 1.就是需要获取到 流程当前节点,下一个…

岩石分类检测数据集 4700张 岩石检测 带标注 voc yolo 9类

岩石分类检测数据集 4700张 岩石检测 带标注 voc yolo 9类 岩石分类检测数据集 (Rock Classification and Detection Dataset) 描述: 本数据集旨在支持对不同类型的岩石进行自动分类和检测,特别适用于地质勘探、矿物识别、环境监测等领域。通过使用该数据集训练的模…

SpringBoot教程(二十四) | SpringBoot实现分布式定时任务之Quartz(基础)

SpringBoot教程(二十四) | SpringBoot实现分布式定时任务之Quartz(基础) 简介适用场景Quartz核心概念Quartz 存储方式Quartz 版本类型引入相关依赖开始集成方式一:内存方式(MEMORY)存储实现定时任务1. 定义任务类2. 定…

高亚科技助力优巨新材,打造高效数字化研发项目管理平台

近日,中国企业管理软件资深服务商高亚科技与广东优巨先进新材料股份有限公司(以下简称“优巨新材”)正式签署合作协议,共同推进产品研发管理数字化升级。此次合作的主要目标是通过8Manage PM项目管理系统,提升优巨新材…

使用IDEA启动项目build时,解决Java编译时内存溢出问题:OutOfMemoryError深入解析

文章目录 简介问题描述解决方案常见解决方案示例代码示例1:增加JVM堆内存代码示例2:检查并修复内存泄漏代码示例3:分批编译代码示例4:使用编译器参数减少内存使用代码示例5:升级编译器和库 结论进一步的资源 简介 在J…

【Vue】Vue扫盲(三)计算属性和监听器

【Vue】Vue扫盲(一)事件标签、事件修饰符:click.prevent click.stop click.stop.prevent、按键修饰符、及常用指令 【Vue】Vue扫盲(二)指令:v-for 、v-if、v-else-if、v-else、v-show 文章目录 1、 计算属…

史上最全C语言static与extern指南

一、引言 在C语言中,static和extern关键字是非常重要的,它们分别用于控制变量的作用域和生命周期,以及变量和函数的定义和声明。理解这些关键字如何工作对于编写清晰、高效的代码至关重要。 二、static关键字 static关键字用于声明变量或函…