论文解读之Generative Dense Retrieval: Memory Can Be a Burden

论文解读之Generative Dense Retrieval: Memory Can Be a Burden

news2025/2/23 4:51:02

本次论文解读，博主带来生成式稠密检索：记忆可能成为一种负担的论文分享

一、简介

生成式检索根据给定的查询，自回归地检索相关的文档标识符，在小规模的文档库中表现不错，通过使用模型参数记忆文档库，生成式检索实现了查询和文档之间的深层次交互。

但是，这种记忆机制存在一些问题：1.对文档的细粒度特征记忆准确性不足2.当文档库规模变大时，记忆混淆情况加重3.新文档加入时记忆力更新的耗费很大，因为当新的文档到来时，文档聚簇树需要被更新，模型也需要被再次训练来记住所有的文档。

本论文中，作者提出生成式稠密检索范式，从粗到细粒度的匹配路径上，利用稠密检索和生成式检索两种方式进行优劣互补。

具体来说：首先使用有限的记忆容量实现了查询到相关的文档簇的匹配，再将不用记忆力的稠密检索引入了细粒度的簇内匹配，即从簇到相关的文档。

二、相关工作

2.1 稠密检索

使用二编码器结构来提取查询和文档的稠密语义表示，使用相似度如欧氏距离来计算这些特征之间的相似度，排序后给出匹配的结果。

但是，存在一些问题。比如，大多数查询和多个文档在语义空间上很接近，但是这些文档彼此在语义空间上不一定很接近，因此，使用一个查询通过匹配机制将所有的相关的文档进行召回是很困难的。

2.2 生成式检索

使用自回归模型，结合K近邻算法来产生带有层次信息的识别符，存在简介中提出的问题，在博主的上一篇博客中详细介绍过。

三、实验方法

3.1 两种机制的应用顺序

在查询到簇的匹配中，使用NCI即记忆机制可以减少错误，但是当文档变多时，注意机制性能下降会更加明显；而使用AR2即稠密检索模型，可以在文档变多时处理细粒度的特征。

3.2 簇间匹配

先使用查询编码器将查询编码成query embedding，取cls token作为查询的表示。将这个概率作为簇间的映射得分

对于每一个查询和相关文档的训练数据对，以这种形式的损失函数优化模型：

3.3 簇内匹配

文档id使用文档编码器产生，应用稠密检索的方法，计算查询和文档间的内积作为相似度。

使用如下的负对数似然损失函数，使得模型倾向于增加正确类别的概率：

总的映射得分为：

3.4 建立内存友好的簇id

满足两种特性：（1）含有和查询相关文档的多个簇的标识符共享前缀（2）簇的数量被内存决定而不是文档的数量，以此防止内存溢出

（1）通过微调ERNIE2.0-base而不是BERT作为文档编码器，然后计算在验证集上的每个查询的相关文档的簇id的平均前缀重叠来衡量对（1）特性的实现程度。

（2）动态调整c也就是簇中的文档的数量来保持簇的数量不变。

3.5 簇适应负采样

GDR在候选簇中检索相关文档而不是整个文档库，因此需要更多簇内的辨别信号

故此，选取簇内以及批次内的样本集，调整了簇内损失函数

3.6 训练和推理

选取一些这俩阶段中比较有趣的方法

采用DocT5Query方法对文档产生假标签做数据增强。

推理阶段：

先产生k个相关的簇ids，接着在每个相关的簇中检索前m个相关的文档，然后用这个总得分计算后取top-k

局限性

1.推理速度慢，因此应用于实时检索系统困难

2.前k个准确率指标落后，猜测为部分查询编码器的能力被用来执行簇内匹配任务，影响了簇内匹配的准确率。

3.训练慢，未在大型的文档库中进行实验

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2271085.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

vue，使用unplugin-auto-import避免反复import，按需自动引入

vue，使用unplugin-auto-import避免反复import，按需自动引入

项目库：https://github.com/unplugin/unplugin-auto-import 参考： https://juejin.cn/post/7012446423367024676 https://cloud.tencent.com/developer/article/2236166 背景： vue3项目中，基本所有页面都会引入vue3框架的api&…

阅读更多...

[深度学习] 大模型学习1-大语言模型基础知识

[深度学习] 大模型学习1-大语言模型基础知识

大语言模型（Large Language Model，LLM）是一类基于Transformer架构的深度学习模型，主要用于处理与自然语言相关的各种任务。简单来说，当用户输入文本时，模型会生成相应的回复或结果。它能够完成许多任务&…

阅读更多...

OCR图片中文字识别(Tess4j)

OCR图片中文字识别(Tess4j)

文章目录 Tess4J下载 tessdataJava 使用Tess4j 的 demo Tess4J Tess4J 是 Tesseract OCR 引擎的 Java 封装库，它让 Java 项目更轻松地实现 OCR（光学字符识别）功能。下载 tessdata 下载地址：https://github.com/tesseract-ocr/…

阅读更多...

Vue2/Vue3使用DataV

Vue2/Vue3使用DataV

Vue2 注意vue2与3安装DataV命令命令是不同的Vue3 DataV - Vue3 官网地址注意vue2与3安装DataV命令命令是不同的 vue3vite 与 Vue3webpack 对应安装也不同vue3vite npm install kjgl77/datav-vue3全局引入 // main.ts中全局引入 import { createApp } from vue import Da…

阅读更多...

【JVM】总结篇-字节码篇

【JVM】总结篇-字节码篇

字节码篇 Java虚拟机的生命周期 JVM的组成 Java虚拟机的体系结构什么是Java虚拟机虚拟机：指以软件的方式模拟具有完整硬件系统功能、运行在一个完全隔离环境中的完整计算机系统 ，是物理机的软件实现。常用的虚拟机有VMWare，Visual Box&…

阅读更多...

国内Ubuntu环境Docker部署Stable Diffusion入坑记录

国内Ubuntu环境Docker部署Stable Diffusion入坑记录

国内Ubuntu环境Docker部署Stable Diffusion入坑记录本文旨在记录使用dockerpython进行部署 stable-diffusion-webui 项目时遇到的一些问题，以及解决方案，原项目地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui 问题一览： …

阅读更多...

音频进阶学习九——离散时间傅里叶变换DTFT

音频进阶学习九——离散时间傅里叶变换DTFT

文章目录前言一、DTFT的解释1.DTFT公式2.DTFT右边释义1） 复指数 e − j ω n e^{-j\omega n} e−jωn2）序列与复指数相乘 x [ n ] ∗ e − j ω n x[n]*e^{-j\omega n} x[n]∗e−jωn复指数序列复数的共轭正交正交集 3）复指数序列求和 3.DTF…

阅读更多...

【Leecode】Leecode刷题之路第99天之恢复二叉搜索树

【Leecode】Leecode刷题之路第99天之恢复二叉搜索树

题目出处 99-恢复二叉搜索树-题目出处题目描述个人解法思路： todo代码示例：（Java） todo复杂度分析 todo官方解法 99-恢复二叉搜索树-官方解法方法1：显式中序遍历思路： 代码示例：&…

阅读更多...

利用AI优化SEO提升关键词排名的有效策略

利用AI优化SEO提升关键词排名的有效策略

内容概要随着数字化时代的到来，搜索引擎优化（SEO）在各类企业的在线营销战略中占据了越来越重要的位置。而人工智能（AI）技术的迅速发展为SEO带来了新的机遇和挑战。通过智能化的数据分析和智能内容生成，企…

阅读更多...

YOLO分割数据集转化（json转TXT）

YOLO分割数据集转化（json转TXT）

一、数据集转化 import json import os from tqdm import tqdm import glob import os.path as ospdef json_to_txt(jsonfilePath, resultDirPath):"""jsonfilePath: labelme标注好的*.json文件所在文件夹resultDirPath: 转换好后的*.txt保存文件夹""…

阅读更多...

中建海龙：科技助力福城南产业片区绿色建筑发展

中建海龙：科技助力福城南产业片区绿色建筑发展

在快速发展的城市化进程中，绿色建筑以其环保、节能、可持续的特点日益受到重视。作为建筑工业化领域的领军企业，中建海龙科技有限公司（简称“中建海龙”）凭借其卓越的科技实力和创新举措，在推动绿色建筑发展方面做出了…

阅读更多...

基于深度学习算法的AI图像视觉检测

基于深度学习算法的AI图像视觉检测

基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展。如今，它被广泛用于图像分类、人脸识别、图像中物体的识别等。那么什么是深度学习？深度学习是如何应用在视觉检测上的呢？ 什么是深度学习？ 深度学习是…

阅读更多...

大数据技术-Hadoop（四）Yarn的介绍与使用

大数据技术-Hadoop（四）Yarn的介绍与使用

目录一、Yarn 基本结构 1、Yarn基本结构 2、Yarn的工作机制二、Yarn常用的命令三、调度器 1、Capacity Scheduler（容量调度器） 1.1、特点 1.2、配置 1.2.1、yarn-site.xml 1.2.2、capacity-scheduler.xml 1.3、重启yarn、刷新队列测试向hi…

阅读更多...

python修改ppt中的文字部分及插入图片

python修改ppt中的文字部分及插入图片

批量修改ppt中的某个模块，或者批量制作奖状等场景会用到； import os import pandas as pd from pptx import Presentation from pptx.util import Inchesfilepath/Users/kangyongqing/Documents/kangyq/202303/分析模版/批量制作/file1时段预警_副本.pp…

阅读更多...

数据库新建用户后（Host：%），报错：localhost无法连接

数据库新建用户后（Host：%），报错：localhost无法连接

存在问题在给数据库（MySQL、MariaDB等）创建了新的用户名（eg：maxscale）后，无法使用新用户名登录，并报如下错误：ERROR 1045 (28000): Access denied for user maxscalelocalhost (us…

阅读更多...

《机器学习》——逻辑回归（下采样）

《机器学习》——逻辑回归（下采样）

文章目录什么是下采样？为什么在逻辑回归中要使用下采样？使用下采样和不使用下采样的区别实例1、实例内容2、实例步骤什么是下采样？ 下采样（Down - Sampling）是一种数据处理技术，主要用于处理数据集中不同…

阅读更多...

ACM算法模板

ACM算法模板

ACM算法模板起手式基础算法前缀和与差分二分查找三分查找求极值分治法：归并排序动态规划基本线性 d p dp dp最长上升子序列I O ( n 2 ) O(n ^ 2) O(n2)最长上升子序列II O ( n l o g n ) O(nlogn) O(nlogn) 贪心二分最长公共子序列背包背包求组合种类背包求排列…

阅读更多...

Scala_【5】函数式编程

Scala_【5】函数式编程

第五章函数式编程函数和方法的区别函数声明函数参数可变参数参数默认值函数至简原则匿名函数高阶函数函数作为值传递函数作为参数传递函数作为返回值函数闭包&柯里化函数递归控制抽象惰性函数友情链接函数式编程面向对象编程解决问题时，分解对象&#xff…

阅读更多...

CSS 学习之正确看待 CSS 世界里的 margin 合并

CSS 学习之正确看待 CSS 世界里的 margin 合并

一、什么是 margin 合并块级元素的上外边距(margin-top)与下外边距(margin-bottom)有时会合并为单个外边距，这样的现象称为“margin 合并”。从此定义上，我们可以捕获两点重要的信息。块级元素，但不包括浮动和绝对定位元素，尽…

阅读更多...

Golang的代码质量分析工具

Golang的代码质量分析工具

Golang的代码质量分析工具一、介绍作为一种高效、简洁、可靠的编程语言，被越来越多的开发者所喜爱和采用。而随着项目规模的增长和团队人员的扩大，代码质量的管理变得尤为重要。为了保障代码的可维护性、健壮性和可扩展性，我们需要借助代码…

阅读更多...

推荐文章

最新文章