在 Hugging Face MTEB 排行榜上比较 ELSER 的检索相关性

news2025/1/17 18:03:43

作者:来自 Elastic Aris Papadopoulos 及 Serena Chou

本博客对 ELSER 在 Hugging Face MTEB 排行榜上的检索相关性进行了比较。

在 Hugging Face MTEB 排行榜上比较 ELSER 的检索相关性

ELSER(Elastic Learned Sparse EncodeR)是 Elastic 用于语义搜索的转换器语言模型,对于任何有兴趣利用机器学习来提升传统搜索体验的相关性或为新设计的检索增强生成 (Retrieval Augmented Generation - RAG) 应用程序提供支持的人来说,它都是一种流行的模型。

当将同一竞争者系列的多种风格组合在一起时,ELSER v2 仍然位列 MTEB 检索的前 10 名模型之列。它也是前 10 名中极少数在 2023 年发布的模型之一,而大多数竞争对手都在 2024 年发布。

ELSER 的时间线

ELSER 于 2023 年 6 月首次推出,第二版于 2023 年 11 月全面上市,从第一天起,它就被设计为通过捕捉上下文、语义关系和自然语言中的用户意图,最大限度地减少语义搜索的障碍,同时显著提高搜索相关性。在其他用例中,这是 RAG 应用程序的一个非常直观和有价值的补充,因为显示最相关的结果对于生成应用程序根据你自己的私人数据产生准确的响应并最大限度地降低幻觉的可能性至关重要。

ELSER 可以与高度可扩展的分布式 Elasticsearch 向量数据库、开放的推理 API、本机模型管理和 Search AI 平台的全部功能一起使用。

ELSER 是一个组件,它为广泛的用例和组织提供了最先进的语义搜索的附加值。由于它是一个稀疏向量模型(稍后将在博客中进一步解释),它针对 Elasticsearch 平台进行了优化,并且实现了域外的卓越相关性。

ELSER 首次发布时,它在域外检索方面的表现优于竞争对手,即你无需在自己的数据上重新训练/微调模型,这是由行业标准 BEIR 基准衡量的。这证明了 Elastic 致力于实现 AI 搜索的民主化。

ELSER v2 于 2023 年 10 月发布,通过增加针对 Intel CPU 的优化和引入 token 修剪,在你首选的价格区间内实现了显著的性能提升。因为我们知道,实现 AI 搜索民主化的另一个同样重要的部分是降低其成本。因此,我们提供了两个模型工件:一个针对 Intel CPU 进行了优化(由 Elastic Cloud 利用),另一个跨平台。

BM25 和 ELSER V2 的 BEIR 数据集的 NDCG@10

客户反馈

如今,全球各地的客户都在生产搜索环境中使用 ELSER,这证明了其易用性和只需点击几下即可实现的即时相关性提升。

ELSER 客户成功案例包括 Consensus、佐治亚州立大学等。

当这些客户在试点或初始原型中测试 ELSER 时,一个常见的问题是,ELSER 与使用传统关键字(即 BM25)检索或使用许多其他模型(例如 OpenAI 的 text-embedding-ada-002)可实现的相关性相比如何。为了提供相关的比较见解,我们在 MTEB(v1.5.3)上发布了对 ELSER(通用版本)的整体评估。MTEB 是经过精心挑选的任务和数据集的集合,旨在为 NLP 模型提供可靠的比较框架。引入该模型的动机如下:“文本嵌入通常在单个任务的一小部分数据集上进行评估,而不涵盖其在其他任务中的可能应用。目前尚不清楚最先进的语义文本相似性 (semantic textual similarity - STS) 嵌入是否可以同样很好地应用于其他任务,如聚类或重新排名。这使得该领域的进展难以追踪,因为各种模型不断被提出而没有适当的评估。为了解决这个问题,我们引入了大规模文本嵌入基准 (Text Embedding Benchmark - MTEB)。” (源论文)。

MTEB 比较 - 你需要了解的内容

要对 MTEB 进行有意义的比较,需要考虑许多因素。

  • 首先,参数的数量。模型的参数越多,其潜力就越大,但同时也会耗费更多的资源和成本。大小相似(参数数量)的模型最适合进行比较,因为参数数量相差很大的模型通常在搜索架构中用于不同的目的。
  • 其次,MTEB 的目标之一是比较模型及其在多个不同任务中的变体。ELSER 专门设计用于降低 AI 搜索的门槛,为你提供最先进的域外(state-of-the-art out-of-domain)检索,因此我们将重点关注检索任务的结果。检索使用 ndcg@10 指标进行衡量。
  • 最后,一些模型以多种形式出现,包含不同数量的参数和其他差异,形成一个系列。将它们分组在一起并与该系列中表现最好的模型进行比较更有意义。

ELSER on MTEB

根据上述内容,过滤多达 2.5 亿个参数的类别(ELSER 有 1.1 亿个参数),在撰写本博客时以及我们正在开发 ELSER v3 时,当将同一竞争者系列的多种风格组合在一起时,ELSER v2 仍然位列检索的前 10 个模型中。它也是 2023 年发布的前 10 名中极少数的模型之一,而大多数竞争者已于 2024 年发布。

对于参数少于 2.5 亿的模型,检索 (nDCG@10) 的 MTEB 列表的顶部。在撰写本文时,ELSER 在检索任务中排名前 10。它是该组中极少数于 2023 年发布的模型之一,绝大多数于 2024 年发布。该列表在按内联所述进行过滤后,在撰写本文时包含 80 多个模型(未分组)。

Elastic 继续投资 ELSER

如前所述,ELSER 使用上下文稀疏向量表示,这种设计选择使其具有前面提到的良好属性,并为未来版本中已经开发的功能扩展和增益提供了所有空间。这使其在 MTEB 上脱颖而出,因为排行榜上的绝大多数模型都是嵌入,即密集向量。这就是为什么你会注意到 ELSER 的相应 MTEB 列中的维度数量比其他模型多得多。ELSER 扩展了 BERT 的架构,并通过保留掩码语言模型 (masked language model - MLM) 头并对其进行调整以创建和聚合每个输入序列的每个标记激活分布来扩展输出嵌入。因此,维度的数量等于 BERT 的词汇表,对于给定的输入序列,只有一小部分词汇表被激活。

即将推出的 ELSER v3 模型目前正在开发中,并使用 LLM 生成的数据、新的高级训练方案和其他最先进和新颖的策略进行训练,并支持 GPU 推理。

结论

该领域的创新速度超出了许多客户采用、测试和确保将新模型以企业质量纳入其搜索应用程序的能力。许多客户缺乏对模型工件训练背后的指标和方法的全面了解,导致采用延迟。

从首次推出 ELSER 模型开始,我们就透明地展示了我们的相关性目标、我们为提高相关性而采取的评估方法,以及对本地、自我管理部署(甚至托管在笔记本电脑上的部署!)上该模型的高效性能的投资,并具备可扩展性以实现大规模生产级搜索体验的能力。

我们的完整结果现已发布在 MTEB 排行榜上,以提供与新兴模型相比的额外基准。在即将推出的 ELSER 版本中,我们预计将应用新的最先进的检索技术,评估模型本身的新用例,并为快速 GPU 驱动的 ELSER 推理工作负载提供额外的基础设施支持。敬请期待!

链接

  • https://www.elastic.co/search-labs/blog/introducing-elser-v2-part-1
  • https://www.elastic.co/search-labs/blog/introducing-elser-v2-part-2
  • https://www.elastic.co/search-labs/blog/may-2023-launch-information-retrieval-elasticsearch-ai-model

准备好自己尝试一下了吗?开始免费试用。

想要将 RAG 构建到您的应用程序中吗?想要使用向量数据库尝试不同的 LLMs 吗?
在 Github 上查看我们针对 LangChain、Cohere 等的示例笔记本,并立即加入 Elasticsearch Relevance Engine 培训。

原文:Elasticsearch ELSER: Comparing retrieval relevance on Hugging Face MTEB — Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2198710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WMS 智慧仓储管理系统的可视化管理_SunWMS

【大家好,我是唐Sun,唐Sun的唐,唐Sun的Sun。一站式数智工厂解决方案服务商】 WMS 智慧仓储管理系统的可视化管理主要表现在以下几个方面: 首先是库存可视化。通过系统,仓库管理人员能够以直观的图表、图形等形式清晰地…

pdf怎么加密码怎么设置密码?这几种pdf设置密码的方法简单!

pdf怎么加密码怎么设置密码?PDF格式作为现代办公和学习中频繁使用的文档类型,其身影遍布于各类场景,然而,在享受PDF带来的便利之余,不少用户对其安全性产生了疑虑,尽管PDF文件相较于其他格式更难被直接编辑…

如何查看是否是ip转发?

一、什么是ip转发 ip转发指的是路由器或者其他网络设备把接受的ip数据包从一个接口转发到另一个ip的过程。在ip转发的过程中,如果某个设备接收到某个数据包时发现该设备不是此数据包的最终目的地,它就会根据路由表中的信息将此数据包转发到下一个适合的…

10.8摩尔学习知识点

今天学习获取数据 在摩尔云平台找到要修改的主视图,然后点击操作功能,点击新增,直接输入名字获取数据,然后,显示顺序15,显示是,点击确定,然后就是自定义类上面输入创建的类名&#…

006集—— CAD锁文档的用法(CAD—C#二次开发入门)

CAD 二开中,当要在除当前文档外的其它文档的模型空间或图纸空间中添加图元时,需要先锁定其文档。用户可用要锁定的Document对象的LockDocument方法进行锁定。在调用LockDocument方法后,将返回一个DocumentLock对象。 本例创建一个新的文档然…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《面向电动汽车用户的电价套餐模块化设计 》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

数学建模算法与应用 第1章 线性规划

第1章 线性规划 线性规划是数学规划领域的重要分支,广泛应用于资源配置、生产计划、物流管理等领域。它主要用于解决如何在满足一定约束条件下,使目标函数(如成本、利润等)达到最大或最小的问题。第一章将介绍线性规划的基本概念…

点可云ERP进销存V8版本——其他支出单使用说明

其他支出单用于记录除采购内容外其支出资金,如:人工运输费、安装维修服务、差旅报销等。新增保存之后,对应资金账户将减少金额额度,并做存储记录,可在现金银行报表中体现。 新增操作 接下来我们讲解新增单据步骤。如上…

【CSS】flex配合margin实现元素均匀分布

现有代码如下&#xff0c;要求不使用网格布局&#xff0c;根据剩余空间设置margin <div className"container">{Array.from({ length: 12 }, (_, i) > i).map((item) > (<div className"box">{item}</div>))} </div>.conta…

《CUDA编程》6.CUDA的内存组织

前面几章讲了一些编写高性能CUDA程序的要点&#xff0c;但还有很多其他需要注意的&#xff0c;其中最重要的就是合理的使用设备内存 1 CUDA的内存组织简介 现代计算机中的内存存在一种组织结构(hierachy)&#xff0c;即不同类型的内存具有不同的容量和访问延迟&#xff08;可以…

从新开始,轻松搭建陪玩系统!线下线上陪玩平台搭建系统,选购线下线上陪玩小程序APP系统时,这点不能忽视!

在搭建线下线上陪玩平台系统&#xff0c;以及选购线下线上陪玩小程序APP系统时&#xff0c;以下几点是至关重要的&#xff0c;不容忽视&#xff1a; 一、明确需求与规划 目标用户定位&#xff1a; 确定陪玩系统的目标用户群体&#xff0c;如游戏玩家、技能服务需求者等。 功能…

使用C# winform 开发一个任务管理器

前言 为啥要开发这个呢 ,系统自带的关闭有些程序就关不了,它有好多线程,你关一其中一个它后台又重新开了一个,关不完,使用我这个呢 就把所有相同名称进程看作一个,一关就关 下载软件 v1 Form1.cs using System; using System.Windows.Forms;namespace TaskMaster {public pa…

learn C++ NO.21——AVL树

简单介绍一下AVL树 AVL树是一种自平衡的二叉搜索树&#xff08;Balanced Binary Search Tree, BBST&#xff09;&#xff0c;由俄罗斯数学家G. M. Adelson-Velsky和E. M. Landis在1962年发明&#xff0c;因此以其名字首字母命名。AVL树通过保持任何节点的两个子树的高度最大差…

养生健康:从日常细节中寻觅长寿之钥

养生健康&#xff1a;从日常细节中寻觅长寿之钥 在这个快节奏的时代&#xff0c;健康似乎成了一种奢侈品&#xff0c;但实则不然。养生之道&#xff0c;不在于繁复的仪式&#xff0c;而在于融入日常的点点滴滴。今天&#xff0c;就让我们一起探讨几个简单却至关重要的养生习惯…

N1从安卓盒子刷成armbian

Release Armbian_noble_save_2024.10 ophub/amlogic-s9xxx-armbian (github.com) armbian下载&#xff0c;这里要选择905d adb 下载地址 https://dl.google.com/android/repository/platform-tools-latest-windows.zip 提示信息 恩山无线论坛 使用usb image tool restet a…

Java项目实战II基于Java+Spring Boot+MySQL的高校学科竞赛平台

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着高等教…

【Vue】Vue 快速教程

Vue tutorial 参考&#xff1a;教程 | Vue.js (vuejs.org) 该教程需要前置知识&#xff1a;HTML, CSS, JavaScript 学习前置知识&#xff0c;你可以去 MDN Vue framework 是一个 JavaScript framework&#xff0c;以下简称 Vue&#xff0c;下面是它的特点 声明式渲染&#xff…

音频进阶学习三——离散时间信号与系统

文章目录 前言一、离散时间信号1.基本信号2.离散时间信号的分类3.离散时间信号的简单运算4.单位脉冲在运算中的作用 二、离散时间系统1.什么是离散时间系统2.离散系统的分类 总结 前言 前面博主介绍了信号中的连续时间信号和离散时间信号&#xff0c;数字信号也是离散时间信号…

1.一、MyBatis入门

一、MyBatis入门 我们做为后端程序开发人员&#xff0c;通常会使用Java程序来完成对数据库的操作。Java程序操作数据库&#xff0c;现在主流的方式是&#xff1a;Mybatis。 一、什么是MyBatis? MyBatis官网的解释&#xff1a; MyBatis 是一款优秀的持久层框架&#xff0c;它…

基于Zabbix进行服务器运行情况监测

文章目录 引言I Zabbix主要构成下载并安装Zabbix被监控主机安装zabbix agent创建被监控主机报警设置II 常见问题cannot use database "zabbix": its "users" table is empty (is this the Zabbix proxy database?)重置 Zabbix Web 界面密码Zabbix agent i…