Elasticsearch:将最大内积引入 Lucene

news2025/2/24 11:07:35

作者:Benjamin Trent

目前,Lucene 限制 dot_product (点积) 只能在标准化向量上使用。 归一化迫使所有向量幅度等于一。 虽然在许多情况下这是可以接受的,但它可能会导致某些数据集的相关性问题。 一个典型的例子是 Cohere 构建的嵌入(embeddings)。 它们的向量使用幅度来提供更多相关信息。

那么,为什么不允许点积中存在非归一化向量,从而实现最大内积呢? 有什么大不了的?

负值和 Lucene 优化

Lucene要求分数非负,因此在析取 (disjunctive query) 查询中多匹配一个子句只能使分数更高,而不是更低。 这实际上对于动态修剪优化(例如 block-max WAND)非常重要,如果某些子句可能产生负分数,则其效率会大大降低。 此要求如何影响非标准化向量?

在归一化情况下,所有向量都在单位球面上。 这允许通过简单的缩放来处理负分数。

图 1:二维单位球体(例如单位圆)中的两个相反的二维向量。 在这里计算点积时,最糟糕的情况是 -1 = [1, 0] * [-1, 0]。 Lucene 通过向结果加 1 来解决这一问题。

当向量保持其大小时,可能值的范围是未知的。

图 2:计算这些向量的点积时 [2, 2] \* [-5, -5] = -20

为了允许 Lucene 将 blockMax WAND 与非标准化向量结合使用,我们必须缩放分数。 这是一个相当简单的解决方案。 Lucene 将使用简单的分段函数缩放非标准化向量:

if (dotProduct < 0) {
  return 1 / (1 + -1 * dotProduct);
}
return dotProduct + 1;

现在,所有负分数都在 0 -1 之间,所有正分数都在 1 以上。这仍然可以确保较高的值意味着更好的匹配并消除负分数。 很简单,但这不是最后的障碍。

三角形问题

最大内积不遵循与简单欧几里得空间相同的规则。 三角不等式的简单假设知识被抛弃。 不直观的是,向量不再最接近其自身。 这可能会令人不安。 Lucene 的向量底层索引结构是分层可导航小世界 (HNSW)。 这是基于图的算法,它可能依赖于欧几里得空间假设。 或者在非欧几里得空间中探索图会太慢吗?

一些研究表明,快速搜索需要转换到欧几里得空间。 其他人则经历了更新向量存储以强制转换为欧几里得空间的麻烦。

这导致我们停下来深入挖掘一些数据。 关键问题是:HNSW 是否通过最大内积搜索提供良好的召回率和延迟? 虽然 HNSW 最初的论文和其他已发表的研究表明确实如此,但我们需要进行尽职调查。

我们进行的实验很简单。 所有的实验都是在真实数据集或稍微修改的真实数据集上进行的。 这对于基准测试至关重要,因为现代神经网络创建符合特定特征的向量(请参阅本文第 7.8 节中的讨论)。 我们测量了非标准化向量的延迟(以毫秒为单位)与召回率。 将数字与具有相同测量值但采用欧几里德空间变换的数字进行比较。 在每种情况下,向量都被索引到 Lucene 的 HNSW 实现中,并且我们测量了 1000 次查询迭代。 每个数据集考虑了三种单独的情况:按大小顺序插入的数据(从小到大)、按随机顺序插入的数据以及按相反顺序插入的数据(从大到小)。

以下是 Cohere 真实数据集的一些结果:

图 3:以下是嵌入维基百科文章的 Cohere 多语言模型的结果。 可在 HuggingFace 上找到。 前 10 万份文档已建立索引并进行了测试。

图 4:这是 Cohere 在维基百科上的英语和日语嵌入的混合。 这两个数据集都可以在 HuggingFace 上找到。

我们还针对一些合成数据集进行了测试,以确保我们的严谨性。 我们使用 e5-small-v2 创建了一个数据集,并通过不同的统计分布缩放了向量的大小。 为了简洁起见,我将仅显示两个分布。

图 5: 幅度  Pareto distribution 。 pareto distribution 具有“肥尾”,这意味着分布的一部分的幅度比其他部分大得多。

图 6:幅度的伽马分布。 这种分布可能具有很高的方差,并使其在我们的实验中独一无二。

在我们所有的实验中,唯一需要进行转换的是使用伽玛分布创建的合成数据集。 即使这样,向量也必须以相反的顺序插入,首先是最大幅度,以证明变换的合理性。 这些都是例外情况。

如果你想了解所有实验以及整个过程中的所有错误和改进,请参阅 Lucene Github 问题,其中包含所有详细信息(以及过程中的错误)。 这是一个开放式研究和开发的项目!

结论

这是一个相当长的旅程,需要进行多次调查才能确保 Lucene 能够支持最大内积。 我们相信数据不言自明。 无需进行重大转换或对 Lucene 进行重大更改。 所有这些工作将很快解锁 Elasticsearch 的最大内积支持,并允许 Cohere 提供的模型成为 Elastic Stack 中的一等公民。

注:最大内积已经在 8.11 中进行了支持!

原文:Bringing Maximum-Inner-Product into Lucene — Elastic Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1238312.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java的继承特性和方法重写

java的继承特性和方法重写 Java的继承特性是一种面向对象编程的重要概念&#xff0c;它允许我们基于已有的类创建新的类&#xff0c;并且保留了已有的类的一些特性。这是通过使用"继承"这个关键词来实现的&#xff0c;新创建的类称为子类&#xff08;subclass&#…

c语言:十进制转任意进制

思路&#xff1a;如十进制转二进制 就是不断除二求余在除二求余&#xff0c;然后将余数从下到写出来&#xff0c;这样&#xff0c;10011100就是156的二进制 这里举例一个六进制的代码&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include<stdio.h>int main() {int …

uniapp实现表单弹窗

uni.showModal({title: 删除账户,confirmColor:#3A3A3A,cancelColor:#999999,confirmText:确定,editable:true,//显示content:请输入“delete”删除账户,success: function (res) {console.log(res)if(res.confirm){if(res.contentdelete){console.log(123123123213)uni.setSto…

pmp敏捷十二个考点!考前必背!

自从PMP更换了新的考纲&#xff0c;考试中对于敏捷项目管理的知识比重越来越大。因此&#xff0c;掌握敏捷知识成为备考的重点。为了帮助大家更好地掌握敏捷知识点&#xff0c;我整理了12个敏捷考点&#xff0c;希望能对大家有所帮助&#xff01; 一、敏捷宣言十二原则改写如下…

低代码:数字化转型趋势下的快速开发方式

目录 一、前言 二、低代码是什么&#xff1f; 三、低代码如何提高生产力 开发工具JNPF介绍 产品分析 1可视化应用开发 2流程管理 3整个平台源码合作 四、小结 一、前言 通常&#xff0c;开发一个大型的企业级系统&#xff0c;公司往往需要大量的人力做支持后盾&#xff0c;如需…

音频采集的相关基础知识

本文引注: https://zhuanlan.zhihu.com/p/652629744 1.麦克风的种类 (1)模拟麦克风 ECM麦克风&#xff1a;驻极体电容麦克风(ECM)&#xff0c;典型的汽车ECM麦克风是一种将ECM单元与小型放大器电路整合在单个外壳中的装置。放大器提供一个模拟信号&#xff0c;其电压电平允许…

亚马逊买家号注册用手机好还是邮箱好

在亚马逊上注册买家号可以用邮箱也可以用手机号&#xff0c;但是具体哪种好&#xff0c;我们可以根据以下因素来进行选择&#xff1a; 1、手机号 短信验证&#xff1a;亚马逊可以通过短信向你发送验证码&#xff0c;以确保你的身份。使用手机号可能更方便接收这些验证码。 安…

sizeof和strlen的区别

目录 一、 sizeof 二、 strlen 三、 sizeof 和 strlen的对比 一、 sizeof 在学习操作符的时候&#xff0c;我们学习了 sizeof &#xff0c; sizeof 计算变量所占内存内存空间大小的&#xff0c;单位是字节&#xff0c;如果操作数是类型的话&#xff0c;计算的是使⽤类型创…

linux CentOS7.6安装jenkins(小白版本)

前言 本人是一个前端开发者&#xff0c;由于有时候需要发版自己的东西&#xff0c;所以想搞一个Jenkins玩玩&#xff0c;看了网上好多教程&#xff0c;但是都不是针对小白的&#xff0c;比如linux怎么输入&#xff0c;怎么结束&#xff0c;自己也是搞了好久踩了好多坑 所以记录…

电商领域的三大沉疴难题?实在智能RPA来帮你药到病除!

在电商市场规模迅速扩大的当下&#xff0c;厂家们为了保持自身的竞争力&#xff0c;纷纷走上了数智化转型的道路&#xff0c;明白学会使用自动化利器才是制胜之道。 如今从产业的生产线到运营商、物流运输、商品售前、商品售后&#xff0c;实在RPA在电商平台的应用已经十分广泛…

el-input限制输入整数等分析

文章目录 前言1、在 Vue 中&#xff0c;可以使用以下几种方式来限制 el-input 只能输入整数1.1 设置input 的 type为number1.2 使用inputmode1.3 使用自定义指令1.4 使用计算属性1.5 使用 onafterpaste ,onkeyup1.6 el-input-number 的precision属性 总结 前言 input 限制输入…

[点云分割] 欧式距离分割

效果&#xff1a; 代码&#xff1a; #include <iostream> #include <chrono>#include <pcl/ModelCoefficients.h> // 模型系数的定义 #include <pcl/io/pcd_io.h> #include <pcl/point_types.h> // 各种点云数据类型 #include <pcl/sample_c…

云南旅游攻略思维导图

马上就要2024年春节了&#xff0c;相信小伙伴们都蠢蠢欲动了&#xff0c;春节去哪里玩&#xff1f;今天小P来给大家分享云南旅游攻略了&#xff0c;希望可以对大家有所帮助。 为什么要来云南呢&#xff1f;因为云南的绝大多数地方&#xff0c;一年四季总是那样温暖&#xff1b;…

redis的主从复制,哨兵模式

1.主从复制 主从复制&#xff1a;主从复制是redis实现高可用的基础&#xff0c;哨兵模式和集群都是在主从复制的基础之上实现高可用 主从复制实现数据的多机备份&#xff0c;以及读写分离&#xff08;主服务器负责写&#xff0c;从服务器只能读&#xff09; 缺陷&#xff1a…

java springboot测试类鉴定虚拟MVC运行值与预期值是否相同

好 上文java springboot在测试类中构建虚拟MVC环境并发送请求中 我们模拟的MVC环境 发送了一个请求 我们这次需要 对比 预期值和运行值是否一直 这里 我们要用一个 MockMvcResultMatchers 他提供了非常多的校验类型 例如 请求有没有成功 有没有包含请求头信息 等等 这里 我们做…

前端性能优化总结

这里写目录标题 页面性能测试工具测试指标 前端页面性能常见的问题前端页面性能优化常见策略及方案dns优化------预解析域名&#xff08;异步进行&#xff09;http请求优化减少请求次数同时多开持久连接 前面面试url从输入到确认搜索发生了什么js介绍new一个对象的过程&#xf…

智能配电房环境监控系统

智能配电房环境监控系统是一种用于实时监测和控制配电房环境的系统。依托电易云-智慧电力物联网&#xff0c;通过集成应用物联网技术&#xff0c;实现对配电房内环境的全天候状态监视和智能控制。以下是智能配电房环境监控系统的主要功能&#xff1a; 环境数据实时监测&#xf…

Autoware.universe部署06:使用DBC文件进行UDP的CAN通信代码编写

目录标题 一、安装DBC文件编辑工具VectorCANdb二、编写DBC文件2.1 CAN通信协议2.2 编写DBC文件2.2.1 根据CAN协议设置signals2.2.2 设置报文2.2.3 建立节点 三、根据DBC文件编写ROS2驱动程序四、实际通信调试 根据CAN协议编写DBC文件&#xff0c;通过DBC文件编写ROS2包进行UDP通…

Centos7使用rpm安装mysql 5.7.43

Centos7使用rpm安装mysql 5.7.43 1、下载rpm包 wget https://downloads.mysql.com/archives/get/p/23/file/mysql-5.7.43-1.el7.x86_64.rpm-bundle.tar2、解压并安装 tar xf mysql-5.7.43-1.el7.x86_64.rpm-bundle.tar yum -y install mysql-*3、按需修改mysql配置 #注意&a…

【OpenCV实现图像:使用OpenCV进行物体轮廓排序】

文章目录 概要读取图像获取轮廓轮廓排序小结 概要 在图像处理中&#xff0c;经常需要进行与物体轮廓相关的操作&#xff0c;比如计算目标轮廓的周长、面积等。为了获取目标轮廓的信息&#xff0c;通常使用OpenCV的findContours函数。然而&#xff0c;一旦获得轮廓信息后&#…