Elasticsearch:使用字节大小的向量节省空间 - 8.6

news2025/1/10 23:05:53

作者:Jack Conradson, Benjamin Trent

Elasticsearch 在 8.6 中引入了一种新型向量! 该向量具有 8 位整数维度,其中每个维度的范围为 [-128, 127]。 这比具有 32 位浮点维度的当前向量小 4 倍,这可以节省大量空间。

你现在可以通过将带有字节值的 element_type 参数添加到向量映射中来开始索引这些较小的 8 位向量,类似于下面的示例。

{
    "mappings": {
        "properties": {
            "my_vector": {
                "type": "dense_vector",
                "element_type": "byte",
                "dims": 3,
                "index": true,
                "similarity": "dot_product"
            }
        }
    }
}

但是,如果你现有的矢量维度不适合这种较小的类型怎么办? 然后我们可以使用量化过程使它们适合,通常只有很小的精度损失!

让我们量化

让我们从定义量化开始。 量化是获取较大值集并将它们映射到较小值集的过程。 更具体地说,在我们的例子中,这将采用 32 位浮点数的范围并将其映射到向量中每个维度的 8 位整数的范围。 (这不应与降维混淆,后者是不同的主题。这只是缩小现有维度的值范围。)

这导致了另外两个问题。 我们的 32 位浮点向量的实际范围是多少? 我们应该使用什么功能来进行映射? 答案因用例而异。

例如,最简单的量化形式之一是采用归一化 32 位向量的维度并将它们线性映射到 8 位向量的整个维度范围。 使用 Python,这将类似于以下内容:

import numpy as np
import typing as t

def quantize_embeddings(text_and_embeddings: t.List[t.Mapping[str, t.Any]]) -> t.List[t.Mapping[str, t.Any]]:
    quantized_embeddings = np.array([x['embedding'] for x in 
query_and_embeddings])
    quantized_embeddings = (quantized_embeddings * 128)
    quantized_embeddings = quantized_embeddings.clip(-128, 
127).astype(int).tolist()
    return [dict(item, **{'embedding': embedding}) for (item, 
embedding) in zip(text_and_embeddings, quantized_embeddings)]

不过,这只是一个例子。 还有许多其他有用的量化函数。 对于你的特定用例,重要的是要评估哪种量化方法可以为您提供相对于空间缩减、相关性和召回率之间的权衡的最佳结果。

一些真实世界的数字

8 位向量和量化都很棒,但它们真的能减少实际用例中的空间吗? 答案是肯定的! 并且实质上。 这就是他们在不损害相关性和召回率的情况下继续提供良好结果的全部过程。 Elasticsearch 甚至拥有你使用我们的排名评估 API 自行进行评估所需的所有工具。

现在,让我们看一下使用以下设置从真实示例生成的一些数字:

  1. 所有数据都是使用云中的 Elasticsearch 和两个 gcp.data.highcpu.1 64GB 节点收集的
  2. 数据是从谷歌构建的 NQ 数据集(自然问题)中收集的,用于 BEIR
  3. 嵌入模型是 sentence-transformers/all-MiniLM-L6-v2
  4. 生成 8 位整数向量的量化应用于使用前面的示例 Python 片段从数据中收集的 32 位浮点向量

然后我们让一些神奇的事情发生并根据这个设置收集结果:

category

Median kNN Response Time

Median Exact Response Time

Recall@100

NDCG@10

Total Index Size (1p, 1r)

byte

32ms

1072ms

0.79

0.385.8gb

float

36ms

1530ms

0.79

0.3816.4gb
% Reduction11%30%0%0%64%

我们的结果看起来棒极了。 让我们逐一分解。

  • Median kNN Response Time:此响应时间是使用近似 kNN 搜索对我们的示例数据集收集的。 这种类型的搜索使用 Lucene 的 HNSW 图作为支持数据结构。 我们看到 byte 与 float 的响应时间增加了 11%。
  • Median Exact Response Time:此响应时间是使用针对我们的示例数据集的准确 kNN 搜索收集的。 这种类型的搜索使用脚本遍历数据集中的每个向量,并将返回可能的最佳结果。 我们看到响应时间大大减少了 30%!
  • Recall@100:这向我们展示了最相关的结果是否包含在前 100 名中。这对于展示我们的量化函数是否运行良好非常重要。 我们可以看到 byte 和 float 的数字是相同的,这意味着即使在量化之后我们的相关性对于 byte 和 float 一样好。
  • @NDCG@10:这向我们展示了前 10 个结果的质量有多好。 这是评估我们的量化函数是否运行良好的另一个重要指标。 再一次,byte 和 float 之间的数字是相同的,所以我们可以放心,即使在量化之后我们的结果仍然一样好。
  • Total Index Size (1p, 1r):这是用于具有单个分区和单个副本的向量索引的总索引大小。 对于此指标,我们禁用了源,我们建议将其用于所有未修改摄取的矢量数据的矢量场,这样它就不会存储两次。 我们看到总索引大小大幅减少了 64%! 由于包括图形连接在内的 HNSW 数据结构的额外开销,这并没有完全达到字节和浮点数之间的 4 倍差异,但它仍然是一个相当大的尺寸缩减。

作为 8.6 的一部分,字节向量已准备就绪,我们鼓励你在 Elastic Cloud 中启动一个集群并尝试一下!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/561723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【哈士奇赠书活动 - 24期】-〖前端工程化:基于Vue.js 3.0的设计与实践〗

文章目录 ⭐️ 赠书 - 《前端工程化:基于Vue.js 3.0的设计与实践》⭐️ 内容简介⭐️ 作者简介⭐️ 精彩书评⭐️ 赠书活动 → 获奖名单 ⭐️ 赠书 - 《前端工程化:基于Vue.js 3.0的设计与实践》 ⭐️ 内容简介 本书以Vue.js的3.0版本为核心技术栈&#…

Python自动化办公对每个子文件夹的Excel表加个表头(Excel不同名)(下篇)

点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 昭阳殿里恩爱绝,蓬莱宫中日月长。 大家好,我是皮皮。 一、前言 上一篇文章,我们抛出了一个问题,这篇文章…

发挥CWPP在零售行业安全关键价值

新钛云服已累计为您分享747篇技术干货 CWPP产品对于零售行业安全有关键价值,可以极大提升零售行业安全水平,是零售行业必备的安全产品。 零售行业的特点 零售行业的特点是实时在线、数据有独特价值,安全挑战是缺乏安全投入和人员。 实时在线方…

推荐 5 月份炫炫炫的 GitHub 项目

推荐 6 个五月份比较火的开源项目。因为近期 AI 项目的火爆,每天 GitHub 热榜都被 AI 项目占据,后续开源项目会同时盘点 AI 和其他分类的开源项目。 本期推荐开源项目目录: 1. 多合一聊天机器人客户端(AI) 2. 数据库场…

蓝库云|生产报工系统对制造业的作用,能给企业带来的质的飞跃

生产报工系统,对于做制造业的企业来说是再熟悉不过的软件系统了,不仅可以令制造企业可以快速响应客户需求,根据客户订购要求进行生产计划管理,还能生产报工可以帮助制造企业提升生产效率、提高产品质量、改善生产计划和提高客户满…

企业级应用如何用 Apache DolphinScheduler 有针对性地进行告警插件开发?

点击蓝字 关注我们 作者 | 刘宇星 Apache DolphinScheduler的2.0.1版本加入了插件化架构改进,将任务、告警组件、数据源、资源存储、注册中心等都将被设计为扩展点,以此来提高 Apache DolphinScheduler 本身的灵活性和友好性。在企业级应用中不同公司的告…

ChatGPT被广泛应用,潜在的法律风险有哪些?

ChatGPT由OpenAI开发,2022年11月一经面世便引发热烈讨论,用户数持续暴涨。2023年初,微软成功将ChatGPT接入其搜索引擎Bing中,市场影响力迅速提升,几乎同一时间,谷歌宣布其研发的一款类似人工智能应用Bard上…

树莓派 Ubuntu 18.04 连接 WiFi

树莓派 Ubuntu 18.04 连接 WiFi 阿瑞特后视镜那边代码调试需要用到树莓派,但是实验室 TP-LINK-DD48 用不了 所以要更改原先的 WiFi 连接信息 树莓派raspberry Pi 4B安装Ubuntu 20.04 LTS系统后如何连接WiFi 树莓派4B(ubuntu)设置wifi的方法 树莓派4B安装Ubuntu Se…

函数式接口入门简介(存在疑问,求解答)

这里写目录标题 引子四种函数式接口-简单Demo四种函数式接口介绍函数式接口实战-代码对比关于Consumer赋值问题(疑问,求解答) 引子 只包含一个抽象方法的接口,就称为函数式接口。来源:java.util.function 我想在方法…

【JS】1691- 重学 JavaScript API - Performance API

❝ 前期回顾: 1. Page Visibility API 2. Broadcast Channel API 3. Beacon API 4. Resize Observer API 5. Clipboard API 6. Fetch API ❞ 🏝 1. 什么是 Performance API 1.1 概念介绍 Performance API 提供了「访问和测量浏览器性能相关信息」的方法。…

作为IT行业过来人,我有4个重要建议给年轻程序员!

见字如面,我是军哥! 作为一名 40 岁的 IT 老兵,我在年轻时踩了不少坑,至少有两打,我总结了其中最重要的 4 个并一次性分享给你,文章不长,你一定要看完哈~ 1、重视基础还不够&#xf…

OpenAI Whisper + FFmpeg + TTS:动态实现跨语言视频音频翻译

本文作者系360奇舞团前端开发工程师 摘要: 本文介绍了如何结合 OpenAI Whisper、FFmpeg 和 TTS(Text-to-Speech)技术,以实现将视频翻译为其他语言并更换声音的过程。我们将探讨如何使用 OpenAI Whisper 进行语音识别和翻译&#x…

软件设计师 操作系统涉及题目

做题技巧 看有几个箭头就是有几个信号量。比如四个箭头就是S1 S2 S3 4把对应的信号量从小到大顺序放在对应箭头 比如P1-》P2就是 12 P1-》P3就是13 所以13大 注意是先V(S) 再P(S),箭头前是v后是p **P1没有前驱,第一个执行的进程.执行前用P操作 执行后用…

媒体传输协议的演进与未来

音视频应用近年来呈现出迅猛的发展趋势,成为互联网流量的主要载体,其玩法丰富,形态多样,众多繁杂的媒体传输协议也应运而生。LiveVideoStackCon 2022北京站邀请到快手传输算法负责人周超,结合快手在媒体传输上的优化与…

官宣!首个大模型兴趣小组开放申请,专注大模型应用落地

‍‍ 这里汇聚着大模型开发者与应用者 这是一个小而美小而精的兴趣组织 这是一个更关注大模型行业实际落地的组织 飞桨 AI Studio 大模型领域兴趣小组关注文心一言等大模型与开源模型应用落地,跟进最新技术趋势与应用方向,共同拓展技术视野、找寻商业化机…

QSS QTableWidget样式设置

QTableWidget的样式分为几个部分: 分别是: 外框:QTableWidget 表头:QHeaderView 表头字段:QHeaderView::section 表格:QTableWidget::item 选中的表格:QTableWidget::item::selected 水平滚动条…

chatgpt赋能Python-python_pensize

Python Pensize: How to Adjust Your Pen Size in Python If you’re new to Python, you might be struggling to master the art of the pen. Thankfully, Python Pensize is here to help. In this article, we’ll discuss how to adjust your pen size in Python so you …

快手广告怎么顺利度过冷启动期?

快手广告经常会出现这样的问题,投放初期新广告主、新产品、新账户都很难拿到曝光,没法突破;今天给大家介绍下什么是冷启动,如何快速有效的度过冷启动期。 冷启动就是刚开始启动的时候没有基础,模型需要根据历史情况来预…

Linux 查看或统计网卡流量的几种方式么?

在工作中,我们经常需要查看服务器的实时网卡流量。通常,我们会通过这几种方式查看Linux服务器的实时网卡流量。 目录 1、sar 2、 /proc/net/dev 3、ifstat 4、iftop 5、nload 6、iptraf-ng 7、nethogs 8、扩展 1、sar sar命令包含在sysstat工具…

大Op和小op的含义及理解

大Op和小op的含义及理解 Stochastic order notation(随机有序符号)6.1.1 O p O_p Op​和 o p o_p op​之间的关系6.2 符号速记及其算数性质6.3 为什么 o p o_p op​和 O p O_p Op​符号很有用?6.4例子:均值估计的相合性参考: Stochastic orde…