OpenSearch的演进与语义检索技术革新

news2024/12/24 0:59:35

周末听了一场关于Open Search的技术分析,整理如下,供大家参考。OpenSearch,作为ElasticSearch的一个分支,不仅继承了其强大的搜索和分析能力,更在开源社区的驱动下,不断演进和创新。本文将介绍OpenSearch的最新进展,特别是其在语义检索技术方面的突破。

OpenSearch简介

OpenSearch是一个开源的搜索与分析套件,起源于ElasticSearch 7.10.2版本,坚持Apache-2.0开源协议,以开源优先和社区驱动为原则。OpenSearch项目不仅提供了强大的搜索功能,还包括了DataPrepper、Dashboard等组件,广泛应用于搜索、可观测性、安全分析、数据可视化和机器学习等领域。

向量搜索引擎从原始向量做写入、查询,OpenSearch做了很多运行速度、压缩量化方面的优化。到NeuralSearch语义搜索引擎,做的易用性升级,纯文本端到端的写入查询,做了其他的功能优化,比如Hybrid query.多模态、文本切分、rerank。现在:稀疏编码的语义搜索引擎,knn之外又多了一种选择,各自具备自己的优势,适配不同的应用场景
在这里插入图片描述

OpenSearch社区

OpenSearch的社区活跃度极高,拥有超过5亿的总下载量,版本更新频繁,合作伙伴和外部贡献者众多。在SlackWorkspace和OpenSearchForum上,有超过7000名成员参与讨论,月浏览量达到30万以上。这种活跃的社区氛围为OpenSearch的持续发展和创新提供了坚实的基础。

OpenSearch使用场景

OpenSearch平台的优势在于其检索功能的沉淀、分布式架构、安全性和数据分析能力。特别是k-NN索引的横向扩展能力,可以在集群中任意扩展数据节点,支持高达16K维度的向量,满足大规模数据集的搜索需求。

1.结合OpenSearch丰富的检索功能,与OpenSearch DSL结合完成复杂的查询过程

  • a. 比如加入复杂的过滤条件;
  • b. 与其他查询结合,e.g.BM25

2.基于OpenSearch分布式平台,高可靠性、高扩展性、高性能,平台确保分布式查询和写入 的负载均衡。
3.安全性:基于OpenSearch的安全插件,实现api级别鉴权,多用户访问控制,安全审计日志
4.数据分析:OpenSearch dashboards拥有丰富的数据可视化工具,数据进行可视化分析。dashboards上的搜索比较工具进行可视化的搜索效果比较,进行case
研究分析

使用场景:
在这里插入图片描述

OpenSearch向量数据库

在深度学习时代,万物皆可Embedding,无论是图像、文本、视频还是音乐,都可以通过向量化的方式进行高效的索引和检索。OpenSearch通过k-NN插件,实现了向量引擎的适配,支持NMSLiB、Faiss、Lucene等多种向量库,以及HNSW和IVF等索引结构,为用户提供了强大的向量搜索能力。
在这里插入图片描述

k-NN插件

OpenSearch支持Exact k-NN和Approximate k-NN (ANN)搜索,以及基于遍历和基于图的过滤方式。Exact k-NN适合前置过滤,而ANN适合后置过滤。OpenSearch还能够在搜索时进行过滤,打通了Lucene、JNI和向量引擎,智能决定k-NN类型,权衡代价与精度。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

数据评测:性能与召回率的平衡

在1亿数据集的评测中,OpenSearch展现出了稳定支持10亿数据的能力,以及优秀的召回率和低延迟。例如,在r5.12xlarge实例上,p90查询延迟仅为16.9毫秒,召回率达到0.99。这表明OpenSearch在处理大规模数据集时,能够保持良好的性能和高准确度。
在这里插入图片描述

端到端的文本语义检索

对于期望实现语义检索的用户,OpenSearch提供了neural-search插件,这是一个端到端的API,支持文本写入和检索。通过ingestion processor和neural query builder,用户可以轻松实现文本的语义检索。

在这里插入图片描述

ml-commons插件:模型全流程托管

ml-commons插件为语义检索提供了强大的支持,实现了模型的全流程托管,包括一键部署、节点级部署、负载均衡和GPU支持。此外,它还支持远程连接到SageMaker、Bedrock、Cohere、OpenAI等服务,以及通过AgentFramework连接大模型,助力RAG。

OpenSearch提供了可视化查询比较工具,允许用户使用相同的搜索测试不同的查询,比较结果的差异。这有助于用户更好地理解不同查询方式的效果,优化搜索策略。

k-NN算法中的性能取舍

在k-NN算法中,性能和召回率往往需要权衡。例如,HNSW算法虽然召回率高达99%,但延时和内存占用相对较高;而IVF+PQ算法虽然召回率较低,但延时和内存占用更优。OpenSearch通过智能选择算法,帮助用户在性能和精度之间找到最佳平衡。
在这里插入图片描述

稀疏编码:鱼和熊掌兼得

稀疏编码(neural sparse)是一种既能保证高相关性,又能节省存储空间、保证速度的语义检索方法。通过深度学习模型,稀疏编码能够将文档和查询转换为稀疏向量,实现高效的语义匹配。
在这里插入图片描述

稀疏编码的鲁棒性

稀疏编码在真实数据服从训练数据分布时表现出色,模型能够使用稀疏准确的向量表征,产出精确的结果。即使在支持论据不足的情况下,稀疏编码也能保持较高的搜索相关性。
在这里插入图片描述

稀疏编码语义检索的计算方法

稀疏编码通过点积计算查询和文档之间的分数,结合权重和语义模型,实现高效的语义匹配。
在这里插入图片描述

稀疏编码与Lucene的结合

OpenSearch将稀疏编码与Lucene结合,构建了倒排索引和FeatureField,实现了高效的检索。
在这里插入图片描述

Doc-only模式:极致速度

OpenSearch的Doc-only模式通过减少模型推理和索引遍历,实现了极致的搜索速度,同时保持了较高的搜索精度。
在这里插入图片描述

稀疏编码性能测试结果

OpenSearch的稀疏编码模型在性能测试中表现出色,无论是搜索精度还是速度,都远超传统的BM25模型。

在这里插入图片描述
在这里插入图片描述

稀疏编码资源消耗

稀疏编码模型在资源消耗方面也具有优势,索引大小和峰值内存占用都远低于稠密索引模型。
在这里插入图片描述

稀疏编码持续优化

OpenSearch团队持续优化稀疏编码模型,通过预训练和知识蒸馏,减小模型尺寸,提高搜索精度,降低ingestion代价。
在这里插入图片描述

集成多路召回

OpenSearch还支持集成多路召回,通过BM25与k-NN的集成,以及更复杂的查询组合,进一步提升搜索精度。
在这里插入图片描述


结语

OpenSearch作为一个活跃的开源项目,其在语义检索技术方面的创新和优化,提供了一个高效、准确、可扩展的搜索平台。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885497.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

年轻人「入侵」厂货电商:泼天的富贵or甜蜜的烦恼?

【潮汐商业评论/原创】 “明天我们带个黑色塑料袋,假装是批发拿货的,看看能不能淘到好货。这个批发‘黑话’你也学一下,别到时候露馅。” Paula正兴冲冲地跟Grace计划去服装批发市场“消费”。 只不过,与以往普通进店客人身份不…

免费分享一套SpringBoot+Vue校园求职人才招聘(企业招聘)网站系统【论文+源码+SQL脚本】,帅呆了~~

大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue校园求职人才招聘(企业招聘)网站系统,分享下哈。 项目视频演示 【免费】SpringBootVue校园求职人才招聘网站(企业招聘)网站系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBo…

Dockerhub无法拉取镜像配置阿里镜像加速器

打开阿里镜像加速地址: https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors 根据平台类型按照对应方式进行配置:Dokcer Desktop是在右上角点开配置 找到Docker Engine 进行设置JSON结构: 记得要重启Docker服务才会生效&#xff01…

甜蜜诱惑:红酒与巧克力的天作之合,双重美味引爆味蕾狂欢

在味蕾的世界里,有一种组合总能轻易勾起人们的无限遐想——那便是红酒与巧克力的搭配。它们一个是液态的宝石,一个是固态的柔情,两者交织在一起,便成了一场关于甜蜜诱惑的味蕾之旅。今天,就让我们一起探索雷盛红酒与巧…

AI数字人直播源码部署揭秘:低价的背后有何猫腻?

当前,AI数字人直播全面兴起,并逐渐成为了许多大中小型企业直播带货和品牌宣传等工作的不二之选。在此背景下,不少创业者都看到了AI数字人直播正在不断拓展的应用潜力和巨大的市场需求,从而有了AI数字人直播源码部署的想法&#xf…

中国硝化纤维素年产量达15万吨 需求强劲

中国硝化纤维素年产量达15万吨 需求强劲 硝化纤维素(Nitrocellulose)又称纤维素硝酸酯,是一种由纤维素与硝酸反应生成的酯类化合物。它是一种白色或微黄色的固体,具有易燃性,并且能够溶解于酯、酮和醇等有机溶剂中。硝…

全国30省份各省资本存量数据固定资本形成总额永续盘存法(2000-2023年)

各省资本存量数据通过永续盘存法进行了详细的计算,这一方法覆盖了中国30个省份(不包括西藏),提供从2000年起直至2023的资本存量数据集。包括原始数据、测算过程、最终的资本存量结果。 以2000年作为基期年份,依据…

Rust: polars从dataframe到struct至行遍历

pandas提供了iterrows()、itertuples()、apply等行遍历的方式,还是比较方便的。 polars的列操作功能非常强大,这个在其官网上有详细的介绍。由于polars底层的arrow是列存储模式,行操作效率低下,官方也不推荐以行方式进行数据操作。…

如何用Python向PPT中批量插入图片

办公自动化办公中,Python最大的优势是可以批量操作,省去了用户粘贴、复制、插入等繁琐的操作。经常做PPT的朋友都知道,把图片插入到PPT当中的固定位置是一个非常繁琐的操作,往往调整图片时耗费大量的时间和精力。如何能省时省力插…

施耐德全新EtherCAT运动控制器M310介绍

在制造业的蓬勃发展下,高性能运动控制器成为提升生产效率、保障产品质量的关键设备之一。M310是施耐德电气新一代高性能运动控制器,它基于Intel X86硬件平台和Codesys V3.5 SP19软件平台开发,支持EtherCAT总线,拥有强大算力、高易…

揭秘BERT背后的魔力:语义相似度算法深度剖析

文章目录 引言一、BERT模型概述二、语义相似度算法的重要性2.1 文本聚类2.2 信息检索2.3 问答系统2.4 对话系统2.5 情感分析2.6 机器翻译 三、基于BERT的语义相似度算法实现原理3.1 BERT的核心原理3.2 实现语义相似度算法的步骤3.3 深入解析3.4 应用实例3.5 注意事项 四、BERT在…

华为云服务器系统重装

文章目录 1 登录云服务器,点击控制台2 选择实例3 点击更多,选择重装系统4 勾选关机,填写密码,点击确定5 选择自己方便的认证方式6 同意协议7 等待完成8 重装完毕 1 登录云服务器,点击控制台 2 选择实例 3 点击更多&…

IIC电平转换电路原理

一、电平转换的必要性 在IIC主从设备连接时,由于主从设备可能存在不同的电源电压(如5V、3.3V、1.8V等),导致需要进行电平转换以确保正常通信。 二、电平转换电路的基本组成 电平转换电路通常包括上拉电阻、MOS管(通常…

从理论到实践的指南:企业如何建立有效的EHS管理体系?

企业如何建立有效的EHS管理体系?对于任何企业,没有安全就谈不上稳定生产和经济效益,因此建立EHS管理体系是解决企业长期追求的建立安全管理长效机制的最有效手段。良好的体系运转,可以最大限度地减少事故发生。 这篇借着开头这个…

智能数字人直播带货软件源码系统 实现真人直播形象 带完整当然安装代码包以及搭建教程

系统概述 智能数字人直播带货软件源码系统,是一个集成了先进的人工智能、3D建模、语音合成、自然语言处理等技术于一体的创新平台。它旨在通过构建高度定制化的虚拟主播,为用户提供沉浸式、高效能的直播体验。与传统直播相比,该系统的核心优…

稳居C位的AIGC,真能让人人都成“设计大神”?

在当今数字化时代,随着人工智能技术的飞速发展,AIGC(AI Generated Content,即人工智能生成内容)已经逐渐成为设计领域的新宠。特别是在UI设计领域,AIGC的崛起引人注目,甚至有人宣称,…

【机器学习】机器学习的重要方法——线性回归算法深度探索与未来展望

欢迎来到 破晓的历程博客 引言 在数据科学日益重要的今天,线性回归算法以其简单、直观和强大的预测能力,成为了众多领域中的基础工具。本文将详细介绍线性回归的基本概念、核心算法,并通过五个具体的使用示例来展示其应用,同时探…

Nacos单机部署、集群部署以及Nacos默认持久化derby数据库和配置mysql数据库

1. Nacos Windows 单机部署 1.1 去nacos官网下载nacos-server 发布历史 | Nacos 官网https://nacos.io/download/release-history/ 下载版本为 nacos-server-2.3.1.zip 2. 配置nacos持久化存储 2.1 默认使用Derby数据库 官网下载Derby数据库即可。 Apache Derby数据库htt…

AI新功能发布:AI生成数据库和AI规划任务,CoCodeAI再添新成员!

Hi,大家好,好久不见! 我是CoCodeAI智能助手CoCo。 CoCodeAI智能助手CoCo 我无比荣幸地为大家揭晓 CoCode开发云的璀璨新星: AI生成数据库AI规划任务。 近日,CoCode开发云旗下Co-Project V3.8智能项目管理平台重磅发…

启航IT世界:高考后假期的科技探索之旅

随着高考的落幕,新世界的大门已经为你们敞开。这个假期,不仅是放松身心的时光,更是为即将到来的IT学习之旅打下坚实基础的黄金时期。以下是一份专为你们准备的IT专业入门预习指南,希望能助你们一臂之力。 一:筑基篇&a…