OpenSearch的演进与语义检索技术革新

news2025/4/25 17:19:46

周末听了一场关于Open Search的技术分析，整理如下，供大家参考。OpenSearch，作为ElasticSearch的一个分支，不仅继承了其强大的搜索和分析能力，更在开源社区的驱动下，不断演进和创新。本文将介绍OpenSearch的最新进展，特别是其在语义检索技术方面的突破。

OpenSearch简介

OpenSearch是一个开源的搜索与分析套件，起源于ElasticSearch 7.10.2版本，坚持Apache-2.0开源协议，以开源优先和社区驱动为原则。OpenSearch项目不仅提供了强大的搜索功能，还包括了DataPrepper、Dashboard等组件，广泛应用于搜索、可观测性、安全分析、数据可视化和机器学习等领域。

向量搜索引擎从原始向量做写入、查询，OpenSearch做了很多运行速度、压缩量化方面的优化。到NeuralSearch语义搜索引擎，做的易用性升级，纯文本端到端的写入查询，做了其他的功能优化，比如Hybrid query.多模态、文本切分、rerank。现在:稀疏编码的语义搜索引擎，knn之外又多了一种选择，各自具备自己的优势，适配不同的应用场景
在这里插入图片描述

OpenSearch社区

OpenSearch的社区活跃度极高，拥有超过5亿的总下载量，版本更新频繁，合作伙伴和外部贡献者众多。在SlackWorkspace和OpenSearchForum上，有超过7000名成员参与讨论，月浏览量达到30万以上。这种活跃的社区氛围为OpenSearch的持续发展和创新提供了坚实的基础。

OpenSearch使用场景

OpenSearch平台的优势在于其检索功能的沉淀、分布式架构、安全性和数据分析能力。特别是k-NN索引的横向扩展能力，可以在集群中任意扩展数据节点，支持高达16K维度的向量，满足大规模数据集的搜索需求。

1.结合OpenSearch丰富的检索功能，与OpenSearch DSL结合完成复杂的查询过程

a. 比如加入复杂的过滤条件;
b. 与其他查询结合，e.g.BM25

2.基于OpenSearch分布式平台，高可靠性、高扩展性、高性能，平台确保分布式查询和写入的负载均衡。
3.安全性：基于OpenSearch的安全插件，实现api级别鉴权，多用户访问控制，安全审计日志
4.数据分析：OpenSearch dashboards拥有丰富的数据可视化工具，数据进行可视化分析。dashboards上的搜索比较工具进行可视化的搜索效果比较，进行case
研究分析

使用场景：
在这里插入图片描述

OpenSearch向量数据库

在深度学习时代，万物皆可Embedding，无论是图像、文本、视频还是音乐，都可以通过向量化的方式进行高效的索引和检索。OpenSearch通过k-NN插件，实现了向量引擎的适配，支持NMSLiB、Faiss、Lucene等多种向量库，以及HNSW和IVF等索引结构，为用户提供了强大的向量搜索能力。
在这里插入图片描述

k-NN插件

OpenSearch支持Exact k-NN和Approximate k-NN (ANN)搜索，以及基于遍历和基于图的过滤方式。Exact k-NN适合前置过滤，而ANN适合后置过滤。OpenSearch还能够在搜索时进行过滤，打通了Lucene、JNI和向量引擎，智能决定k-NN类型，权衡代价与精度。

在这里插入图片描述