Elastic Platform 8.14:ES|QL 正式发布、静态加密和向量搜索优化

news2025/1/18 9:02:25

作者:来自 Elastic Gilad Gal, Tyler Perkins, Alex Chalkias, Trevor Blackford, Ninoslav Miskovic, Fabio Busatto, Aris Papadopoulos

Elastic Platform 8.14 提供了 Elasticsearch 查询语言 (ES|QL) 的正式发行版 (GA) — Elastic 中数据探索和操作的未来。它还包括其他几个新功能的正式发布本:ECK 上的 Logstash、用于远程集群的基于 API 密钥的安全模型、AIOps 日志模式分析、用于保留和下采样的内置数据流生命周期设置、仪表板链接面板等。此外,在 8.14 中,Elastic Cloud 平台普遍可以使用 AWS Key Management Service (AWS KMS) 中的客户管理密钥对静态数据和快照进行加密。

在相关性排名方面,Elasticsearch 8.14 引入了对向量搜索的优化以提高性能,使向量的标量量化成为默认选项,并引入检索器的概念来简化查询并在查询构造中提供更大的灵活性。

这些新功能使客户能够:

  • 编写强大的查询以新的方式揭示数据见解
  • 使用 AWS KMS 密钥进行静态加密,实现法规合规性并增强安全性
  • 使用数据流轻松管理时间序列数据的保留和下采样
  • 自动管理 Kubernetes 中的 Logstash Pod
  • 查找非结构化日志消息中的模式以加快 RCA 并减少 MTTR

Elastic 8.14 现已在 Elastic Cloud 上推出,这是唯一包含最新版本中所有新功能的托管 Elasticsearch 产品。你还可以下载 Elastic Stack 和我们的云编排产品(Elastic Cloud Enterprise 和 Elastic Cloud for Kubernetes),以获得自我管理的体验。

Elastic 的管道查询语言 ES|QL 现已正式发布

ES|QL 提供了一种在 Elasticsearch 中过滤、转换和分析数据的简化方法。其直观的设计利用 “管道”(|) 进行逐步数据探索,使你能够轻松编写强大的查询以进行详细分析。无论你是开发人员、SRE 还是安全分析师,ES|QL 都可以让你发现特定事件、执行强大的统计分析并创建引人注目的可视化效果。随着我们从技术预览版转向正式版,你将发现 ES|QL 的增强功能并提升你的数据运营。

使用客户管理的密钥加密静态数据和快照

Elastic Cloud 现在支持与 AWS KMS 集成,从而可以使用客户管理的密钥来加密静态部署数据和快照。借助此功能,客户可以:

  • 利用文件系统级加密,使用自己的 AWS KMS 密钥部署静态数据。
  • 在 S3 中使用 AWS 原生机制进行快照加密。
  • 轮换 Elastic Cloud 中使用的密钥,提供额外的安全措施来防止密钥泄露。这可以直接从 AWS KMS 手动完成,也可以从 Elastic Cloud 自动完成。
  • 撤销他们在 Elastic Cloud 中使用的密钥,在紧急情况下充当破碎玻璃操作,并能够恢复操作。这可以直接从 AWS KMS 完成。

此添加通过 Elastic 管理的密钥扩展了现有的静态加密功能。使用客户管理的密钥的主要好处包括合规性和降低与数据存储相关的风险。

检索器(standard、kNN 和 RRF)

检索器(retrievers)是搜索 API 中的一种新抽象概念,用于描述如何检索一组顶级文档。检索器被设计为可以嵌套在树形结构中,因此任何检索器都可以拥有子检索器。检索器是一种标准、更通用且更简单的 API,它取代了其他各种搜索元素,如 kNN 和查询。在 8.14 版本中,我们引入了对三种类型的检索器的支持:

  • Standard — 提供标准查询功能
  • kNN — 启用基于 HNSW 的密集向量搜索
  • RRF — 使用倒数排名融合算法将不同的密集和稀疏向量排名结果集合并成一个单一的混合和排序的结果集

检索器方法的两个主要好处是:

  • 所有检索器的结构都是相同的,因此它们更容易学习、编写和维护。
  • 设计成可以在树结构中组合使用,提供了更多的灵活性来设计之前无法定义的查询 —— 例如,不将 kNN 或 RRF 作为顶级元素。

引入检索器是我们简化搜索使用、特别是向量搜索使用的又一步。这一主题包括了像自动向量标准化以实现更高效的余弦相似度和引入 RRF 以便无需调整即可实现高质量混合集的增强功能。我们将继续在这方面进行大量投资,并计划在未来通过我们新的 ES|QL 语言引入相关性排名。

有关将 RRF 与检索器一起使用的其他示例,请参阅此博客。

使用 SIMD (Neon) 针对 int8 向量优化向量距离函数

Elasticsearch 现在使用本机代码使用 SIMD (Neon) 进行向量比较,以提高 ARM AArch64 架构处理器上的性能。此增强的详细信息将在向量相似性计算 - 可笑的速度中讨论。最重要的是,int8 向量的段合并速度比这些处理器上的速度快几倍(通常快 3-6 倍)。此改进为其他任务释放了资源,并加快了段大小优化过程。

这是一系列向量相似性性能改进的又一步。将来,我们打算在其他上下文中使用这种优化,例如改善查询延迟。

密集向量场默认采用 Int8 量化

许多模型生成带有 float32 元素的向量。然而,在检查现实生活场景时,很快就会发现 int8 元素提供了更好的承诺,具有更小的索引(更低的成本)、改进的摄取性能和改进的查询延迟。所有这些都是在几乎不影响排名质量的情况下实现的。有时在质量指标(例如 NDCG 或召回率)排名中可以发现的微小影响可以通过增加正在考虑的候选者数量来轻松减轻。但即使没有这一点,最终用户通常也不会注意到这种变化,从业务角度来看也是如此。

考虑到这一点,我们在 8.12 中向 int8 引入了标量量化。在检查了此功能的生产使用后,我们决定将其设为新索引的默认行为。提供这样的合理默认值可以让用户更轻松地迈出向量搜索的第一步。

Logstash 在 ECK 上正式发布

ECK 上的 Logstash 现在是安装和管理 Logstash 部署的最简单方法,并提供与其他 Elastic Stack 组件管理的无缝操作。只需几行代码,用户就可以在 Kubernetes 上部署和配置 Logstash Pod。当 Logstash 部署在 ECK 上时,现有的 Logstash 管道定义才起作用,使用户可以轻松利用 Kubernetes 的灵活性和可扩展性。 ECK 上的 Logstash 可在 Elastic 的基本和企业许可证下使用。

基于 API 密钥的远程集群安全模型现已正式发布

远程集群连接是所有 CCS 和 CCR 操作的基础:它们必须确保高级安全性,同时保持灵活且易于用户使用。

使用基于 API 密钥的安全模型,管理员可以授予对其数据的细粒度访问权限,并涵盖不反映先前模型假设的现代场景。

在现代世界中,远程集群通常不完全受信任,管理员需要完全控制其数据以及谁可以访问它们。

新的安全模型引入了两个关键假设:

  • 信任关系是单向的:如果 ClusterA 将 ClusterB 配置为其远端,则 ClusterB 无法自动 “回调” ClusterA。
  • 远程管理员在设计上不受信任:保存数据的远程集群可以限制对其索引的给定子集的访问,任何人(包括另一个集群上的超级用户)都不可以访问其他任何内容。

身份验证和授权流程的核心是跨集群 API 密钥 —— 一种新的专用类型,仅适用于此特定任务。 API 密钥可以通过 Elasticsearch API 或使用 Kibana 创建,它们以我们习惯的方式定义 CCS 和 CCR 索引。如果需求随着时间的推移发生变化,它们也可以轻松更新。

基于 API 密钥的安全模型现已在 Elasticsearch 8.14 中正式发布,可用于 Elastic Cloud、Elastic Cloud Enterprise 和独立部署。现在,这是我们为所有支持它的远程集群推荐的选项。

AIOps 日志模式分析普遍可用

在 8.14 中,日志模式分析变为正式发布。日志模式分析可以更快、更智能地调查数千条日志消息,以便分析、排除故障并确定事件的根本原因。将其与异常检测和我们的其他 AIOps 功能相结合,可大幅缩短 MTTR。

数据流生命周期设置现已正式发布

在 8.11 中,我们引入了内置于数据流中的新生命周期设置,作为配置保留或下采样的简单新方法,而无需使用索引生命周期管理 (ILM)。数据流中的这种新的生命周期功能还可以为你处理内务,自动管理翻转和强制合并。现在 8.14 正式发布。

它真的很容易使用。你可以在 Kibana 的 “Index Management - 索引管理” 页面的 “Data Streams - 数据流” 下设置数据流的保留时间:

或者通过 _data_stream API:

PUT _data_stream/my-data-stream/_lifecycle 
{
   "data_retention": "90d"
}

你可以更新现有数据流以使用这些设置、使用此设置创建新数据流或从 ILM 迁移数据流。这也被一些系统索引(例如 ilm-history 和 slm-history)自动使用。

数据流的生命周期设置仅适用于数据流,不适用于常规索引。它还不支持将数据移动到不同的层 - 如果你需要,请暂时使用 ILM。

如果你为了方便起见开始在数据流上使用生命周期设置,然后意识到你需要 ILM 来实现某些高级功能(例如数据层),该怎么办?我们为你提供服务:可以根据需要在 ILM 之间切换数据流。只需配置 ILM,它优先于任何数据流生命周期配置。

Discover 和 ES|QL 中的文档比较模式

链接面板已正式发布

现在,你可以使用链接面板轻松从一个仪表板导航到另一个仪表板。通过将仪表板分成多个可视化较少的仪表板并将它们链接在一起,可以更好地组织仪表板并提高其性能。导航到其他仪表板时,你可以继承过滤器、查询和时间范围。水平或垂直显示链接,因为它更适合你的仪表板布局。你还可以使用链接面板在仪表板中包含外部链接,例如 wiki 页面或其他应用程序。并决定是否要在同一浏览器选项卡或新选项卡中打开链接。

仪表板中的链接面板

地区地图正式发布

用户无需浏览复杂的 Elastic Maps 应用程序(旨在供更高级的地理用户使用)来构建简单的地图。他们现在可以通过 Lens 编辑器轻松完成此操作。

新的西班牙语复数词干分析器

在 8.14 中,除了我们已经提供并将继续支持的西班牙语词干分析器之外,我们还添加了对西班牙语词干分析器的支持。这种新的词干分析器将复数转换为单数,但不改变性别,因此它适合特定的用例。

将 MaxMind Enterprise 和 Anonymous IP 文件与摄取 GeoIP 处理器结合使用

我们的客户依靠 GeoIP 丰富来帮助他们定位客户问题、筛查欺诈交易、识别安全威胁和可疑活动等等。你可以使用 GeoIP 丰富摄取处理器将有关 IP 地址位置的信息添加到传入文档中,例如日志条目或安全事件。我们自动下载最新的免费 MaxMind GeoLite2 数据库,以确保它们是最新的(根据 MaxMind EULA 的要求),并将它们分发到整个集群中以供摄取处理使用。

这很方便,可以满足许多客户和用例。然而,一些企业需要付费 GeoIP 文件提供的额外精度和字段,例如 GeoIP2 企业数据库和 GeoIP2 匿名 IP 数据库。这使他们能够对基于地理位置数据做出的决策更有信心,例如阻止潜在的欺诈性交易或拒绝访问服务。

Elasticsearch 8.14 在技术预览版中添加了对将这两个付费地理数据库与 GeoIP 摄取处理器结合使用的支持。在 8.14 中,你必须管理文件的下载和部署。我们正在努力在未来的版本中添加这些文件的自动下载,以使其更无缝地保持更新。

丰富政策可以针对数据流

说到丰富,现在可以更轻松地使用数据流作为丰富策略的参考数据源。以前,如果数据流是像下面这样的丰富策略的目标...

PUT /_enrich/policy/my-policy
{
  "match": {
    "indices": ["data_stream"],
    "match_field": "fieldA",
    "enrich_fields": ["fieldB", "fieldC"]
  }
}

... 然后返回一个 index_not_found_exception 错误。 Elasticsearch 8.14 现在支持指定数据流作为索引源,因此你可以受益于数据流的时间序列管理功能,同时使用它们进行丰富。

ILM 收缩后写入索引

一旦索引吞吐量不再需要超高写入并行度,你可能会使用 ILM shrink 操作来减少索引中的主分片数量。源索引在收缩处理期间必须是只读的,因此 ILM 将它们设置为只读。从历史上看,ILM 还会将新的(缩小的)索引保留为只读,从而阻止写入。

我们从用户那里得知,当旧文档的更新到达时,他们需要能够写入收缩的索引,因此我们添加了一个选项 (allow_write_after_shrink) 以在收缩后删除写入块。为了向后兼容,此配置参数默认为 false,从而保持目标索引只读。

慢日志中的用户信息

慢日志是主要的故障排除资源之一,用于识别和修复性能不佳且可能影响整个系统的有问题的查询。主要障碍之一是识别执行查询的用户,因为查看查询本身并不总是清楚地弄清楚它。

在Elasticsearch 8.14中,现在可以直接在慢速日志中跟踪调用用户信息,以便管理员可以更高效地解决问题。

你可以通过调用 Update index settings API 为索引和搜索日志条目启用它:

PUT /my-index-000001/_settings
{
  "index.indexing.slowlog.include.user": true,
  "index.search.slowlog.include.user": true
}

之后,输出将报告用户信息:

…
  "auth.type": "REALM",
  "auth.name": "elastic",
  "auth.realm": "reserved"
…

试试看

请在发行说明中了解这些功能以及更多信息。

现有 Elastic Cloud 客户可以直接从 Elastic Cloud 控制台访问其中许多功能。没有利用云上的 Elastic?开始免费试用。

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或引用了第三方生成人工智能工具,这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权,我们对其内容、操作或使用不承担任何责任或义务,也不对你使用此类工具可能产生的任何损失或损害负责。在使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。你提交的任何数据都可能用于人工智能培训或其他目的。无法保证你提供的信息将得到安全或保密。在使用之前,你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标记是 Elasticsearch N.V. 的商标、徽标或注册商标。在美国和其他国家。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:Elastic Platform 8.14: ES|QL GA, encryption at rest & vector search optimizations | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1802121.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

编写一个程序,提示用户输入三个点 p0、p1 和 p2,显示 p2 是否在从 p0 到 p1 的线段左侧、右侧,或者在该直线上。

(几何:点的位置)给定一个从点 p0(x0,y0)到pl(xl,pl)的有向线段,可以使用下面的条件来确定点 p2(x2,y2)是在线段的左侧、右侧,或者在该直线上(见下图): 编写一个程序,提示用户输入三个点 p0、p1 和 p2&#…

力扣78. 子集

给你一个整数数组nums,数组中的元素互不相同。返回该数组所有可能的子集(幂集)。解集不能包含重复的子集。你可以按任意顺序返回解集。 示例 1: 输入:nums [1,2,3] 输出:[[],[1],[2],[1,2],[3],[1,3…

spring源码解析-(1)关于Bean

什么是Bean? 是spring对所有注入到IoC容器中的类的统称。 我们要注册进入spirng的bean千奇百怪,所以spring必须需要使用一个统一的定义来标识bean,就有了接下来的BeandDefinition,通过名称我们就可以知道,他是对bean…

Apache IoTDB 分布式架构三部曲(三)副本与共识算法

IoTDB 首创并应用的共识协议统一框架,为用户提供了灵活选择不同共识算法的可能性。 对于一个分布式集群而言,为了使得海量数据场景下集群能够横向扩展,集群需要按照一定的规则将全部数据分成多个子集存储在不同的节点上,从而能够更…

【C/C++】——小白初步了解——内存管理

目录 1. C/C内存分布 代码区(Code Segment): 数据区(Data Segment): 堆区(Heap): 栈区(Stack): 常量区(Constant Seg…

spring boot 2.1 集成activiti 6.0.0和activiti-modeler 5.23.0可视化编辑器(随记)

先上pom&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.or…

AI高考大战,揭秘五大热门模型谁能问鼎数学之巅?

在高考前&#xff0c;我就有想法了&#xff0c;这一次让AI来做做高考题。就用国内的大模型&#xff0c;看哪家的大模型解题最厉害。 第一天考完&#xff0c;就拿到了2024高考数学2卷的电子版&#xff0c;这也是重庆市采用的高考试卷 这次选了5个AI工具&#xff0c;分别是天工&a…

【机器学习】与【数据挖掘】技术下【C++】驱动的【嵌入式】智能系统优化

目录 一、嵌入式系统简介 二、C在嵌入式系统中的优势 三、机器学习在嵌入式系统中的挑战 四、C实现机器学习模型的基本步骤 五、实例分析&#xff1a;使用C在嵌入式系统中实现手写数字识别 1. 数据准备 2. 模型训练与压缩 3. 模型部署 六、优化与分析 1. 模型优化 模…

hot100 -- 二分查找

目录 前言 &#x1f382;搜索插入位置 &#x1f33c;搜索二维矩阵 &#x1f33c;排序数组元素第一和最后一个位置 &#x1f33c;旋转排序数组 &#x1f4aa;旋转排序数组中的最小值 &#x1f4aa;两个正序数组的中位数 前言 二分算法学习_时间超限ac:0%-CSDN博客 &#…

Vue10-事件修饰符

一、示例&#xff1a;<a>标签不执行默认的跳转行为 1-1、方式一 <a href"http://www.baidu.com" onclick"event.preventDefault();">点击我</a> 1-2、方式二 1-3、方式三&#xff1a;事件修饰符 二、Vue的六种事件修饰符 2-1、prevent&…

Edge怎么关闭快捷键

Edge怎么关闭快捷键 在Edge浏览器中&#xff0c;你可以通过以下步骤关闭快捷键&#xff1a; 打开Edge浏览器&#xff0c;输入&#xff1a;edge://flags 并按下回车键。 在Flags页面中&#xff0c;搜索“快捷键”(Keyboard shortcuts)选项。 将“快捷键”选项的状态设置为“…

注册小程序

每个小程序都需要在 app.js 中调用 App 方法注册小程序实例&#xff0c;绑定生命周期回调函数、错误监听和页面不存在监听函数等。 详细的参数含义和使用请参考 App 参考文档 。 整个小程序只有一个 App 实例&#xff0c;是全部页面共享的。开发者可以通过 getApp 方法获取到全…

HuggingFace团队亲授大模型量化基础: Quantization Fundamentals with Hugging Face

Quantization Fundamentals with Hugging Face 本文是学习https://www.deeplearning.ai/short-courses/quantization-fundamentals-with-hugging-face/ 这门课的学习笔记。 What you’ll learn in this course Generative AI models, like large language models, often exce…

转让无区域商业管理公司挺批行业包变更

无区域的名称我们可以直接进行名称的申请核准。 从新规施行之后&#xff0c;国家局核名批准难度更高。新申请的无区域名称已经停批了&#xff0c;进行核名将更难&#xff0c;而需要满足一定条件并在成立一年后才能变更升级名称。而这个过程并非易事&#xff0c;难度非常高。可以…

45-1 waf绕过 - 文件上传绕过WAF方法

环境准备: 43-5 waf绕过 - 安全狗简介及安装-CSDN博客然后安装dvwa靶场:构建完善的安全渗透测试环境:推荐工具、资源和下载链接_渗透测试靶机下载-CSDN博客打开dvwa靶场,先将靶场的安全等级调低,然后切换到文件上传 一、符号变异 在PHP中,由于其弱类型特性,有时候仅有一…

JavaSE——抽象类和接口

目录 一 .抽象类 1.抽象类概念 2.抽象类语法 3.抽象类特性 4.抽象类的作用 二. 接口 1.接口的概念 2.语法规则 3.接口的使用 4.接口特性 5.实现多个接口 6.接口间的继承 三.抽象类和接口的区别 一 .抽象类 1.抽象类概念 在面向对象的概念中&#xff0c;所有的对…

SpringCloud整合OpenFeign实现微服务间的通信

1. 前言 1.1 为什么要使用OpenFeign&#xff1f; 虽说RestTemplate 对HTTP封装后, 已经⽐直接使⽤HTTPClient简单⽅便很多, 但是还存在⼀些问题. 需要拼接URL, 灵活性⾼, 但是封装臃肿, URL复杂时, 容易出错. 代码可读性差, ⻛格不统⼀。 1.2 介绍一下微服务之间的通信方式 微…

Zabbix实现邮件和钉钉实时告警(使用python脚本)

告警和通知 告警是监控的主要职能,是指将到达某一阈值事件的消息发送给用户,让用户在事件发生的时候即刻知道监控项处于不正常状态,从而让用户来决定是否采取相关措施。 zabbix中,告警是由一系列的流程组成的,⾸首先是触发器到达阈值,接下是Active对事件信息进行处理,其…

TCP/IP协议分析实验:通过一次下载任务抓包分析

TCP/IP协议分析 一、实验简介 本实验主要讲解TCP/IP协议的应用&#xff0c;通过一次下载任务&#xff0c;抓取TCP/IP数据报文&#xff0c;对TCP连接和断开的过程进行分析&#xff0c;查看TCP“三次握手”和“四次挥手”的数据报文&#xff0c;并对其进行简单的分析。 二、实…

ElasticSearch学习笔记之一:介绍及EFK部署

1. 系统概述 The Elastic Stack&#xff0c;包括Elasticsearch、Kibana、Beats和Logstash&#xff08;也成为ELK Stack&#xff09; Elasticsearch&#xff1a;简称ES&#xff0c;是一个开源的高扩展的分布式全文搜索引擎&#xff0c;是整个Elastic Stack技术栈的核心。它可以…