[译]Elasticsearch Sequence ID实现思路及用途

news2024/11/24 10:18:01

原文地址:https://www.elastic.co/blog/elasticsearch-sequence-ids-6-0

如果

几年前,在Elastic,我们问自己一个"如果"问题,我们知道这将带来有趣的见解:

"如果我们在Elasticsearch中对索引操作进行全面排序会怎样?我们可以建立什么?

答案涵盖范围很广:

  • 我们可以构建一种称为"变更API"的功能,它可以接受操作ID,并为您提供自那时以来数据更改的列表。很棒!
  • 我们可以只查找发生变化的索引操作,从而建立增量reindex!
  • 我们可以使用增量reindex功能,通过过滤/连续reindex建立以实体为中心的索引!
  • 我们可以建立不依赖于数据按时、按顺序和全局精确时间戳到达的数据滚动/汇总索引!
  • 我们可以建立类似物化视图的东西,在新数据/操作到达时进行更新!
  • 如果节点之间的操作因网络断开等原因而丢失,我们可以建立一种重放操作的方法,这将大大加快恢复速度!
  • 我们可以建立一种在集群之间重放操作的方法!跨数据中心复制!

所有这些都需要打破一个小小的障碍:为索引操作添加序列号。很简单:我们只需要在主索引的每个操作中添加一个计数器!太简单了,我们看到社区成员和员工尝试了好几次。但当我们层层剥开洋葱头时,我们发现它比最初看起来要复杂得多。在我们开始讨论变更应用程序接口的实用性近6年后,我们仍然没有一个变更应用程序接口。原因何在?本博客的目的是分享幕后发生的事情,并就这个问题的答案提供一些见解。

在过去两年中,我们几乎从头开始重写了复制逻辑。我们从已知的学术算法中汲取精华,同时确保我们仍能确保并行性,这正是Elasticsearch能够如此快速的原因:这是许多甚至所有传统共识算法都无法做到的。我们与分布式系统专家合作,为我们的复制模型建立了TLA+规范。我们增加了大量测试和测试基础设施。

这篇博客必然是技术性的,因为我们会深入探讨Elasticsearch如何进行复制的一些核心内容。不过,我们的目的是通过解释/定义/链接一些术语(即使您可能已经理解了这些术语),让更多读者能够理解这些术语。首先,让我们深入了解Elasticsearch所面临的一些挑战。

挑战

在继续深入之前,我们必须先谈谈我们的复制模型以及它的重要性。在Elasticsearch数据索引中,数据被分割成所谓的"分片",基本上就是索引的子分区。你可以有5个主分片(基本上是索引的5个子分区),每个主分片可以有任意数量的主分片副本(称为副本)。但重要的是,每个子分区只有一个"主分片"。主分片首先接受索引操作(索引操作包括"添加文档"或"删除文档"等操作),然后将索引操作复制到副本。因此,在将每个操作转发给副本之前,不断递增计数器并为每个操作分配一个序列号是非常简单的。只要没有人重启服务器,网络正常运行时间达到100%,硬件不出现故障,没有长时间的Java垃圾回收事件,也没有人升级软件,这种简单易行的方法就能真正奏效。

但我们生活在现实世界中,当这些假设发生变化时,Elasticsearch就会进入"故障"模式和"恢复"过程。如果它们影响到运行主分片的节点,可能需要主分片停机,由另一个副本取而代之。由于变化来得突然,一些正在进行的索引操作可能尚未完全复制。如果您有2个或更多副本,其中一些操作可能只到达了其中一个副本,而没有到达另一个副本。更糟糕的是,由于Elasticsearch会并发索引文档(这也是Elasticsearch速度如此之快的原因之一!),每个副本都可能有不同的操作集,而这些操作集在另一个副本中并不存在。即使只运行一个副本(Elasticsearch的默认设置),也可能会出现问题。如果旧的主副本回来并被添加为副本,它可能包含从未复制到新主副本的操作。所有这些情况都有一个共同点:主节点失效后,分片上的操作历史可能会发生偏离,我们需要一些方法来解决这个问题。

PrimaryTerms & Sequence Numbers

我们采取的第一步是能够区分旧的和新的主分片。我们必须有一种方法来识别来自旧主分片的操作与来自新主分片的操作。此外,整个集群需要就此达成一致,以确保在出现问题时不会发生争执。这促使我们实现了主要术语。这些主要术语是增量的,并在主分片被提升时更改。它们被持久化在集群状态中,因此代表了集群所处的主分片的"版本"或"生成"。有了主要术语,操作历史中的任何冲突都可以通过查看操作的主要术语来解决。新术语优于旧术语。我们甚至可以开始拒绝那些太旧的操作,避免混乱的情况发生。

一旦我们设置了主要术语的保护机制,我们添加了一个简单的计数器,并开始为每个操作分配一个来自该计数器的序列号。因此,这些序列号使我们能够了解在主分片上发生的索引操作的特定顺序,我们可以将其用于接下来几节中将要讨论的各种目的。您可以在响应中看到分配的序列号和主要术语:

$ curl -H 'Content-Type: application/json' -XPOST http://127.0.0.1:9200/foo/doc?pretty -d '{ "bar": "baz" }'

{
	"_index": "foo",
	"_type": "doc",
	"_id": "MlDBm10BditXXu4kjj5E",
	"_version": 1,
	"result": "created",
	"_shards": {
		"total": 2,
		"successful": 1,
		"failed": 0
	},
	"_seq_no": 19,
	"_primary_term": 1
}

注意返回的响应中现在包含了_seq_no和_primary_term。

Local and Global Checkpoints

有了主要术语和序列号,我们理论上有了检测分片之间差异并在主分片失败时重新对齐它们的工具。拥有主要术语为x的旧主分片可以通过删除主要术语为x且不存在于新主分片历史记录中的操作来恢复,并且具有更高主要术语的缺失操作可以索引到旧主分片中。

不幸的是,当您同时每秒索引数十万甚至数百万个事件时,比较数百万次操作的历史记录实际上是不切实际的。存储成本过高,直接比较所需的计算工作将耗时过长。为了解决这个问题,Elasticsearch维护了一个名为全局检查点的安全标记。全局检查点是一个序列号,我们知道所有活动分片的历史记录都至少与之对齐。换句话说,所有序列号低于全局检查点的操作都已经被所有活动分片处理,并在各自的历史记录中是相等的。这意味着在主分片失败后,我们只需要比较新主分片和任何剩余副本之间最后已知的全局检查点以上的操作。当旧主分片恢复时,我们取其最后知道的全局检查点,并将其以上的操作与新主分片进行比较。这样,我们只需要比较需要比较的操作,而不是整个历史记录。

推进全局检查点的责任属于主分片。主分片通过跟踪副本上已完成的操作来实现这一点。一旦检测到所有副本已经超过给定的序列号,主分片将相应地更新全局检查点。分片副本不会一直跟踪所有操作,而是维护一个全局检查点的本地变体,称为本地检查点。本地检查点是一个序列号,该副本上处理了所有更低序列号的操作。每当副本确认(或ack)主节点的写操作时,它们也会向主节点提供更新的本地检查点。利用本地检查点,主节点就能更新全局检查点,然后在下一次索引操作中将全局检查点发送给所有分片副本。

下面的动画展示了在面对有损网络和突发故障等并发挑战时,随着序列号和全局/本地检查点的增加而发生的情况:

在这里插入图片描述

当索引操作从主分片发送到副本时,我们会跟踪每个副本确认收到的最高序列号,并将其称为全局检查点。主分片会告诉所有副本全局检查点是多少。因此,如果主分片切换,我们只需要比较和可能重新处理自上次全局检查点以来的操作,而不是磁盘上的所有文件。

全局检查点还具有另一个很好的特性——它代表了那些被保证会留下的操作(它们在所有活动分片的历史记录中),以及可能会被回滚的操作所在的区域,如果主分片在它们被完全复制并向用户确认之前恰好发生故障。这是一个微妙但重要的特性,对于未来的变更API或跨数据中心复制功能将是至关重要的。

第一个好处:更快恢复

在Elasticsearch6.0之前,我们跳过了实际恢复过程的工作原理。当Elasticsearch在副本处于离线状态后恢复副本时,它必须确保该副本与活动主分片完全相同。非活动分片具有同步刷新标记,以便快速进行验证,但具有活动索引的分片则没有任何保证。如果一个分片在仍有活动索引的情况下掉线,那么新的主分片将通过网络复制Lucene段(即磁盘上的文件)。如果这些分片很大,这可能是一个繁重且耗时的操作。这是因为在6.0之前,我们没有跟踪个别写操作(序列号),而在幕后,Lucene会将所有添加/更新/删除合并到更大的分段中,这样就无法恢复构成更改的单个操作…也就是说,除非你将事务日志保留一段时间。

这就是我们现在所做的:我们保留事务日志,直到它变的"过大"或"过旧",不再有必要继续保留它。如果副本需要"更新",我们会使用该副本已知的最后一个全局检查点,仅从主事务日志中回放相关更改,而不是昂贵的大文件复制。如果主事务日志"过大"或"太旧"而无法重放到副本,那么我们将回退到旧的基于文件的恢复方式。

如果您一直在运行一个大型集群,而该集群经常出现网络断开、重启、升级等情况,我们希望这将大大提高您的工作效率,因为您不必在分片恢复时长时间等待。

须知

正如上一节中提到的,事务日志保留直到它"过大"或"过旧"而不再需要保留。我们如何确定什么是"过大"或"过旧"呢?当然是可配置的!在6.0中,我们引入了两个新的事务日志设置:

*index.translog.retention.size:默认为512MB。如果事务日志超过这个大小,我们只保留这么多数据。
*index.translog.retention.age:默认为12小时。超过这个时间段,我们将不再保留事务日志文件。

这些设置很重要,因为它们影响新的、更快的恢复工作以及磁盘使用情况。较大的事务日志保留大小或较长的保留时间意味着您有更高的机会通过新的更快恢复来进行恢复,而不是依赖于旧的基于文件的恢复。然而,它们也伴随着一定的成本:这会增加磁盘利用率,而且请记住事务日志是按分片进行的。举个实际的例子,如果您有20个索引,每个索引有5个主分片,并且在12小时内写入大量数据,那么可能会导致额外205512mb=50GB的磁盘利用率,直到那12小时窗口过期为止。如果您在不同索引上有不同的恢复和大小需求,您可以根据需要在每个索引上进行调整。例如,如果您预计进行机器或节点维护,您可能需要考虑对事务日志保留窗口进行任何调整。

注意:在6.0之前,事务日志的大小在索引过程中也可以增长到512MB(默认值),根据index.translog.flush_threshold_size设置。这意味着新的保留策略不会改变活动分片的存储需求。这一变化影响了停止索引的分片。现在,我们不清理事务日志,而是将其保留另外12小时。

下一个优势:跨数据中心复制

正如文章开头提到的,如果我们能进行有序的索引操作,我们就能在Elasticsearch中做很多美妙的事情。虽然花了一些时间,但现在我们做到了。更快的恢复是我们决定构建的第一个用例:它允许我们测试我们添加的新功能。

但我们知道跨数据中心复制也是我们企业客户常常要求的功能,所以这是我们即将添加的另一个功能。这需要构建新的API、在复制之上增加新的监控功能,以及是的,还需要进行更多的测试和文档编写。

还有更多工作要做

正如您在序列号GitHub问题上看到的,我们在序列号功能上有了一个良好的开端,但仍有许多工作要做!我们认为迄今为止所做的工作代表了我们向前迈出的一大步,即使它还没有涵盖我们可以建立/围绕序列号的所有功能。如果您有兴趣继续关注我们的工作,请随时关注标有:Sequence IDs的ticket或PR,或直接在讨论区与我们联系!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2246600.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小米14升级澎湃OS 2.0.6.VNCCNXM 记录

简介 11.23 小米14凌晨推送了澎湃2.0,还真是11月压轴的,不是内测申请的。 btw,什么时候才能有红米耳机连接的弹窗啊??为什么13都有,但是14没有? 系统更新推送 版本介绍 1.0.47 更新到 2.0.6.VNCCNXM,记录一些界面变化,应用问题和内存情况。 澎湃OS 2 更新 - 功能介…

【单点知识】基于PyTorch进行模型部署

文章目录 0. 前言1. 模型导出1.1 TorchScript1.1.1 使用 torch.jit.trace1.1.2 使用 torch.jit.script 1.2 ONNX1.2.1 导出为 ONNX 格式 1.3 导出后的模型加载1.3.1 加载 TorchScript 模型1.3.2 加载 ONNX 模型 2. 模型优化2.1 模型量化2.2 模型剪枝 3. 服务化部署3.1 Flask 部…

FreeRTOS——互斥信号量

一、为什么需要互斥信号量 前面的学习中: 调度锁、临界段不可避免的破坏了实时性,还有二值信号量存在这样的隐患——“优先级翻转” 优先级翻转 简单来说,就是由于信号量被低优先级任务占用,即使遇到高优先级任务,它…

前端-react(class组件和Hooks)

文章主要以Hooks为主,部分涉及class组件方法进行对比 一.了解react 1.管理组件的方式 在React中,有两种主要的方式来管理组件的状态和生命周期:Class 组件和 Hooks。 Class 组件: Class 组件是 React 最早引入的方式,它是基于…

Ngrok实现内网穿透(Windows)

Ngrok实现内网穿透(Windows) 什么是内网穿透,内网穿透有什么用 内网穿透(NAT traversal)是一种技术手段,使得位于内网或防火墙后面的设备能够通过外网访问。例如,如果你的计算机、服务器等设备…

如何使用Jest测试你的React组件

在本文中,我们将了解如何使用Jest(Facebook 维护的一个测试框架)来测试我们的React组件。我们将首先了解如何在纯 JavaScript 函数上使用 Jest,然后再了解它提供的一些开箱即用的功能,这些功能专门用于使测试 React 应…

力扣 三数之和-15

三数之和-15 class Solution { public:vector<vector<int>> threeSum(vector<int>& nums) {int temp 0;//定义一个二维vector数组vector<vector<int>> ans;int n nums.size();//对nums数组进行排序sort(nums.begin(), nums.end());//固定…

深度学习每周学习总结J6(ResNeXt-50 算法实战与解析 - 猴痘识别)

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 | 接辅导、项目定制 目录 0. 总结ResNeXt基本介绍 1. 设置GPU2. 导入数据及处理部分3. 划分数据集4. 模型构建部分5. 设置超参数&#xff1a;定义损失函数&…

Transformer架构笔记

Attention is All You Need. 3.Model Architecture 3.1 整体架构如图 3.2 Encoder与Decoder Encoder&#xff1a;由 N 6 N6 N6个相同的Block/Layer堆叠而成。每个Block有两个子层sub-layer&#xff1a;多头注意力和MLP&#xff08;FFN&#xff0c;前馈神经网络&#xff09;&…

【大数据学习 | Spark-Core】spark-shell开发

spark的代码分为两种 本地代码在driver端直接解析执行没有后续 集群代码&#xff0c;会在driver端进行解析&#xff0c;然后让多个机器进行集群形式的执行计算 spark-shell --master spark://nn1:7077 --executor-cores 2 --executor-memory 2G sc.textFile("/home/ha…

增量预训练(Pretrain)样本拼接篇

增量预训练&#xff08;Pretrain&#xff09;样本拼接篇 一、Pretrain阶段&#xff0c;为什么需要拼接拼接&#xff1f; 为了提高pretrain效率、拓展LLM最大长度&#xff0c;随机将若干条短文本进行拼接是pretrain阶段常见手段。 二、有哪些拼接方式&#xff1f; 拼接方式一…

【AI最前线】DP双像素sensor相关的AI算法全集:深度估计、图像去模糊去雨去雾恢复、图像重建、自动对焦

Dual Pixel 简介 双像素是成像系统的感光元器件中单帧同时生成的图像&#xff1a;通过双像素可以实现&#xff1a;深度估计、图像去模糊去雨去雾恢复、图像重建 成像原理来源如上&#xff0c;也有遮罩等方式的pd生成&#xff0c;如图双像素视图可以看到光圈的不同一半&#x…

从零开始-VitePress 构建个人博客上传GitHub自动构建访问

从零开始-VitePress 构建个人博客上传GitHub自动构建访问 序言 VitePress 官网&#xff1a;VitePress 中文版 1. 什么是 VitePress VitePress 是一个静态站点生成器 (SSG)&#xff0c;专为构建快速、以内容为中心的站点而设计。简而言之&#xff0c;VitePress 获取用 Markdown…

使用uniapp编写APP的文件上传

使用uniapp插件文件选择、文件上传组件&#xff08;图片&#xff0c;视频&#xff0c;文件等&#xff09; - DCloud 插件市场 实用效果&#xff1a; 缺陷是只能一个一个单独上传

【51单片机】红外遥控

学习使用的开发板&#xff1a;STC89C52RC/LE52RC 编程软件&#xff1a;Keil5 烧录软件&#xff1a;stc-isp 开发板实图&#xff1a; 文章目录 红外遥控硬件电路 NEC协议编码编程实例LCD1602显示Data红外遥控控制扇叶转速 红外遥控 红外遥控是利用红外光进行通信的设备&#…

【解决】Unity TMPro字体中文显示错误/不全问题

问题描述&#xff1a;字体变成方块 原因&#xff1a;字体资源所承载的长度有限 1.找一个中文字体放入Assets中 2.选中字体创建为TMPro 字体资源 3.选中创建好的字体资源&#xff08;蓝色的大F&#xff09; 在右边的属性中找到Atlas Width h和 Atlas Heigth,修改的大一点&…

深度学习:GPT-1的MindSpore实践

GPT-1简介 GPT-1&#xff08;Generative Pre-trained Transformer&#xff09;是2018年由Open AI提出的一个结合预训练和微调的用于解决文本理解和文本生成任务的模型。它的基础是Transformer架构&#xff0c;具有如下创新点&#xff1a; NLP领域的迁移学习&#xff1a;通过最…

CKA认证 | Day2 K8s内部监控与日志

第三章 Kubernetes监控与日志 1、查看集群资源状态 在 Kubernetes 集群中&#xff0c;查看集群资源状态和组件状态是非常重要的操作。以下是一些常用的命令和解释&#xff0c;帮助你更好地管理和监控 Kubernetes 集群。 1.1 查看master组件状态 Kubernetes 的 Master 组件包…

概念解读|K8s/容器云/裸金属/云原生...这些都有什么区别?

随着容器技术的日渐成熟&#xff0c;不少企业用户都对应用系统开展了容器化改造。而在容器基础架构层面&#xff0c;很多运维人员都更熟悉虚拟化环境&#xff0c;对“容器圈”的各种概念容易混淆&#xff1a;容器就是 Kubernetes 吗&#xff1f;容器云又是什么&#xff1f;容器…

JDBC编程---Java

目录 一、数据库编程的前置 二、Java的数据库编程----JDBC 1.概念 2.JDBC编程的优点 三.导入MySQL驱动包 四、JDBC编程的实战 1.创造数据源&#xff0c;并设置数据库所在的位置&#xff0c;三条固定写法 2.建立和数据库服务器之间的连接&#xff0c;连接好了后&#xff…