Ceph Reef版本 RBD 性能测试:80万写IOPS(10节点、60个NVMe SSD)

news2024/12/23 1:40:14

 2023-05-16 08:30 发表于上海

摘自:https://mp.weixin.qq.com/s/mKkPElmCktoZaRk0m0IbqA

1、背景

        Ceph 社区最近冻结了即将发布的 Ceph Reef 版本,今天我们研究一下 Ceph Reef 版本在 10 个节点、60 个 NVMe 磁盘的集群上的 RBD 性能

        在确保硬件没有问题(NVMe 固件更新)后,Reef 能够保证约71GB/s的性能读取和25GB/s的性能写入(75GB/s 复制速度)。

        对于小型随机 IO,Reef 提供了大约4.4M 随机读取 IOPS800K 随机写入 IOPS(2.4M 复制速度)。

        对于小型 4K 顺序同步写入,Reef 实现了低于 0.5 毫秒的平均延迟、低于 0.5 毫秒的 99% 延迟和低于 0.8 毫秒的 99.9% 延迟

        即使在商业硬件设备上执行 3 倍的同步复制,它也实现了低于 8 毫秒的最大延迟。

        虽然 Reef 要比 Quincy 性能更佳,但我们也发现了一些小问题。

        在 Reef 冻结期间,我们将研究这些问题,以帮助 Reef 成为迄今为止最好的 Ceph 版本。

2、介绍

        在过去的几个 Ceph 版本中,Ceph 社区和 Red Hat 的 perf and scale 团队都进行了各种性能测试,以将以前的版本与我们新的预发布代码进行比较。

        我们希望看到我们在性能改进的过程中没有再引入新的其他问题。

        Pacific 和 Quincy 的发布对我们来说是一个比较完美的节点。因为我们通过版本的回归,并最终在发布之前确认了一些可能会有影响的问题。

        捕获细微的性能问题是非常复杂的,并且当我们尝试将过去测试的结果与新结果进行比较时会变得更加困难。

        在这过程中,发生了什么变化?是由于代码更改、硬件/软件架构更改还是其他原因造成的?

        Performance-CI 在这里可用于尝试在问题发生时捕获问题,但它非常耗费资源,并且除非我们非常小心,否则很容易出现差错。

        今天,我们将对 Quincy 和 Reef 进行简单的对比测,我们将尝试以完全相同的方式在完全相同的硬件上进行测试,以使差异尽可能小。

3、集群设置

Nodes

10 x Dell PowerEdge R6515

CPU

1 x AMD EPYC 7742 64C/128T

Memory

128GiB DDR4

Network

1 x 100GbE Mellanox ConnectX-6

NVMe

6 x 4TB Samsung PM983

OS Version

CentOS Stream release 8

Ceph Version 1

Quincy v17.2.5 (built from source)

Ceph Version 2

Reef 9d5a260e (built from source)

        所有节点都连接到同一台 Juniper QFX5200 交换机上,并通过单个 100GbE QSFP28 连接。同时我们部署了 Ceph 并使用 CBT (https://github.com/ceph/cbt/)启动了 fio 测试。

        除非特别说明,否则每个节点都安装 6 个 OSD,同时 fio 运行 6 个 librbd 类型的进程。

        基于英特尔的系统可以配置 "latency-performance" 以及 "network-latency" 来对系统进行调优。

        这避免于 CPU C/P 状态转换带来延迟。基于 AMD Rome 的系统在这方面的调优并没有太大的改变,而且我们还没有确认 tuned 实际上限制了 C/P 状态转换,但是对于这些测试,tuned 配置文件仍然设置为 “network-latency”。

4、测试设置

        CBT 需要针对所部署的 Ceph 集群调整几个参数。

        首先,禁用 rbd 缓存,为每个 OSD 分配 8GB 内存,并在禁用 cephx 的情况下使用 msgr V2。

        Fio 配置为首先使用大量写入预填充 RBD 卷,然后在 iodepth=128 下进行 3 次迭代测试(如下表所示),每次迭代 5 分钟。每个节点使用 6 个 fio 进程,总共使用 60 个 fio 进程,聚合 iodepth 为 7680。

        一些后台进程,比如 scrub、deep scrub、pg autoscaling 和 pg balancing 会被禁用。

        配置静态 16384 PG(高于通常推荐的数量)和 3x 副本的 RBD 池与每个 fio 进程 1 个 RBD 镜像一起使用。

IO Size

Read

Write

RandRead

RandWrite

4096

X

X

X

X

131072

X

X

X

X

4094304

X

X

X

X

5、最初的误导性结果

        只要是多于单个 OSD 的集群,Ceph 会使用 crush 以伪随机方式存储数据。

        虽然比较多的 PG 数量以及 PG 均衡可以帮助改善这一点,但总会有差异,一些 OSD 不可避免地需要比其他 OSD 花费更长的时间来完成他们的工作。

        因此,在任何给定的时间内,集群性能通常会受到最慢或使用率最高的 OSD 的限制。这是每个 Ceph 运维人员都应该知道的事情。

        我们为什么现在提出这个?在 Reef 冻结之后,我们恢复了用于 Quincy 测试的 CBT 配置,并开始运行一组新的测试。初步结果看起来相当不错。Quincy 的表现略低于预期,但与我们之前看到的相差不远 (https://ceph.io/en/news/blog/2022/rocksdb-tuning-deep-dive).。

        然而,一旦我到达瓶颈,结果开始看起来有点意外。

图片

        Reef 正在使用新的 RocksDB 调优配置(https://ceph.io/en/news/blog/2022/rocksdb-tuning-deep-dive),并进行了深度测试。

        当这些调优用在 Quincy 版本时,我们获得了很明显的性能改进,我们预计 Reef 版本也会有类似的改进。

        在这些测试中,Reef 的表现并不比 Quincy 好,实际上也不比 Pacific 好多少。

        我们运行了很多次对比测试,并试图梳理出可能解释差异的因素。

        后来,我们意识到我们可能应该关注一下系统的指标。CBT 为每个测试运行一个 collectl 副本,并记录大量系统指标数据。

        事实上,在运行的 RBD 和 RGW 测试之间,CBT 在长时间的测试过程中记录了超过 20GB 的指标数据。

        我们查看了系统中每个 NVMe 设备的性能指标。我们注意到,当第 10 个集群节点中的 nvme4 在大量写入测试中显示出较高的设备队列等待时间,但在读取测试中却没有。尤其是当在4KB 随机写入的时候,效果就更明显了:

图片

图片

        这些是 nvme4 上非常明显的延迟峰值,我们可以肯定这些与低于预期的性能有关。

        这个 NVME 是目前发现的延迟最严重的一个,但其他节点中的一些 NVME 也显示出高于预期的延迟。

        为了排除碎片的问题,我们对每个 NVME 进行完全安全擦除。

        另外,在 Quincy 发布期间,我们从三星那里获得到了一个新的 NVME。

        当我们将其安装替换到我们的集群上时,结果很明显。

图片

图片

        固件升级后,设备队列永远不会有超过一个 IO 等待,队列等待时间永远不会超过 0ms。

        看起来固件更新解决了当前的问题,但它能够永久修复该问题吗?随着时间的推移,我们需要观察硬件的状态以确保是否永久修复了该问题。

        出于本次测试的目的,我们恢复了集群到正常的性能。

        另外,性能提升了多少?固件更新主要有助于 4KB 和 128KB 随机写入测试。

图片

        性能现在大致恢复到去年秋天在 RocksDB 调优测试中观察到的水平。

        更重要的是,小型随机 IO 测试显示出非常一致的 NVMe 驱动器行为。

        接下来我们将重新运行测试并进行一些对比。

6、4MB 连续吞吐量

图片

        在大吞吐量测试中,Quincy 和 Reef 达到了大致相同的性能水平。

        Reef 对于大量写入可能会快一点,而对于大量读取可能会慢一点。

        在这两种情况下,底层集群都能够以大约 70-75GB/s 的速度执行,尽管因为我们正在进行 3X 复制,客户端可见写入吞吐量实际上约为 25GB/s。

        在这些测试中,每个 OSD 的平均 CPU 消耗为 1-1.5 个核心用于读取和 3-4 个核心用于写入。

        这种差异非常典型,因为 Ceph 的写入路径比读取路径更长。

7、4KB 随机 IOPS

图片

图片

        每个版本对我们来说最重要的测试是小型随机 IO 测试。

        这些测试通过对 OSD 增加压力,从而确认 IO 的效率。

        在这种情况下,我们总体上得到了相对较好的结果,但有几点需要注意。

        在 4K 随机读取方面,Reef 仅比 Quincy 慢一点点,但非常接近。

        另一方面,我们看到 4K 随机写入测试有了一定的改进,这主要是由于引入了新的 RocksDB 调优。

        不过,根据去年秋天的结果,我们并没有看到像预期那样大的性能提升。在随机读取测试中,每个 OSD 的 CPU 使用率略高于 7 个内核,而在随机写入测试中,Reef 的每个 OSD 将近 11 个内核。这似乎与 Quincy 的更高性能成正比。

        在测试 Ceph 的小的随机写入性能的时,加入拥有无限 CPU 资源,那么 kv_sync_thread 则会成为瓶颈,但 CPU 的消耗主要发生在 OSD 工作线程和信使线程中,因 CPU 造成的性能瓶颈场景还是比较少的。

        因此,最大化写入性能是 OSD 数量、NVMe 速度、核心数量和核心速度之间的微妙平衡。

        Reef 中的随机写入性能高于 Quincy,但没有我们希望的那么高。这是为什么?

        还有两个额外的测试可能会提供一下原因。

        就在我们冻结 Reef 之前,我们升级到最新版本的 RocksDB,因为与我们在 Quincy 中使用的旧版本相比有几个重大错误修复和改进。

        我们可以简单地还原该更改,然后看看 Reef 的表现如何。

        我们还可以使用我们现在在 Reef 中作为标准使用的 RocksDB 调优来运行 Quincy,看看它能在多大程度上提高 Quincy 性能。

图片

        使用 Reef 调整在 v17.2.5 上运行特别慢之外,但非常接近。

        当使用旧的 Quincy 版本的 RocksDB 编译 Reef 时,似乎确实有一致的性能提升,尽管很小(~2%)。

        使用相同版本的 RocksDB 编译的 Quincy 和 Reef 则保持一致。

图片

        在随机写入场景中,我们看到两个非常有趣的结果。

        一:当 Quincy 使用新的 RocksDB 调整默认值编译时,无论它使用哪个版本的 RocksDB,它实际上都比 Reef 快。

        二:恢复到旧版本的 RocksDB 确实会带来性能提升,但同样非常小(~1-2%)。它不能完全解释当 Quincy 和 Reef 都使用新的 RocksDB 调优时出现的回归。

        最终结果是 Reef 中很可能会出现小的回归,从而影响小的随机写入。

8、4KB 顺序同步写入延迟

        在过去的一年里,我们收到了很多关于 Ceph 写入延迟的问题。

        Ceph 可以进行 sub-millisecond 写入吗?我们看到什么样的尾延迟?

        虽然我们过去对此进行过测试,但我们现在决定也进行一组快速的 4K 同步顺序写入测试。需要注意的是,这是在一个有大量可用空间和几乎零碎片的新集群上。

        只有 1 个客户端在 io_depth 为 1 的情况下进行写入。

        这几乎是展示 Ceph低延迟的理想场景。它不一定反映在有业务流量以及数据碎片的集群上的真实尾部延迟。

Metric

O_DSYNC Quincy

O_SYNC Quincy

O_DSYNC Reef

O_SYNC Reef

Average Latency (ms)

0.417

0.416

0.421

0.418

99% Latency (ms)

0.465

0.461

0.465

0.469

99.9% Latency (ms)

0.741

0.733

0.750

0.750

Max Latency (ms)

7.404

6.554

7.568

6.950

        在这两种情况下,Quincy 和 Reef 都能够以低于 0.5 毫秒的延迟写入绝大多数 IO。

        CBT 会为每次运行保存 fio 延迟图,因此我们也可以查看这些图:

图片

        总体而言,结果非常一致,只有几个异常值。

        这里需要注意的是,在 fio 中测试 librbd 时,使用 O_SYNC 和 O_DSYNC 标志可能没有太大区别。

        我们联系了 Ilya Dryomov(Ceph 的 RBD 负责人)。他表示 librbd 或内核 RBD 都不需要关心,因为这些是在 VFS 层处理的。我们应该只在这些写入在所有参与的 OSD 上完全持久化后才寻求 OSD 的确认。无论如何,所有运行的性能似乎都相当。

        在进行这些单客户端、io_depth=1 测试时,同时也需要关注一下网络的延迟。我们在集群中的不同节点之间进行了一些 ping 测试。

        注意:ping 是 ICMP 而不是 TCP,而且 ping 也是往返的。

        从 mako01 ping mako10(100GbE 接口):

icmp_seq

Latency (ms)

1

0.039 ms

2

0.025 ms

30.032 ms
40.029 ms
50.034 ms
60.027 ms
70.026 ms
80.026 ms
90.028 ms
100.032 ms

        在读取的情况下,使用复制和使用 RBD 进行测试时,Ceph 仅有从客户端到主 OSD 的往返。

        在写入情况下,Ceph 必须进行多次往返。1 个在客户端和主节点之间,1 个在主节点和并行的每个辅助节点之间。

        在写测试中,我们应该可以看到有负载的节点的 2 次往返的平均网络延迟要更差。

        因此,网络延迟很可能在这些小型同步写入测试中发挥重要作用(可能不是主导作用)。

        Ceph 本身仍有改进同步写入延迟的空间,但是网络延迟在这一点上是一个有效的问题,并且随着 Ceph 本身的改进将成为一个更大的因素。

9、结论

        这篇文章也是非常关注底层硬件性能和固件更新对 Reef 的影响。在进行基准测试时,了解底层硬件至关重要,如果我们没有升级所有 SSD 驱动器上的固件,我们会忽略掉很多东西(更高的写入 IOPS!)。

        确保我们使用的固件是最新的,并且我们的硬件运行状态良好,然后再花一天时间运行测试。

        一旦硬件处于良好的状态,Quincy 和 Reef 就会表现出差不多的性能。

        两者都实现了大约 71GB/s 的大型读取和 25GB/s 的大型写入以及 3X 复制。两者还以大约 4.4-4.5M IOPS 实现了类似的 4KB 随机读取性能。

        Reef 在小型随机写入方面比 Quincy 快 6-7%,这主要是由于新的 RocksDB 调整,但我们预计它会更快一些。

        同时,可能还存在限制 Reef 实现更高性能的因素,我们后续将研究 Reef 冻结期间的潜在回归,并继续努力使 Reef 成为迄今为止最好的 Ceph 版本!

原文:https://ceph.io/en/news/blog/2023/reef-freeze-rbd-performance/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/874239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

16收16发ARINC429模块

6通道发送, 16通道接收 发送通道: 每路发送通道FIFO大小为:511 x 32bit(CHR32216/32316) ,缓存256条发送消息(CHR32216-EX/32316-EX) 发送FIFO可设置复位 可设置消息间隔, 字间隔和发送帧的预定数呈 发送波特率100Kbps、50Kbps、…

春秋云镜 CVE-2020-0784

春秋云镜 CVE-2020-0784 wordpress插件 Title Experiments Free < 9.0.1 SQLI 靶标介绍 wordpress插件 Title Experiments Free < 9.0.1 没有对用户输入进行过滤和转义&#xff0c;导致了SQL注入。 启动场景 漏洞利用 exp POST /wp-admin/admin-ajax.php HTTP/1.1 H…

NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】

NeuralNLP-NeuralClassifier的使用记录&#xff0c;训练预测自己的【中文文本多分类】 数据准备&#xff1a; ​ 与英文的训练预测一致&#xff0c;都使用相同的数据格式&#xff0c;将数据通过代码处理为JSON格式&#xff0c;以下是我使用的一种&#xff0c;不同的原数据情况…

关于配电室升级为智能运维模式的问题

配电室安全稳定运行、电能使用高效节能是每个企业关注的问题&#xff0c;然而&#xff0c;由于供用电系统的运行维护又是一项复杂而且专业性很强的工程&#xff0c;如果没有先进的技术手段&#xff0c;靠人工值班、人工操作的运行方式&#xff0c;运行管理成本大&#xff0c;安…

【什么是摆线减速器?设计、3D 打印和测试】

【什么是摆线减速器&#xff1f;设计、3D 打印和测试】 1. 什么是摆线驱动&#xff1f;2. 如何设计摆线驱动器3. DIY摆线驱动3D模型4. 三维设计5. 3D打印制造6. 组装摆线齿轮箱7. 测试摆线驱动器 在本教程中&#xff0c;我们将学习什么是摆线驱动器&#xff0c;它是如何工作的&…

React Native 图片组件基础知识

在 React Native 中使用图片其实跟 HTML 中使用图片一样简单&#xff0c;在 React Native 中我们使用Image组件来呈现图片的内容&#xff0c;其中主要的属性有&#xff1a;source。这个属性主要是设置图片的内容&#xff0c;它可以是网络图像地址、静态资源、临时本地图像以及本…

电气测试相关

项目&#xff1a; 长期过电压 瞬态过电压 瞬态欠压 跳跃启动 卸载 纹波电压 电源电压缓慢下降和上升 电源电压缓慢下降、快速上升 复位行为 短暂中断 启动脉冲 带电气系统控制的电压曲线 引脚中断 连接器中断 反极性 信号线和负载电路短路 启动行为 对分流不…

【数据结构系列】链表

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…

谈谈我的感受

虽然清楚知识需要靠时间沉淀&#xff0c;但在看到自己做不出来的题别人会做&#xff0c;自己写不出的代码别人会写时还是会感到焦虑怎么办&#xff1f; 感受 当我们比别人弱的时候&#xff0c;可能会感到挫败、失落、沮丧或无力。这种感受往往是因为我们与自己设定的标准或别人…

RocketMQ 5.1.0 源码详解 | Producer 发送流程

文章目录 初始化DefaultMQProducer实例发送流程DefaultMQProducer#sendDefaultMQProducerImpl#sendMQClientInstance#updateTopicRouteInfoFromNameServer使用特定 topic 获取路由信息使用默认 topic 获取路由信息 DefaultMQProducerImpl#sendDefaultImpl发送流程总结 初始化De…

[保研/考研机试] KY26 10进制 VS 2进制 清华大学复试上机题 C++实现

题目链接&#xff1a; 10进制 VS 2进制http://www.nowcoder.com/share/jump/437195121691738172415 描述 对于一个十进制数A&#xff0c;将A转换为二进制数&#xff0c;然后按位逆序排列&#xff0c;再转换为十进制数B&#xff0c;我们称B为A的二进制逆序数。 例如对于十进制…

2023年国赛数学建模思路 - 复盘:光照强度计算的优化模型

文章目录 0 赛题思路1 问题要求2 假设约定3 符号约定4 建立模型5 模型求解6 实现代码 建模资料 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 问题要求 现在已知一个教室长为15米&#xff0c;宽为12米&…

关于“算力”,这篇文章值得一看

2022-10-29 23:19 发表于北京 摘自&#xff1a;https://mp.weixin.qq.com/s/SEONRZtAmRvLFKOGeOY__g 这两年&#xff0c;算力可以说是ICT行业的一个热门概念。在新闻报道和大咖演讲中&#xff0c;总会出现它的身影。 那么&#xff0c;究竟到底什么是算力&#xff1f;算力包括哪…

Ceph读写性能估算方法

发布于 2018-08-13 12:42 阅读原文&#xff1a;http://www.cccttt.me/blog/2018/04/10/ceph-performance-estimate 1、前言 最近在做Ceph性能测试相关工作&#xff0c;在测试初期由于没有得到理想的测试结果&#xff0c;因此对Ceph集群进行了优化&#xff0c;但是一直有个问题…

docker搭建opengrok环境

引言&#xff1a; 由于这几天开始 http://aospxref.com/ 网站没法用了。用习惯了opengrok的方式看AOSP的源码&#xff0c;其他的在线查看源码的网站用起来都不是很理想。所以考虑搭建一个环境。 首先网上看了下opengrok的环境搭建的方式&#xff0c;最终还是采用docker的方…

7-4 求整数均值

本题要求编写程序&#xff0c;计算4个整数的和与平均值。题目保证输入与输出均在整型范围内。 输入格式: 输入在一行中给出4个整数&#xff0c;其间以空格分隔。 输出格式: 在一行中按照格式“Sum 和; Average 平均值”顺序输出和与平均值&#xff0c;其中平均值精确到小…

2023年国赛数学建模思路 - 复盘:校园消费行为分析

文章目录 0 赛题思路1 赛题背景2 分析目标3 数据说明4 数据预处理5 数据分析5.1 食堂就餐行为分析5.2 学生消费行为分析 建模资料 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 赛题背景 校园一卡通是集…

CTFshow 限时活动 红包挑战7、红包挑战8

CTFshow红包挑战7 写不出来一点&#xff0c;还是等了官方wp之后才复现。 直接给了源码 <?php highlight_file(__FILE__); error_reporting(2);extract($_GET); ini_set($name,$value);system("ls ".filter($_GET[1])."" );function filter($cmd){$cmd…

华为云MetaStudio多模态数字人进展及挑战介绍

// 编者按&#xff1a;数字人作为AI能力集大成者&#xff0c;涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术&#xff0c;正在金融、政务、传媒、电商等领域应用越来越广。LiveVideoStackCon 2023 上海站邀请到华为云的李明磊为我们介绍华为云在数字人领域当前…

QLExpress动态脚本引擎解析工具

介绍 QLExpress脚本引擎 1、线程安全&#xff0c;引擎运算过程中的产生的临时变量都是threadlocal类型。 2、高效执行&#xff0c;比较耗时的脚本编译过程可以缓存在本地机器&#xff0c;运行时的临时变量创建采用了缓冲池的技术&#xff0c;和groovy性能相当。 3、弱类型脚本…