如何利用 SmartX 存储性能测试工具 OWL 优化性能管理?

news2024/11/26 5:46:29

作者:深耕行业的 SmartX 金融团队 张瑞松

运维人员在日常管理集群时,有时难免会产生这样的困惑:

  • 新业务准备上线,在具备多套存储的情况下,应如何选择承载业务的存储环境?

  • 业务虚拟机刚上线时运行速度很快,而运行一段时间后,为什么软硬件没有直观的问题但运行还是会变慢?

  • 业务反馈虚拟机性能时好时坏,这是怎么回事?

  • 新上线的存储与原来的配置不一样,怎样判断两者的性能差别,以及他们分别适合运行什么样的业务?

这些场景都涉及到存储的性能监控,同时也考验运维人员利用监测数据合理安排业务放置、对性能进行调优的能力。

为了帮助用户更好地管理集群存储性能,SmartX 自主研发了自动化存储性能测试工具 OWL。本文中,我们将为大家介绍 OWL 的功能特性和使用方法,并通过实际应用展现如何利用 OWL 测试结果优化性能管理,避免性能瓶颈。

OWL 工具介绍

OWL 是 SmartX 自研的自动化存储性能测试 Web 平台,以 fio 作为性能获取工具,进行集群的性能压力测试。由于 fio 可以调整为多队列、多带宽、多 I/O 模型的测试情景,能够模拟大多数的业务 I/O(如 MySQL 的性能测试调优就经常使用 fio),因此成为了支持 OWL 的最佳选择。另外,OWL 并不绑定 SmartX 超融合集群,用户也可在其他环境中使用 OWL 进行性能测试

OWL 可以通过以下三个方面为用户提供帮助:

适应不同硬件配置,提供每套存储各自的存储性能“基线”

为了满足 IT 基础架构信创转型需求,用户可能会购入此前未接触过的国产配件。多种配件组合下,工程师需要了解这些新配置的存储可以达到多少性能、支持哪些应用和数据库。传统的验证方式是直接使用新架构试跑一台业务虚拟机,而使用 OWL 则可以通过模拟类似的 I/O 模型,验证集群的性能情况,从而测试出这套集群存储的性能基线。

参考存储性能基线,分类上线业务虚拟机

用户可基于 OWL 提供的存储性能基线,为需要上线的业务虚拟机选择合适的存储集群。比如 IOPS 较大的数据库业务,用户可使用全闪集群,而对于 IOPS 比较轻量、数据交互较少的业务,用户可使用性价比较高的混闪集群。

另外,OWL 除了能让用户预先了解每台主机能承载的最大 I/O,还可以通过搭建模拟环境,帮助用户在业务上线前了解其可能需要的 I/O 大小,合理分配虚拟机放置,避免将多台带宽占用较大的虚拟机放在一台主机上,导致业务正式上线后出现带宽“被业务追着跑”的情况。

结合告警功能,主动告警性能瓶颈风险

用户在使用 OWL 获取性能测试基线后,可在每套集群的告警规则上设置对应存储性能的读写带宽阈值。当虚拟机的带宽达到了主带宽的 70% 和 80% 时,运维工程师会分别收到告警提示,从而及时观察虚拟机及其他主机的带宽占用情况。这样用户可以在新业务上线之前,将这台虚拟机迁移到相对空闲的主机或集群上。

OWL 使用方法及测试流程

测试前准备

由于 OWL 工具以虚拟机形式运作,用户需要进行 ovf 导入,为 OWL 配置 IP 地址,且保证 OWL 与 test VM ssh 通讯。Test VM 配置要求如下:

  • Linux 2c 4G 40G+50G

  • 配置 IP 地址,且与 OWL 工具 ssh 通讯

  • 安装 FIO 软件

测试流程

  1. 登录 OWL Web 界面。

  2. 创建测试模型。

  3. 添加测试对象。

  4. 创建测试任务。

  5. 启动测试任务。

  6. OWL 结合告警功能,主动告警性能瓶颈风险。

详细测试过程,请参考以下 Demo 演示:集群存储性能的监控管理与自动化测试工具介绍。

利用测试结果优化存储性能管理

常用测试模型

以下为演示中我们常用的 I/O 测试模型。

图片

告警阈值计算与设置方式

通过上面的测试拿到性能基线后,用户可以计算出对应的写带宽阈值和读带宽阈值,并在集群里添加告警规则。我们以下图为例介绍阈值的计算方式。

两副本

图片

以上两组数据,分别是对 8 节点集群中 1 台主机运行 1 台虚拟机,和 8 台主机分别运行 1 虚拟机,进行测试。

我们主要关注带宽。以写带宽为例,在 8P8V 256K 顺序写场景中,写带宽为 7278。我们将 7278 除以 8,得到每一个节点带宽的平均值,然后再将 MBPS 换算成 BPS,该值的 70% 就是我们需要设定为注意级别的告警阈值。

写带宽严重告警阈值我们会看 8P1V 256K 场景下的数值。这里写带宽是 1656.86 MBPS,经过单位换算后,这个数值的 80% 将直接作为严重级别的告警阈值。由此,我们得到两个写带宽阈值数值,如下图所示。

图片

读带宽告警阈值计算方式与写带宽相同,上述例子中读带宽阈值设置如下图所示。

图片

用户实践

案例一:运维工程师及时收到性能告警,规避业务影响

某用户使用 OWL 工具进行带宽压测后发现,集群中的某一节点带宽超过了 1.7 GB/s,已超过严重警告级别的阈值。SmartX 后台自动发送告警,提醒运维工程师存储性能已接近极限,从而避免对业务带来直接影响。

图片

案例二:某国有银行利用 OWL 定制 I/O 模型测试集群性能

某国有银行为了满足监管需求,利用 OWL 按照定制 I/O 模型(48K,randrw=1:9)连续 12 小时测试集群性能。测试结果显示(如下图),该集群平均 IOPS 标准差可达 54338,延时在 1 毫秒左右。

图片

案例三:某国有银行利用 OWL 评估集群性能是否满足 99th Percentile 要求

某国有银行关注到 99th Percentile 要求,利用 OWL 测试对应的块大小下的存储性能,直观了解该场景下集群的性能情况。测试结果如图所示。

图片

欲了解更多 SmartX 超融合智能运维特性,请阅读:一文了解 SmartX 超融合硬盘健康检测机制与运维实践,或扫描下方二维码,获取《SmartX 超融合技术原理与特性解析合集(含 VMware 对比详情)》电子书。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/953088.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

<algorithm> 头文件

头文件是 C 标准库中的一个头文件&#xff0c;提供了许多常用的算法函数。除了 erase 之外&#xff0c; 头文件还包含了以下一些重要的函数&#xff1a; 1、排序算法&#xff1a; sort&#xff1a;对容器进行排序。 #include <iostream> #include <algorithm> #…

基于Android的旅游管理系统 微信小程序

随着网络科技的发展&#xff0c;移动智能终端逐渐走进人们的视线&#xff0c;相关应用越来越广泛&#xff0c;并在人们的日常生活中扮演着越来越重要的角色。因此&#xff0c;关键应用程序的开发成为影响移动智能终端普及的重要因素&#xff0c;设计并开发实用、方便的应用程序…

百度文心一率先言向全社会开放 应用商店搜“文心一言”可直接下载

8月31日&#xff0c;文心一言率先向全社会全面开放。广大用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”&#xff08;https://yiyan.baidu.com&#xff09; 体验。同时&#xff0c;企业用户可以直接登录百度智能云千帆大模型平台官网&#xff0c;调用文心一言能…

IntelliJ IDEA中代码提示功能不见了

IntelliJ IDEA中代码提示功能不见了&#xff1f;试试这几个方法&#xff01; 在我们敲代码的时候&#xff0c;环境中的代码提示功能非常强大且方便。但是这突如其来的问题纠结我两天&#xff0c;不给提示&#xff0c;不给引包&#xff0c;连个错他妹的也不给报。 第一种情况&…

Texlive2023与Texstudio2023卸载与安装(详细全程)

早在两年前安装了texlive2020&#xff0c;最近重新使用总是报错&#xff0c;好像是因为版本过低。我就找了个时间更新一下texlive版本&#xff0c;全程如下。 1、卸载texlive老版本 1&#xff09;找到texlive目录&#xff0c;比如我的是D:\texlive\2022\tlpkg\installer&…

[linux实战] 华为云耀云服务器L实例 Java、node环境配置

系列文章目录 第一章 [linux实战] 华为云耀云服务器L实例 Java、node环境配置 文章目录 系列文章目录前言一、任务拆解二、修改密码三、配置安全规则四、远程登录并更新apt五、安装、配置JDK环境5.1、安装openjdk,选择8版本5.2、检查jdk配置 六、安装、配置git6.1、安装git6.2…

一些git心得:建仓库的最好方式是克隆;每个仓库的设置是比较独立的

背景&#xff1a;最近&#xff0c;我在gitee上新建了一个仓库&#xff0c;然后克隆下来后&#xff0c;发现远程配置竟然自动都配好了。于是&#xff0c;在git的使用上有一了点点新的体会。 一、每个仓库是互相独立的&#xff0c;包括一些设置。 比如上面是两个仓库&#xff0c…

【App出海成功案例】 | NetMarvel 帮助广告主ARPU增长45%,ECPM增长50%,付费率涨幅30%

中国App何以扬帆出海&#xff1f; 出海热发展到今天&#xff0c;中国App席卷西方世界的神话被一一打造&#xff0c;手游/非游双面开花&#xff0c;成功案例作为赛道代表&#xff0c;也成为众多出海广告主一一效仿的风向标。 它们在用户增长、变现收益上的打法是怎样的&#x…

Unity 之 参数类型之值类型参数的用法

文章目录 基本数据类型结构体结构体的进一步补充 总结&#xff1a; 当谈论值类型参数时&#xff0c;我们可以从基本数据类型和结构体两个方面详细解释。值类型参数指的是以值的形式传递给函数或方法的数据&#xff0c;而不是引用。 基本数据类型 基本数据类型的值类型参数&…

Spring Cloud 快速入门基本介绍

&#x1f600;前言 本篇博文是关于Spring Cloud 基本介绍&#xff0c;希望你能够喜欢 &#x1f3e0;个人主页&#xff1a;晨犀主页 &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是晨犀&#xff0c;希望我的文章可以帮助到大家&#xff0c;您的满意是我的动力&#x…

3个微信恢复聊天记录的方法,简单易懂

朋友们&#xff0c;我要被自己气死了。手欠删除了微信上的所有聊天对话框&#xff0c;我发誓我真的不知道这样做会清空聊天记录&#xff0c;有什么办法能恢复我的聊天记录吗&#xff1f; 是不是还有很多小伙伴都不知道微信这个令人害怕的操作&#xff1a;删除聊天对话框删除聊天…

MySql刷题知识汇总

1.CHAR_LENGTH &#xff1a; 求varchar类型的长度。

TCP之三次握手四次挥手

在前面的文章中我们了解到http是基于TCP/IP协议的&#xff0c;这篇文章我们来了解一下TCP/IP。 一、TCP与UDP 1、UDP 基于非连接。类似于写信&#xff0c;不能保证对方能不能接收到&#xff0c;接收到的内容是否完整&#xff0c;顺序是否正确。 优缺点&#xff1a;性能损耗小…

【FlowDroid】一、处理流程学习

FlowDroid 一、处理流程学习 下载配置源码概况代码逻辑分析analyzeAPKFilerunInfoflowprocessEntryPointcalculateCallbacks(sourcesAndSinks)再次回到processEntryPoint 自己做一些笔记 下载配置 参照我前面的文章可以使用FlowDroid安装初体验 为了看代码了解FlowDroid如何处…

关于CICD流水线的前端项目运行错误,npm项目环境配置时出现报错:Not Found - GET https://registry.npm...

关于CICD流水线的前端项目运行错误&#xff0c;npm项目环境配置时出现报错&#xff1a;Not Found - GET https://registry.npm… 原因应该是某些jar包缓存中没有需要改变镜像将包拉下来 npm config set registry http://registry.npm.taobao.org npm install npm run build

java实现多文件压缩zip

1&#xff0c;需求 需求要求实现多个文件压缩为zip文件 2&#xff0c;代码 package com.example.demo;import java.io.*; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; import java.util.ArrayList; import java.util.List; import…

【宝藏系列】一文带你了解STM32内置的硬件功能安全属性

【宝藏系列】一文带你了解STM32内置的硬件功能安全属性 文章目录 【宝藏系列】一文带你了解STM32内置的硬件功能安全属性&#x1f468;‍&#x1f3eb;概览1️⃣双看门狗&#xff1a;独立看门狗和窗口看门狗2️⃣电源监测3️⃣时钟安全系统CSS4️⃣SRAM奇偶校验位5️⃣硬件ECC6…

【两周学会FPGA】从0到1学习紫光同创FPGA开发|盘古PGL22G开发板学习之数码管动态显示(五)

本原创教程由深圳市小眼睛科技有限公司创作&#xff0c;版权归本公司所有&#xff0c;如需转载&#xff0c;需授权并注明出处 适用于板卡型号&#xff1a; 紫光同创PGL22G开发平台&#xff08;盘古22K&#xff09; 一&#xff1a;盘古22K开发板&#xff08;紫光同创PGL22G开发…

口碑最好的洗拖一体机 大面积洗地机十大排名

口碑最好的洗拖一体机 大面积洗地机十大排名 口碑最好的洗拖一体机&#xff0c;是现代家庭清洁的必备神器。它不仅能快速高效地清洁地面&#xff0c;还能省时省力&#xff0c;完成一些繁琐的家务活。那么&#xff0c;当我们面对市面上琳琅满目的洗地机品牌时&#xff0c;该如何…

Qt/C++编写视频监控系统81-Onvif报警抓图和录像并回放

一、前言 视频监控系统中的图文警情模块&#xff0c;是通过Onvif协议的事件订阅拿到的&#xff0c;通过事件订阅后&#xff0c;设备的各种报警事件比如入侵报警/遮挡报警/越界报警/开关量报警等&#xff0c;触发后都会主动往订阅者发送&#xff0c;而且一般都是会发送两次&…