大数据平台需要存算分离吗?某保险集团:以 ZBS 优化资源利用率,缩短业务用时超一半

news2024/10/6 16:19:23

金融机构普遍采用“存算一体”架构支撑基于 Hadoop 框架的大数据平台。而随着金融业务的多元化发展,不同业务对计算和存储的需求差异较大,由于“存算一体”架构共享存储与计算资源,经常会出现资源需求不均衡、资源利用率低下、难以灵活调度等问题,不仅难以满足大数据平台的业务需求,还可能增加用户的资源投入与运行成本。

近期,SmartX 与某头部保险集团开展合作,探索基于 SmartX 分布式存储 SMTX ZBS 构建“存算分离”架构,搭配 NVMe-oF(RDMA)接入协议,支撑 HDP 发行版的大数据平台性能表现。测试结果显示,相比基于裸金属和本地盘的“存算一体”架构,基于 SMTX ZBS(开启 RDMA)的“存算分离”架构,可有效缩短 HDP 大数据平台导出与查询表用时约 70%,同时提升资源使用率和资源扩展灵活性

下载阅读金融核心生产业务场景探索合集系列电子书,了解更多金融业务系统在分布式存储“存算分离”架构下的性能表现。

【核心业务篇】金融核心生产业务场景探索文章合集

【信创转型与架构升级篇】金融核心生产业务场景探索文章合集

【数据库与数据仓库篇】金融核心生产业务场景探索文章合集

实践背景

某保险集团原使用基于服务器和本地硬盘的“存算一体”架构支撑大数据平台,在生产环境运行期间,随着数据量的增加,存储和计算的资源使用逐渐变得不均衡,在算力足够的情况下出现了存储 I/O 瓶颈。由于采用“存算一体”架构,用户选择增加节点数量的方式来分担 I/O 负载,而扩展节点后整套系统的存储资源利用率仅为 30%,不仅浪费了资源,还增加了非必要的硬件成本。同时,由于本地硬盘不具备容灾机制,如果磁盘出现故障,为了保证数据的可靠性,大数据平台会占用业务带宽进行数据恢复,进而影响整个集群的性能和稳定性。

经过细致评估,用户希望尝试“存算分离”架构,来改善上述资源分配和可靠性的问题——存算分离架构将存储层和计算层分开部署,允许独立地扩展存储和计算资源,并根据实际需求动态地调整资源配置,从而提高系统的灵活性和可扩展性。同时,结合企业级分布式存储的数据保护机制,当存储磁盘故障时可实现大数据平台无感知的自动数据恢复(不占用业务带宽流量),进一步增强架构的可靠性和稳定性。

不过,选择哪一款分布式存储支持大数据平台?存储性能能否满足大数据平台日常需求?“存算分离”架构是否会因为网络远程传输 I/O 带来性能下降?多种数据冗余机制是否会造成额外的存储消耗?……针对这些顾虑,用户对 SmartX 分布式存储 SMTX ZBS 基于多种接入协议支持大数据平台的性能表现进行了测试验证。

SMTX ZBS 支持金融大数据平台的性能评测

ZBS 是 SmartX 自主研发的分布式存储,既可以与 SmartX 原生虚拟化 ELF/ VMware 虚拟化软件融合部署为超融合架构,也可作为分布式存储软件进行独立部署。SMTX ZBS 支持多种计算平台,具备多种企业级高可用特性和端到端的性能优化,同时支持 NVMe over RDMA(RoCE)技术以降低网络传输带来的延迟。欲深入了解 ZBS 功能特性,请阅读:

  • 分布式块存储 ZBS 的自主研发之旅 | 架构篇
  • 分布式块存储 ZBS 的自主研发之旅|接入协议之 NVMe-oF
  • 分布式块存储 ZBS 的自主研发之旅|数据同步协议 RDMA
  • 分布式块存储 ZBS 的自主研发之旅|元数据管理

测试目标

大数据平台数据流
大数据平台数据流

通过 SMTX ZBS 分布式存储对接裸金属服务器基础架构,用于承载上图中的 HDFS 和 HBase 等相关服务。对比 SMTX ZBS 和本地硬盘环境下大数据平台在备份场景和业务场景中的性能表现,同时针对 SMTX ZBS 基于 iSCSI 和 NVMe over RDMA(RoCE)两种接入协议的性能表现进行对比验证。

测试项目

  • 场景一 – 从 HBase 写入 HDFS(备份场景):分别从生产环境 12 台计算节点和 POC 环境 3 台计算节点中的 HBase 数据库中,导出 3 个(共 80GB)、14个(共 1.5TB)相同数据表写入到 HDFS,记录用时时间。
  • 场景二 – Phoenix 查询 HBase 数据表(业务场景):通过 Phoenix 程序直接查询 HBase 数据库,观察查询数据表的响应时间(响应延迟)。

环境配置

生产环境

生产环境有配置 1 和配置 2 两种服务器配置,具体如下:

配置 1:

配置2:

测试环境

说明:因为 NVMe over RDMA 技术对计算平台操作系统版本存在兼容性要求,故 Anolis OS 用于 NVMe Over RDMA 协议的测试。

测试结果

场景一:从 HBase 写入 HDFS

表导出场景下的性能对比

从 HBase 3/14 个表导出的用时对比来看,基于 NVMe over RDMA 接入协议的 SmartX 分布式存储相比生产物理机环境,导表时间分别缩短 72% 和 68%;3 个表导出场景下,相比 iSCSI 接入协议,采用 NVMe over RDMA 接入协议的 SMTX ZBS 导表时间缩短约 60%。

场景二:Phoenix 查询 HBase 数据表

为了更真实反映出存储性能差异对于该场景的性能影响,通过使用 Phoenix 本地直接查询 HBase 方式进行测试(消除接口服务器自身影响和网络环境差异)。结果显示,SmartX 分布式存储(使用 NVMe over RDMA 接入协议)相比生产物理机环境,查询时间缩短 71%,相比 SmartX 分布式存储(使用 iSCSI 接入协议),查询时间缩短约 60%

测试总结

总体而言,在大数据应用场景下,基于不同存储架构与存储接入协议的存储系统,其性能表现有较大差异,其中开启 NVMe over RDMA(RoCE)的 SMTX ZBS 可大幅提升应用运行效率,满足大数据应用对高性能与低时延的需求,同时不会因为“存算分离”架构带来额外的性能开销影响。

这一测试也充分证明了 SmartX 分布式存储和超融合对 NVMe over RDMA(RoCE)技术的支持能力。欲深入了解,请阅读:

  • 解决 SAN 交换机“卡脖子”并升级存储架构?一文解析 RoCE 与相关存储方案趋势
  • ZBS 的 RoCE 技术支持与业务场景性能评测

后续部署实践

经过测试,保险用户对基于 SMTX ZBS “存算分离”架构支持大数据平台的性能表现非常满意,3 个 ZBS 分布式存储节点即可提供远高于生产环境 12 个物理节点的性能,同时提升扩展灵活性、资源利用率、数据可靠保障,并降低硬件投入成本,为大数据平台 IT 基础设施带来整体优化。

目前,该保险用户已基于存储端 5 节点 SMTX ZBS 和计算端 16 节点信创操作系统服务器,搭配某商用大数据平台,构建了新一代生产大数据平台架构。

更多金融行业基于超融合和分布式存储支持金融核心应用系统的探索和实践,欢迎下载阅读
《 SmartX 金融核心生产业务场景探索文章合集系列电子书。

【核心业务篇】金融核心生产业务场景探索文章合集

【信创转型与架构升级篇】金融核心生产业务场景探索文章合集

【数据库与数据仓库篇】金融核心生产业务场景探索文章合集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1865469.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

贪吃蛇项目:GameRun与GameEnd部分:游戏的主体运行与善后部分

准备工作:打印得分信息 在进行GameStart之前,我们需要在地图的右侧打印帮助信息,以及目前玩家的得分情况和一个食物在当前速度下的得分情况(加速的状态下按比例增加食物的分数,减速的状态下则相反)&#xf…

历史与未来的交响曲:历史建筑保护与现代技术的完美融合

在时间的长河中,历史建筑如同凝固的诗篇,记录着过往的辉煌与沧桑。然而,岁月的侵蚀、自然灾害的威胁以及现代化进程的冲击,使这些宝贵的文化遗产面临前所未有的挑战。作为建筑设计领域的探索者,我们肩负着保护历史记忆…

多空分歧中,盘点全球“新股王”背后的这些在港概念股

冲榜成功。6月18日收盘,英伟达(NVDA.US)股价创新高,报135.58美元,总市值3.34万亿美元,一举超越微软、苹果公司,成为全球“新股王”。 不过,随着这一历史性时刻的出现,由于当前无法准确预估市场…

vue配置中的process.env

项目中的.env开头的文件是否知道是干什么的呢 主要是为了区分测试环境还是生产环境env.development为测试环境 # 测试环境 NODE_ENV development VUE_APP_BASE_API http://xxxxxxxxx // 命名一定要以 VUE_APP_ 开头,要不然根本取不到 .env.production为生产环境…

浏览器扩展V3开发系列之 chrome.runtime 的用法和案例

【作者主页】:小鱼神1024 【擅长领域】:JS逆向、小程序逆向、AST还原、验证码突防、Python开发、浏览器插件开发、React前端开发、NestJS后端开发等等 chrome.runtime API 提供了一系列的方法和事件,可以通过它来管理和维护 Chrome 扩展的生命…

用两个钟,我又在VMWARE上搞了一套内部网配置

最近要学es,所以打算自己用虚拟机搞个NAT,又搞了两个钟。为了不再费劲尝试,也为了造福大众,所以选择搞一份NAT笔记!!!! 1.初始化网关和DNS 我们给网关配置一个地址192.168.96.1&…

计算机图形学入门20:加速光线追踪

1.前言 前文说了Whitted-style光线追踪技术的原理以及光线与平面的交点计算方式,对于现在应用最广的Polygon Mesh显式曲面来说,一个复杂场景中的多边形面总数可能达到千万甚至亿万以上,如果每个像素发射光线都和场景中每个平面进行求交点计算…

植物大战僵尸杂交版v2.1最新直装版,苹果+安卓+PC+防闪退工具+修改工具+高清工具+通关存档整合包更新

今天我要和各位聊聊一款让全网疯狂的游戏——《植物大战僵尸杂交版》。这可不是简单的游戏,它可是让B站的UP主“潜艇伟伟迷”一夜成名的大作,让无数玩家为之疯狂的魔改神作! 记得2009年,《植物大战僵尸》横空出世,那时…

SpringBoot优点达项目实战:登录功能实现(四)

SpringBoot优点达项目实战:登录功能实现(四) 文章目录 SpringBoot优点达项目实战:登录功能实现(四)1、查看接口2、查看数据库3、代码实现1、创建实体类2、controller实现3、service层实现4、Mapper层 4、测…

IPFoxy Tips:匿名海外代理IP的使用方法及注意事项

在互联网上,隐私和安全问题一直备受关注。为了保护个人隐私和数据安全,使用匿名代理IP是一种常用的方法。匿名代理IP可以隐藏用户的真实IP地址,使用户在访问网站时更加隐秘和安全。 本文将介绍匿名代理IP的基本原理和核心功能。 基本原则 匿…

Power BI 占比函数

1,普通层级结构占比 占比1 DIVIDE([sum_qty], CALCULATE([sum_qty],ALLSELECTED(Item[ITEM_CODE]))) //按照line为一个整理展示数据占比2 SWITCH( true(),ISINSCOPE(Item[ITEM_CODE]),DIVIDE([sum_qty], CALCULATE([sum_qty],ALLSELECTED(Item[ITEM_CODE]))), IS…

前端 CSS 经典:mix-blend-mode 属性

前言&#xff1a;这是一个混合属性&#xff0c;作用是将两个颜色混合生成一个新颜色。可以将视频和文字相融合&#xff0c;产生动态文字效果。 效果 实现代码 <!DOCTYPE html> <html lang"en"><head><meta charset"utf-8" />&l…

数据资产风险管理与合规性:全面识别、科学评估并有效应对数据风险,确保企业数据资产的安全性与合规性,为企业稳健发展提供坚实保障

一、引言 在数字化时代&#xff0c;数据资产已成为企业运营和决策的核心要素。然而&#xff0c;随着数据量的快速增长和技术的不断演进&#xff0c;数据资产面临的风险也日益增多&#xff0c;如数据泄露、数据篡改、数据滥用等。同时&#xff0c;数据保护法律法规的不断完善&a…

文华财经盘立方均线-支撑压力自动画线多空声音预警指标公式源码

文华财经盘立方多空均线-支撑压力自动画线指标公式源码&#xff1a; //MA5:MA(C,5); //MA10:MA(C,10); MA20:MA(C,20),COLORRED; MA60:MA(C,60),COLORGREEN; TY:CLOSE; HD:FILTER(BACKSET(FILTER(REF(TY,10)HHV(TY,2*101),10),101),10); LD:FILTER(BACKSET(FILTER(REF(T…

PatchMixer:一种用于长时间序列预测的Patch混合架构

前言 《PatchMixer: A Patch-Mixing Architecture for Long-Term Time Series Forecasting》原文地址&#xff0c;Github开源代码地址GitHub项目地址Some-Paper-CN。本项目是译者在学习长时间序列预测、CV、NLP和机器学习过程中精读的一些论文&#xff0c;并对其进行了中文翻译…

jdk1.8升级到jdk11遇到的各种问题

一、第三方依赖使用了BASE64Decoder 如果项目中使用了这个类 sun.misc.BASE64Decoder&#xff0c;就会导致错误&#xff0c;因为再jdk11中&#xff0c;该类已经被删除。 Caused by: java.lang.NoClassDefFoundError: sun/misc/BASE64Encoder 当然这个类也有替换方式&#xf…

一本好的电子画册应这样做,你做对了吗?

​一本好的电子画册&#xff0c;不仅要有吸引人的图文&#xff0c;还可能包括视频、音频等多媒体元素&#xff0c;为读者提供全方位的阅读体验。连贯性是指画册的整体设计风格、内容布局要协调一致&#xff0c;让读者在阅读过程中感受到流畅和自然。创新性则要求创作者在内容呈…

【别再用Excel了!】这款免费可视化工具能帮你轻松提升效率

现代数据分析和展示的需求已经远远超出了传统工具的能力&#xff0c;尤其是在需要快速、直观和高效地处理复杂数据的情况下。山海鲸可视化通过其强大的功能和易用性&#xff0c;成为了设计师以及各类新手用户的理想选择。下面我就以一个可视化设计师的角度&#xff0c;和大家简…

月入稳定还是创业冒险:你的选择决定未来

大家好&#xff0c;我是汇舟问卷。在现在这个环境下&#xff0c;无论是就业还是创业都不好做。在传统就业与创业之间的选择时&#xff0c;我们应避免一概而论或过度推崇某一方向。 事实上&#xff0c;并非所有人都适合创业&#xff0c;对于那些满足于稳定工作&#xff0c;每月…

深入理解计算机系统 CSAPP 家庭作业7.13

用一下496页提到的工具咯 A: whereis libm.a file lidm.a gedit libm.a libm.a是个ASCII text文件打开一看原来 libm-2.27.a 和libmvec.a才是我们要看的 所以我们cd到目标地址后 ar -t libm-2.27.a ar -t libmvec.a B: gcc -Og bar5.c foo5.c 用之前的两个文件链接后生成…