【端到端存储解决方案】Weka,让企业【文件存储】速度飞起来!

news2024/9/24 13:18:42

一、HK-Weka概述

虹科WekaIO(简称HK-Weka)是一个可共享、可扩展的文件存储系统解决方案,其并行文件系统WekaFS支持NVMeoF的flash-native并行文件系统、比传统的NAS存储及本地存储更快。

在这里插入图片描述

HK-Weka后端主机被配置为集群,它与安装在应用程序服务器上的HK-Weka客户端一起,构成了一个大型的可共享、分布式和可扩展的文件存储系统:

  • 可共享:所有客户端都可以共享相同的文件系统,任何客户端写入的任何文件都可以立即供读取数据的客户端使用。从POSIX标准(由IEEE和ISO/IEC开发)看,HK-Weka是一个强一致性、符合POSIX标准的系统。
  • 分布式:HK-Weka系统由多个后端组成集群,每个后端都同时提供服务。
  • 可扩展:HK-Weka系统的线性性能取决于集群的大小。对于大小为X且具有一定性能的群集,如果将群集加大到2倍,其性能将提高两倍,这非常适用于数据和元数据。

推荐阅读:《weka简介》

在数据泛滥的时代,数据会造成瓶颈和资源紧张,而HK-Weka将数据分解,统一企业内的数据孤岛、加快数据洞察时间。通过HK-Weka,企业可以获得一个应用程序敏捷、管理简单、成本低廉的端到端存储解决方案,改变让应用程序因为数据缺乏而降低处理速度的现状,从而更容易、更快、更安全地管理数据。HK-Weka为解决数据爆炸问题、提升数据价值提供了新的方向:

解决大问题

加快创新:比传统存储快10倍
安心扩展:线性性能,可同时扩展到100多PB的规模
更好、更快的终端用户体验

回馈数据要求高的工作负载

将计算能力用于工作:不浪费GPU/CPU资源
高性价比:具有对象存储经济性的极端NVMe性能
大幅提高数据科学和工程团队的生产力

可随处部署

云原生:跨公有和私有云运行
工作量少:只需最小的调整和维护
按需付费:只需为你使用的资源付费
软件定义:在标准硬件上获得类似于设备的体验

二、HK-Weka的功能特点

  • 保护
    HK-Weka并行文件系统受到N+2或N+4的全面保护,即硬盘或后端的任何2个并发故障都不会造成任何数据丢失,且HK-Weka系统能够正常运行以提供持续的服务。上述是通过复杂的分布式保护方案实现的,该方案是在形成集群时确定的。数据部分的范围可以从3到16,保护方案可以是2或4,即对于大型后端主机集群,集群可以是3 + 2,10 + 2,甚至16 + 4。

  • 分布式网络方案
    HK-Weka系统实现了任意对任意的保护方案,确保在后端发生故障时,使用其他后端可以执行重建过程,获取驻留在故障后端上的数据,并使用集群中其他后端的冗余重新创建。因此,冗余不是跨后端组,而是通过在整个后端集群中相互保护数据集组来实现的。例如,一个后端在100个后端的集群中发生故障,其他99个后端将参与重建过程,同时读取和写入。这意味着HK-Weka系统重建过程非常快,这与传统的存储架构不同。在传统的存储架构中,正常运行的后端只是参与重建过程的后端或驱动器的一小部分。对于HK-Weka系统而言,群集越大,重建过程就越快。

  • 将故障组件替换为功能组件
    热备盘(Hot Spare)是在HK-Weka系统集群中配置的,它会在整个集群重建后恢复完全冗余所需的额外容量,这与将特定物理组件专用于热备盘的传统方法不同。因此,一个包含100个后端的集群将配置足够的容量来重建数据,即使在发生两次故障后也可以恢复到完全冗余,并且还有可能承受另外两次故障,此故障组件更换策略不会影响系统的正常运行。系统发生故障后,只需将故障组件替换为有效组件即可重新创建数据。在HK-Weka系统中,数据立即被重新创建,将故障组件替换为功能组件作为后台进程。

  • 故障域
    故障域是一组后端,它们可能由于单个根本原因而失败。例如,如果机架中的所有服务器都通过单个电源电路供电,或者所有服务器都通过单个TOR交换机连接,则可以将其视为故障域。考虑一组10个这样的机架设置,包含50个HK-Weka后端的集群(每个机架中有5个后端)。在HK-Weka集群形成过程中,可以配置6+2保护,通过在机架上形成保护条使HK-Weka系统知道这些可能存在的故障域。通过这种方式,6 + 2条带将分布在不同的机架上,确保系统在机架完全故障的情况下保持运行且不会丢失数据。

  • 按优先级排列数据重建过程
    发生故障时,数据重建过程首先读取发生故障的所有条带以重建数据,然后返回到完全保护。如果发生第二次故障,可能会有三种类型的条带:

不受任何一个故障组件影响的条带:无需执行任何操作
仅受其中一个故障组件影响的条带
受两个故障组件影响的条带

当然,根据多重性规则,受两个故障组件影响的条带数量远小于受单个故障组件影响的条带数量。但在尚未重建受两个故障组件影响条带的情况下,第三个组件故障将使HK-Weka系统面临数据丢失。

为了降低这种风险,HK-Weka系统优先考虑重建过程:首先,从受两个故障组件影响的条带开始重建。由于此类条带的数量要少得多,因此该重建过程可以非常快速地执行,只需几分钟或更短的时间。接着,HK-Weka系统将返回到仅受一个故障组件影响的条带的重建,此时可以承受另一个并发故障且不会丢失任何数据。这种按优先级划分的重建过程方法可确保数据几乎永远不会丢失,并且服务和数据始终可用。

  • 无缝分配、最佳容量和最佳性能
    安装在应用服务器上的每个HK-Weka系统客户端可以直接访问存储数据的后端主机,然后转发访问请求。HK-Weka客户端包括一个完全同步的映射用以说明哪些后端存储哪种类型的数据,并表示所有客户端和后端都知道的联合配置。

当 HK-Weka客户端尝试访问某个文件或文件中的偏移量时,加密哈希函数会指示该后端所需的文件或偏移量。当执行集群扩展或发生组件故障时,后端的职责和功能会立即在各个组件之间重新分配。这是允许HK-Weka线性系统提高性能的基本机制,也是线性同步缩放大小与缩放性能的关键。例如,如果添加后端以使集群的大小增加一倍,则文件系统的不同部分将重新分发到新的后端,从而立即提供两倍性能。

此外,如果一个集群只是适度增长,比如从100个后端增加到110个后端,则没有必要重新分发所有数据,只有10%的现有数据将被复制到新的后端,以便平等地重新分配所有后端上的数据。这种数据平衡(扩展所有后端在所有读取操作中的参与度)对于扩展性能非常重要,可以确保没有空闲或过载后端,并且集群中的每个后端都存储相同数量的数据。

所有这些完全无缝操作的持续时间取决于根后端的容量和网络带宽。HK-Weka的无缝操作使得正在进行的操作不受影响,并且随着数据的重新分发还可以提高性能,完成重新分发过后可提供最佳容量和最佳性能。

  • 数据缩减
    HK-Weka系统增强的数据缩减功能可保持卓越的性能,能够显著减少各种工作负载。在HK-Weka并行文件系统中,可以寻找并减少彼此相似的数据块以单独存储数据块之间的差异,而传统数据缩减技术则需要数据块100%相似。上述操作可以按文件系统启用数据缩减,数据压缩率将取决于工作负载,无论是基于文本的数据、大规模非结构化数据集、日志分析、数据库、代码存储库和传感器数据等都可以压缩的非常出色。HK-Weka系统还提供了一个数据缩减估计工具(DRET),该工具可以在现有文件系统上运行,以计算数据集的缩减率。

三、HK-Weka的运行方式

要在生产环境中成功部署AI项目,企业的基础架构必须能够快速处理非常大的数据集,并能够从各种来源中摄取结构化和非结构化数据。传统的高性能处理存储架构不断地将数据从一个存储系统移动到另一个存储系统(用于归档数据的对象存储、用于持久存储的NAS、用于快速存储的并行文件系统)。随着数据传输时间的延长,不仅增加了存储架构复杂性,还减慢了运行结果。对HK-Weka系统而言,它重新构建了的现代AI工作流:

  • 设置和管理简单
  • 云原生:在本地、云端和平台之间无缝运行

在这里插入图片描述

  • 比本地存储更快:以更短时间、最快的推理和最高清晰的图像,秒基准来加速大规模数据流水线
  • 多协议支持:支持本机 NVIDIA GPUDirect 存储、POSIX、NFS、SMB和S3对数据的访问
  • 零拷贝架构:在同一个存储后端上运行整个管道,并消除副本成本和延迟
  • 零调整混合工作负载支持:最快的文件系统之一,支持高I/O、低延迟、小文件、混合工作负载和数据可移植性
  • 完全软件定义:既可以在硬件上运行,也可以在服务器上使用

推荐阅读:《Weka,让【文件存储】速度飞起来!》

虹科云科技,主要分享云计算、数据库、商业智能、数据可视化、高性能计算等相关知识、产品信息、应用案例及行业信息,为学习者传输前沿知识、为技术工程师解答专业问题、为企业找到最适合的云解决方案!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32249.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在Mysql中新建序列Sequence

在Oracle数据库中想要一个连续的自增数据类型的值,可以通过创建一个sequence来实现。而在Mysql数据库中并没有sequence,如想要在Mysql中像Oracle那样使用序列,该如何操作呢?(可以使用mysql中的自增主键) 1、…

哪个牌子的led灯质量好?2022LED护眼台灯最好的品牌有哪些

谈及led灯的品牌,就不得不提一些比较专业的厂商了,特别是在护眼照明领域,明基、南卡、飞利浦、松下等品牌都有不俗的实力,出产的led护眼台灯在业内都有广泛的知名度,在消费者领域也是好评连连。那么它们到底好在哪儿呢…

蓝牙协议栈分层

一、分层 BLE协议栈主要用来对你的应用数据进行层层封包,以生成一个满足BLE协议的空中数据包,也就是说,把应用数据包裹在一系列的帧头(header)和帧尾(tail)中。 BLE协议栈主要由如下几部分组成…

达梦日志分析工具DMLOG使用

达梦日志分析工具DMLOG1.使用工具的目的2.适用范围3.工具描述4.开启跟踪日志记录执行SQL5.使用条件及限制6.使用说明6.1使用前准备6.2使用方法和步骤7.结果解读1.使用工具的目的 分析SQL是DBA或者数据库服务人员很重要的工作。达梦数据库通过开启SVR_LOG捕捉数据库中运行的所有…

SpringBoot+Vue项目实现高校学生健康打卡系统

文末获取源码 开发语言:Java 使用框架:spring boot 前端技术:JavaScript、Vue.js 、css3 开发工具:IDEA/MyEclipse/Eclipse、Visual Studio Code 数据库:MySQL 5.7/8.0 数据库管理工具:phpstudy/Navicat JD…

双通道PID控制器用于热离子发电器中真空度和温度的同时控制

摘要:本文针对真空型热离子能量转换器(发电装置)中真空压力和温度的关联性复杂控制,提出一个简便的控制方式和控制系统的解决方案,控制系统仅采用一个双通道高精度PID调节器。方案的核心技术思路是将一个可调参量转换为…

接口类型太多了,很多网工总是分不清

交换机光模块的最强科普 以太网交换机常用的光模块有四个,分别是SFP(Small Form-factor Pluggabletransceiver) 小封装可插拔收发器,GBIC(GigaBit Interface Converter)千兆以太网接口转换器,X…

往USBKey里面导入双证书专题:概念介绍、执行逻辑

相关概念 国密证书 国密的双证书体系,将证书按照使用目的的不同划分为加密证书和签名证书两种,也就是两对公私钥,二者本质一致,均为SM2密钥对,区别仅体现在用法国密CA体系中,加密密钥对由CA产生&#xff…

力扣刷题记录141.1-----34. 在排序数组中查找元素的第一个和最后一个位置

目录一、题目二、代码三、运行结果一、题目 二、代码 class Solution { public:vector<int> searchRange(vector<int>& nums, int target) {int i,j;int left,right,middle;vector<int> return_vector(2,-1);if(nums.size()<3){for(i0;i<nums.si…

mysql转sqlite3实战+部署sqlite3应用

文章目录场景mysql脚本转sqlite31.新建个sqlite3的文件并使用navicat连接准备好mysql并连接上使用navicat数据传输传输完后&#xff0c;设置主键自增修改应用程序1.添加sqlite3的驱动包2.修改sqlite3的jdbc连接配置文件3.全局替换Date类型字段为String类型4.全局替换 sql文件中…

达摩院WIDER FACE榜首近两年人脸检测MogFace CVPR论文深入解读

一、开源 1.&#xff09;论文链接&#xff1a;https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_MogFace_Towards_a_Deeper_Appreciation_on_Face_Detection_CVPR_2022_paper.pdf 2.&#xff09;代码模型&#xff1a;ModelScope 魔搭社区 3.&#xff09;可玩应用…

新知实验室_初探腾讯云音视频

本文目标&#xff1a; 了解 TRTC 的基本概念 初步运行 demo 调用 API 完成进入视频房间 完成多人进入同一房间 一、腾讯 TRTC 可能有些同学并不知道 RTC 的相关概念&#xff0c; 这里先简单说一下。 WebRTC(web Real-Time Communication) 是指网站实时音视频通话技术。 这项技…

Shopro商城 高级版 Fastadmin和Uniapp进行开发的多平台商城(微信公众号、微信小程序、H5网页、Android-App、IOS-App)

Shopro商城无加密的开源源码(可用于自营外包项目(多主体)、可用于外包定制开发项目) shopro 商城&#xff0c;一款基于 uni-app 的前端模板商城。目前适配了&#xff08;小程序apph5公众号&#xff09;。 主要功能&#xff1a;登录、注册、签到、富文本、分类、购物车、筛选、…

CI/CD docker compose 部署 humpback - single mode

最近想搭一搭个人服务器&#xff0c;其中有很多东西都是通过 docker 来管理&#xff0c;每次都手动输入命令比较麻烦&#xff0c;需要一个轻量级的容器管理工具来直观轻松的管理容器和镜像。于是便相中了 humpback。 Humpback humpback 相关的详细介绍请自助传送 架构 主要组…

【无线传感器】WSN 查找两个节点之间的最短路径并发送数据(Matlab代码实现)

&#x1f468;‍&#x1f393;个人主页&#xff1a;研学社的博客 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜…

前后端分离项目,vue+uni-app+php+mysql教室预约系统设计与实现(H5移动项目)

功能模块 【后台管理功能模块】 系统设置&#xff1a;设置关于我们、联系我们、加入我们、法律声明 广告管理&#xff1a;设置小程序首页轮播图广告和链接 留言列表&#xff1a;所有用户留言信息列表&#xff0c;支持删除 会员列表&#xff1a;查看所有注册会员信息&#xff0c…

【力扣】787. K 站中转内最便宜的航班加权——有向图最短路径

前言 我感觉这题比较有代表性&#xff0c;所以记录一下&#xff0c;这题是加权有向图中求最短路径的问题。 题目 787. K 站中转内最便宜的航班 动态规划 假设有一条路径是[src, i, ..., j, dst]&#xff0c;解法一子问题的定义是[src, i, ..., j]&#xff0c;解法二子问题…

面经汇总--校招--北京顺丰同城

文章目录&#x1f525;1.一面&#x1f525;2.二面&#x1f525;3. 三面&#x1f525;4. 结果&#x1f525;1.一面 你对Spring aop的理解 面向切面编程&#xff0c;可以对某个方法前后加入自己想执行的方法函数。底层是动态代理&#xff0c;默认jdk动态代理&#xff0c;没有实现…

Redis 通用命令(keys,help,mset,exists,expire,ttl,tab补全)

目录 1.help【command】 2.tab自动补全 3. KEYS pattern&#xff08;模板&#xff09;&#xff08;不建议再生产环境上使用&#xff09; 4.del 删除指定的key&#xff0c;value也会删除&#xff08;也可以批量删除&#xff09; 5.MSET&#xff08;批量插入键值对&#xf…

【C语言】反序加密(非文件)

《算法集训传送门》 &#x1f449;引言 铭记于心&#x1f389;✨&#x1f389;我唯一知道的&#xff0c;便是我一无所知&#x1f389;✨&#x1f389;&#x1f496; ❄️我们的算法之路❄️&#x1f496;众所周知&#xff0c;作为一名合格的程序员&#xff0c;算法 能力 是不可…