开源分布式存储系统(HDFS、Ceph)架构分析

news2024/11/23 22:20:27

文章目录

  • 中间控制节点架构-HDFS
    • NameNode节点分析
    • DataNode节点分析
    • SecondNameNode节点分析
    • Client分析
  • 完全无中心架构-Ceph
    • Ceph Monitor分析
    • Ceph OSD分析
    • Ceph Manager分析
    • Ceph Clients分析
  • 小结
    • HDFS
      • 优点
      • 缺点
    • Ceph
      • 优点
      • 缺点
  • 参考

中间控制节点架构-HDFS

以HDFS( Hadoop Distribution File System )为代表的架构是中间控制节点架构的代表。

HDFS分布式文件系统是被设计成主从式的一种架构,集群中主要由客户端名称节点NameNode数据节点DataNode第二名称节点SecondNameNode组成。其中名称节点相当于分布式文件系统的管理者,主要用于管理文件系统命名空间及对整个集群进行控制等功能,数据节点则是文件实际存储的基本单元并在NameNode的控制下进行数据的读写和出错处理等基本操作,SecondNameNode则是用于备份NameNode的系统信息文件增强了集群抵抗单点失效的能力,客户端主要负责与NameNode与DataNode之间的通信,访问HDFS文件系统对文件进行增删查改等操作,HDFS集群中通常会包括一个NameNode节点与一个SecondNameNode节点,数据节点则会根据集群规模不同有所不同,一般的集群会有几十或着几百个数据节点规模大的甚至可以达到上千个,它的基本架构图如下图所示:

image-20230918110416861

在HDFS系统中,通常会有一个NameNode、一个SecondNameNode、多个DataNode和多个HDFS Client。各个结点都会以守护进程的方式运行在以网络分布的不同服务器上。其中,NameNode相当于集群的管理者,DataNode是集群的基本存储单元,客户端用于访问HDFS,SecondNameNode会定期合并NameNode的元数据信息。

NameNode节点分析

NameNode的作用:

  • 保存文件的元数据信息。NameNode主要负责存储文件系统的命名空间元数据,它将决定数据块映射到哪个DataNode上。
  • 通过心跳机制检测DataNode的运行状态。NameNode启动之后将运行一个监听DataNode消息的进程,在DataNode运行之后它将会连接NameNode并会定期的向NameNode发送一个HeartBeat(即心跳)报告,将运行状态信息发送给NameNode,NameNode将根据这些信息来确定集群中的机器运行状态和数据块的分布状态,发送的时间默认是20分钟当超过这个时间没有接收到节点的信息时则认为该节点出现了故障。

NameNode是整个HDFS架构中最为核心的部分,它维护了整个文件系统的文件目录树和文件、目录的元数据信息与文件数据快索引,这些信息以两种形式存储在NameNode的本地文件系统中:一种是命名空间镜像FSImage(即文件系统镜像),另一种是EditLog(即命名空间的编辑日志)。

DataNode节点分析

DataNode的作用:

  • 主要负责数据块的实际复制与存储。
  • 定期向NameNode节点汇报自身运行状态。

每个数据结点都会运行一个守护进程,它主要负责将HDFS中的数据块写入到本地文件系统中的实际物理文件中和从这些文件中读取数据块。在客户端要对文件内容进行操作时,先由NameNode节点通知客户端每个数据块存储在哪个数据结点上,然后客户端直接与DataNode上的守护进程进行通信来进行数据块的读写操作。

DataNode在本地文件中主要保存了数据块与数据块元文件,其中数据块元文件存储的是数据块的校检信息,DataNode在运行之后,将会定期的对数据块文件进行扫描并将计算出的校检信息与数据块元文件进行比较,如果出现不符则认为数据块已经损坏需要进行恢复,数据块的恢复将由BadBlockReport机制实现,DataNode将信息上报给NameNode,NameNode则将数据块信息记录到恢复队列中并在之后通知其它DataNode进行失效数据块的复制,这样就保障了每一个数据块都有规定的副本数,提高了系统的可靠性。

HDFS文件系统中默认的副本数量是3个,数据块的3个副本分布于不同的DataNode上,当这些数据节点上的任意一个崩溃或者不能网络进行访问时可以通过其它节点来进行文件的操作,名称节点的元数据与数据节点上的数据块由下图所示:

image-20230918144511023

SecondNameNode节点分析

SecondNameNode的作用:

  • SecondNameNode在HDFS中的作用是定期和NameNode通信来备份NameNode中的FSImage、EditLog等系统文件,这样就保障了NameNode在发生故障时整个系统命名空间和元数据信息的完整性。

SecondNameNode与名称节点NameNode最大的区别就是它不接受和记录HDFS的任何实时变化,它只是根据系统配置的间隔不断地获得HDFS中某一时间点的命名空间的镜像与编辑日志,并将其合并成一个新的命名空间镜像,这个新的镜像文件会上传到NameNode上替换先前的的命名空间镜像并清空日志文件,这样SecondNameNode为NameNode提供了一个简单的Checkpoint(即检查点)机制从而避免了集群运行时间过长编辑日志过大导致的NameNode启动时间过长的问题。

image-20230918151517680

Client分析

客户端的主要工作就是和NameNode与DataNode进行交互从而进行文件的基本操作,HDFS文件系统提供了多种的客户端交互手段,主要包括:Java API、命令行接口、C 语言库、Thrift 接口与用户文件系统等。


完全无中心架构-Ceph

以Ceph为代表的架构是完全无中心架构的代表。

Ceph存储系统的设计目标是提供高性能、高可扩展性、高可用的分布式存储服务。它采用RADOS(Reliable Autonomic Distributed Object Store)在动态变化和异构的存储设备集群上,提供了一种稳定、可扩展、高性能的单一逻辑对象存储接口和能够实现节点自适应和自管理的存储系统。数据的放置采取CRUSH算法,客户端根据算法确定对象的位置并直接访问存储节点,不需要访问元数据服务器。CRUSH算法具有更好的扩展性和性能。本节介绍了Ceph的集群架构、数据放置方法以及数据读写路径,并在此基础上分析其性能特点和瓶颈。

RADOS可提供高可靠、高性能和全分布式的对象存储服务。对象的分布可以基于集群中各节点的实时状态,也可以自定义故障域来调整数据分布。块设备和文件都被抽象包装为对象,对象则是兼具安全和强一致性语义的抽象数据类型,因此RADOS可在大规模异构存储集群中实现动态数据与负载均衡。

对象存储设备(Object Storage Device,OSD)是RADOS集群的基本存储单元,它的主要功能是存储、备份和恢复,数据,并与其他OSD之间进行负载均衡和心跳检查等。一块硬盘通常对应一个OSD,由OSD对硬盘存储进行管理,但有时一个分区也可成为一个OSD,每个OSD皆可提供完备和具有强一致性的本地对象存储服务。MDS(Metadata Server)是元数据服务器,向外提供CephFS在服务时发出的处理元数据的请求,将客户端对文件的请求转化为对对象的请求。RADOS中可以有多个MDS分担元数据查询的工作。

如下图所示,一个RADOS集群由大量OSD、0~n个MDS和少数几个Monitor组成。

image-20230918213514660

Ceph存储集群由多种类型的守护进程组成:

Ceph Monitor分析

Ceph Monitor维护集群的主副本映射、Ceph集群的当前状态以及处理各种与运行控制相关的工作。在Ceph集群中配置多个Ceph Monitor可确保在其中一个Ceph Monitor守护进程或其主机发生故障时的可用性。

每个Monitor节点上都运行守护进程(ceph-mon)。该守护进程可维护集群映射的主副本,包括集群拓扑图。这意味着Ceph客户端只需要连接到一个Monitor节点并检索当前的集群映射,即可确定所有Monitor和OSD节点的位置。

  • Ceph Monitor的主要作用是维护集群的数据主副本映射关系。同时,它为每个组件维护一个单独的信息图,包括OSD Map、MON Map、MDS Map、PG Map和CRUSH Map等。所有集群节点均向Monitor节点报告,并共享有关其状态的每个更改信息。Monitor不存储实际数据。存储数据是OSD的工作。

  • Ceph Monitor还提供身份验证和日志服务。Monitor将监控服务中的所有更改信息写入单个Paxos,并且Paxos更改写入的K/V存储,以实现强一致性。Ceph Monitor使用K/V存储的快照和迭代器(LevelDB数据库来执行整个存储的同步)。换句话说,Paxos是Ceph Monitor的核心服务,专门负责数据一致性工作。

Paxos服务解决的问题正是分布式一致性问题,即一个分布式系统中的各个进程如何就某个值(决议)达成一致。Paxos服务运行在允许有服务器宕机的系统中,不要求消息的可靠传递,可容忍消息丢失、延迟、乱序和重复。它利用大多数机制保证了 2 N + 1 2N+1 2N+1 的容错能力,即 2 N + 1 2N+1 2N+1 个节点的系统中最多允许 N N N 个节点同时出故障。

Ceph OSD分析

  • 利用Ceph节点上的CPU、内存和网络进行数据复制、纠错、重新平衡、恢复、监控和报告等

  • Ceph OSD守护进程检查自己的状态和其他OSD的状态,并向Ceph Monitor报告

通常每个磁盘对应一个OSD守护进程。

Ceph Manager分析

维护PG(放置组)有关的详细信息,代替Ceph Monitor处理元数据和主机元数据,能显著改善大规模集群的访问性能。Ceph Manager处理许多只读Ceph CLI的查询请求,例如放置组统计信息。Ceph Manager还提供了RESTful API。

  • Ceph Manager从整个集群中收集状态信息。Ceph Manager守护进程和Ceph Monitor守护进程一起运行,提供了附加的监控功能,并与外部监控系统和管理系统连接。

  • 它还提供其他服务(如Ceph DashBoard UI)、跟踪运行时指标,并通过基于Web浏览器和仪表盘和RESTful API公开集群信息。

将Ceph Manager和Ceph Monitor放在同一节点上运行比较明智,但不强制。

Ceph Clients分析

Ceph客户端接口负责和Ceph集群进行数据交互,包括数据的读写。客户端与Ceph集群进行通信需要以下数据:

  • Ceph集群配置文件或集群的名称(通常命名为ceph)、Monitor地址
  • 存储池名称
  • 用户名和密钥路径

Ceph客户端维护对象ID和存储对象的存储池名称。为了存储和检索数据,Ceph客户端访问Ceph Monitor并检索最新的Cluster Map副本,然后由Ceph客户端向Librados提供对象名称和存储池名称。Librados会使用CRUSH算法为要存储和检索的数据计算对象的放置组和主OSD。客户端连接到主OSD,并在其中执行读取和写入操作。


小结

HDFS

优点

  1. 容错性:数据自动保存多个副本。通过增加副本的形式,提高容错性。其中一个副本丢失以后,可以自动恢复。

  2. 可以处理大数据:能够处理数据规模达到GB、TB甚至PB级别的数据;能够处理百万规模以上的文件数量。

  3. 可以构建在廉价的机器上,通过多副本机制,提高可靠性。

缺点

  1. 不适合低延时数据访问:比如毫秒级的存储数据,是做不到的。

  2. 无法高效对大量小文件进行存储:存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。同时,小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。

  3. 不支持并发写入、文件随机修改:一个文件只能有一个写,不允许多个线程同时写。仅支持数据append(追加),不支持文件的随机修改。

Ceph

优点

  1. 高性能。针对并发量大的异步IO场景,随着集群规模的扩大,Ceph可提供近线性的性能增长。
  2. 高可扩展性。Ceph通过CRUSH算法来实现数据寻址。这种方法避免了元数据访问的瓶颈,使集群的存储容量可以轻易扩展至PB级,甚至EB级。
  3. 统一存储,适用范围广。Ceph支持块、文件和对象存储,可满足多种不同的需求。底层的RADOS可扩展并支持不同类型的存储服务。
  4. 支持范围广。 自2012年起,Linux内核开始支持Ceph,目前Ceph可以在几乎所有主流的Linux发行版和其他类UNIX系统上运行。自2016年起,Ceph开始支持ARM架构,同时也可适用于移动、低功耗等领域,其应用场景覆盖了当前主流的软硬件平台。

缺点

  1. Ceph的数据分布算法CRUSH在实际环境中存在一些问题,包括扩容时数据迁移不可控、数据分布不均衡等。这些问题影响了Ceph性能的稳定性。
  2. Ceph的架构复杂,抽象层次多,时延较大。虽然Ceph采用面向对象的设计思想,但其代码内对象间的耦合严重,导致不同版本间的接口不兼容。针对不同版本的性能优化技术和方法也互相不兼容。
  3. Ceph是一个通用的分布式存储系统,可应用于云计算、大数据和高性能计算等领域。针对不同的访问负载特征,Ceph还有较大的性能提升和优化空间。

参考

  • 《基于HDFS分布式存储技术研究与优化》
  • 《Ceph分布式存储系统性能优化技术研究综述》
  • 《Ceph企业级分布式存储:原理与工程实践》
  • https://zhuanlan.zhihu.com/p/186024598
  • https://zhuanlan.zhihu.com/p/524792408

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1022032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

五、点击切换、滚动切换、键盘切换

简介 通过事件改变当前展示的信息组件&#xff0c;交互的事件有点击上下切换、鼠标轮动上下切换、键盘上下键切换。欢迎访问个人的简历网站预览效果 本章涉及修改与新增的文件&#xff1a;App.vue、public 一、鼠标点击上下箭头切换 <template><div class"a…

Learn Prompt-Prompt 高级技巧:Agent的颠覆性影响

OpenAI联合创始人Andrej Karpathy在一个开发者活动上发表讲话&#xff0c;谈及了他和OpenAI对AI Agents的看法。他将过去开发 AI Agents 的困难与现在依靠新技术工具而带来的新机会进行了对比。Andrej Karpathy 认为普通人、创业者和极客在构建 AI Agents 方面相比 OpenAI 这样…

还有一天活动就开始我定好闹钟准时上线

&#xff08;整理衣服&#xff09;&#xff08;大步流星走上台&#xff09;&#xff08;拿起麦克风&#xff09;&#xff08;激情发言&#xff09;请大家&#xff08;热泪盈眶&#xff09;&#xff08;哽咽&#xff09;关注&#xff08;流泪&#xff09;&#xff08;擦眼泪&…

蓝桥杯打卡Day11

文章目录 最长上升子序列最长上升子序列II 一、最长上升子序列IO链接 本题思路:本题是一关于dp问题中的一个类型是最长上升子序列问题&#xff0c;首先我们将状态表示出来&#xff1a;f[i]表示以a[i]结尾的最大的上升序列。状态计算&#xff08;集合划分&#xff09;&#xf…

如何防盗版软件

有多少公司&#xff0c;至今都无法摆脱被盗版软件支配的恐惧&#xff1f; 其实大多数时候&#xff0c;企业都是被动当了大冤种&#xff0c;因为他们也并不会主动要求员工使用破解软件。实在是架不住有些不懂版权的、心存侥幸的员工私下里使用。只要公司联网&#xff0c;就一定…

猫头虎博主第5️⃣期赠书活动:《Java官方编程手册(第12版·Java 17)套装上下册》

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

JK405R-SOP16录音芯片ic方案的常见问题集锦包含录音长度功耗以及外挂spiflash

目录 问题1 1、KT405R是什么&#xff1f; 具备哪些功能&#xff1f; 有什么特色&#xff1f; 问题2 2、KT405R录音的机制是怎样的&#xff1f; 问题3 3、KT405R的供电电压详细说明&#xff1f;以及功耗控制手段 问题4 4、KT405R支持多段录音&#xff1f;每段时长如何划…

招商信诺人寿基于 Apache Doris 统一 OLAP 技术栈实践

本文导读&#xff1a; 当前&#xff0c;大数据、人工智能、云计算等技术应用正在推动保险科技发展&#xff0c;加速保险行业数字化进程。在这一背景下&#xff0c;招商信诺不断探索如何将多元数据融合扩充&#xff0c;以赋能代理人掌握更加详实的用户线索&#xff0c;并将智能…

mysql redis的区别

.mysql和redis的数据库类型 mysql是关系型数据库&#xff0c;主要用于存放持久化数据&#xff0c;将数据存储在硬盘中&#xff0c;读取速度较慢。 redis是NOSQL&#xff0c;即非关系型数据库&#xff0c;也是缓存数据库&#xff0c;即将数据存储在缓存中&#xff0c;缓存的读取…

Stm32_点灯

利用HAL库基本语法实现C8T6点灯操作 引脚配置 PB3、4 、5 //设置为output PB6、7 设置Input且为上拉初始化代码&#xff1a; 由于3、4、5引脚默认输出为0灯泡默认点亮所以要将他们初始化为1 void Inint(){//初始化灯泡函数熄灭HAL_GPIO_WritePin(GPIOB, GPIO_PIN_3, GPIO_PI…

无涯教程-JavaScript - RADIANS函数

描述 RADIANS函数将度数转换为弧度。度和弧度之间的转换是通过以下关系式计算的 180度π弧度 其中π是数学常数,PI3.14159265358979 ... 语法 RADIANS (angle)争论 Argument描述Required/OptionalAngleAn angle in degrees that you want to convert.Required 适用性 E…

主动写入流对@ResponseBody注解的影响 | 京东云技术团队

问题回溯 2023年Q2某日运营反馈一个问题&#xff0c;商品系统商家中心某批量工具模板无法下载&#xff0c;导致功能无法使用&#xff08;因为模板是动态变化的&#xff09; 商家中心报错&#xff08;JSON串&#xff09;&#xff1a; {"code":-1,"msg":&…

http概念

概念&#xff1a;HTTP&#xff0c;hyper text transfer protocol&#xff0c;超文本传输协议&#xff0c;规定了浏览器和服务器之间数据传输的规则。 特点&#xff1a; 1.基于TCP协议&#xff1a;面向连接&#xff0c;安全。 2.基于请求-响应模型的&#xff1a;一次请求对应一…

2.求循环小数

题目 对于任意的真分数 N/M &#xff08; 0 < N < M &#xff09;&#xff0c;均可以求出对应的小数。如果采用链表表示各个小数&#xff0c;对于循环节采用循环链表表示&#xff0c;则所有分数均可以表示为如下链表形式。 输入&#xff1a; N M 输出&#xff1a; 转换…

内容创作者如何下载头条号西瓜视频的视频

如果你是一位科技博客作者或是视频创作专家&#xff0c;我相信你必然会遇到这样的问题&#xff1a; 如何将头条号的西瓜视频的视频下载下来&#xff1f; 对于这个问题&#xff0c;其实并不存在所谓的标准答案&#xff0c;因为头条号和西瓜视频并没有提供官方支持的下载方式。…

文件外发流程如何设置,才能进行事前事中事后管控呢?

随着信息技术的快速发展&#xff0c;企业内部数据的安全性成为业务运行过程中的关键问题之一。尤其是对于那些包含商业秘密、客户数据以及机密文件等敏感信息的企业而言&#xff0c;文件的外发往往会导致严重的商业损失和声誉损害。根据IBM的数据报告&#xff0c;2022年全球数据…

【二叉搜索树】将二叉搜索树变平衡-力扣 1382 题

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…

一文解析 Python 读取配置文件的常用方法!

在程序运行使用当中&#xff0c;尤其是框架设计中&#xff0c;配置文件是必不可少的&#xff0c;配置文件的存在能够放置参数或者选项设置&#xff0c;使得程序更加灵活可用&#xff0c;下面就来介绍 Python 读取配置文件的常用方法。 常用的配置文件种类有很多&#xff0c;甚至…

【Nginx27】Nginx学习:代理模块(一)基本配置与概念

Nginx学习&#xff1a;代理模块&#xff08;一&#xff09;基本配置与概念 来了来了它来了。要说 Nginx 最早最出名的名头是什么&#xff1f;相信不少老码农马上就会想到&#xff0c;最开始&#xff0c;Nginx 的名头就是一款性能最高的 反向代理 服务器。现在其实也是&#xff…

Harmony 开始支持 Flutter ,聊聊 Harmony 和 Flutter 之间的因果

相信大家都已经听说过&#xff0c;明年的 Harmony Next 版本将正式剥离 AOSP 支持 &#xff0c;基于这个话题我已经做过一期问题汇总 &#xff0c;当时在现有 App 如何兼容 Harmony Next 问题上提到过&#xff1a; 华为内部也主导适配目前的主流跨平台方案&#xff0c;主动提供…