分布式文件存储相关概念

news2024/11/27 22:33:50

分布式文件存储

1 常见专业术语

1.1 备份技术

出于数据恢复的目的而创建的一份额外的数据副本

分类:直接连接备份,网络连接备份, 脱局域网备份,脱服务器备份
在线备份,离线备份,近线备份

①冷备份

冷备份在执行操作时,服务器不再接受来自用户或应用对数据的更新,解决了在备份复制进行时,并发更新的问题。冷备份时间过长,服务器不再接受任何更新操作

②热备份

用户和应用正在更新数据时,系统也可以进行备份,存在完整性问题;每一个文件或数据库实体都需要作为一个完整的,一致的版本进行备份

③文件级备份

文件级备份: 使用服务器操作系统和文件系统来备份文件 优点是很容易恢复某个或某些特定的文件,在进行备份时,操作系统和应用程序可以继续访问文件,但是所需时间较长,比如备份大量的小文推荐,操作系统和文件及目录元数据的访问开销很高,"打开文件"的备份无法解决

④块级备份

映像级备份,完全绕过文件和文件系统,将数据作为裸磁盘块,从磁盘上直接读取数据,不关心有多少文件,也不深入道文件内部,按块在磁盘上的次序读取,而不是在文件中的次序,所以不会因为读取有大量分片的文件数据时因寻道而导致的性能下降。块级备份通常有内建的即时快照支持,可以从根本上解决 "打开文件"问题, 通过执行特殊的操作将运行着的应用程序和它们在服务器内存中的数据进入一致状态,冲刷到磁盘,然后做一个快照,备份过程从快照而不是实际卷上读取改变的数据块,备份完成后删除快照

⑤双活

主备数据中心之间一般有热备、冷备、双活三种备份方式。

热备的情况下,只有主数据中心承担用户的业务,在不停机情况下对主数据中心进行备份。

冷备的情况下,也是只有主数据中心承担业务,在停机情况下对主数据中心进行备份。

双活是觉得备用数据中心只做备份太浪费了,所以让主备两个数据中心都同时承担用户的业务,此时,主备两个数据中心互为备份,并且进行实时备份。一般来说,主数据中心的负载可能会多一些,比如分担60~70%的业务,备数据中心只分担40%~30%的业务 。

⑥两地三中心

两地 = 本地 + 异地

三中心 = 本地中心 + 本地容灾中心 +异地备份中心

1.2 快照技术

快照技术是一种在存储系统中创建数据备份的方法。它可以记录存储设备上特定时间点的数据状态,并且能够在需要时恢复到该时间点的状态。快照技术通过记录数据的变化,而不是复制整个数据集,来实现高效的备份和恢复操作。快照技术可以帮助用户在发生数据丢失、数据损坏或其他故障时,快速恢复到之前的数据状态。

1.3 连续数据保护技术

连续数据保护技术是一种数据备份和恢复的方法,它通过实时记录数据的变化来提供更加精确和及时的数据保护。与传统的周期性备份不同,连续数据保护技术可以在每次数据变化时立即备份数据,从而减少数据丢失的风险。连续数据保护技术通常使用增量备份的方式来记录数据的变化,并且可以提供灵活的恢复点选择,使用户可以选择任意时间点进行数据恢复。

1.4 RAID技术

RAID(Redundant Array of Independent Disks 磁盘阵列)技术是一种通过将多个独立的硬盘组合起来,以提供更高的数据可靠性和性能的存储技术。RAID技术通过将数据分布在多个硬盘上,并使用冗余校验信息来保护数据的完整性。不同的RAID级别提供不同的数据保护和性能特性,例如RAID 0提供了高性能但没有冗余保护,RAID 1提供了数据冗余但没有性

1.5 多路径技术

多路径技术是一种在存储系统中使用多个独立的路径来提供更高的可靠性和性能的方法。多路径技术可以通过使用多个网络连接、多个存储控制器或多个存储设备来实现。当一个路径发生故障时,多路径技术可以自动切换到另一个可用的路径,从而保证存储系统的连续性和可用性。多路径技术还可以通过同时使用多个路径来提高存储系统的性能,例如通过并行传输数据或负载均衡来提供更高的吞吐量和响应性能。

1.6 虚拟化技术

虚拟化技术是一种将物理资源抽象为虚拟资源的方法,以提供更高的资源利用率和灵活性。在存储领域,虚拟化技术可以将多个物理存储设备组合成一个逻辑存储池,并为用户提供统一的存储接口。虚拟化技术可以隐藏底层存储设备的细节,使用户可以更方便地管理和使用存储资源。虚拟化技术还可以提供诸如快照、克隆、压缩、去重等高级功能,以提高存储效率和数据管理的灵活性。

1.7 数据复制与容灾

1.7.1 恢复时间目标(RTO,最大容忍服务停滞时间)

恢复时间目标(RTO: Recovery Time Objective),其以应用为出发点,即应用的恢复时间目标,主要指的是所能容忍的应用停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。RTO是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间。RTO的值越小,代表容灾系统的数据恢复能力越强;

1.7.2 恢复点目标(RPO,最大容忍数据丢失量)

恢复点目标(RPO: Recovery Point Objective),RPO是反映恢复数据完整性的指标,其以数据为出发点,主要指的是业务系统所能容忍的数据丢失量

1.7.3 主动/被动与双活

①主动/被动:

  • 数据备份的一种方式,数据主要存储在主数据中心中,备用数据中心只是在主数据中心出现故障或停机的时候起到备份的作用。而在主数据中心出现故障的期间,备用数据中心并不会被用于实时的数据访问或应用使用。

②双活:两个数据中心承担业务。

  • 双活是觉得备用数据中心只做备份太浪费了,所以让主备两个数据中心都同时承担用户的业务,此时,主备两个数据中心互为备份,并且进行实时备份。一般来说,主数据中心的负载可能会多一些,比如分担6070%的业务,备数据中心只分担40%30%的业务 。

【转】一张秒懂的单机、集群、热备、硬盘阵列
在这里插入图片描述

2 常见的分布式文件系统

2.1 GFS(Google File System)

​ Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。GFS是一个为Google内部设计的大数据分布式存储框架,由2003年Google发表的论文提出,遗憾的是Google并没有将其开源,但是基于GFS的设计理念,诞生了很多优秀的开源类GFS文件系统。

2.2 HDFS(Hadoop Distributed File System)

HDFS是Hadoop(Apache开源项目)的专用文件系统, Hadoop是一个大数据计算框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集,是Google发表的MapReduce算法的实现,HDFS是GFS的开源实现。

2.3 Ceph

Ceph是加州大学Santa Cruz分校的Sage Weil(DreamHost的联合创始人)专为博士论文设计的新一代自由软件分布式文件系统,并使用Ceph完成了他的论文。Ceph的主要目标是设计成基于POSIX的没有单点故障的分布式文件系统,使数据能容错和无缝的复制。与其它分布式文件系统相比,ceph 性能最高,因为其使用C++编写而成。 由于 ceph 使用 btrfs 文件系统, 而btrfs 文件系统需要 Linux 2.6.34 以上的内核才支持。自2007年毕业之后,Sage开始全职投入到Ceph开 发之中,使其能适用于生产环境,经过十几年的发展,Ceph已经趋向于成熟。

2.4 Lustre

Lustre是一个开源、分布式并行文件系统软件平台,具有高可扩展、高性能、高可用等特点。Lustre的构造目标是为大规模计算系统提供一个全局一致的POSIX兼容的命名空间,这些计算系统包括了世界上包含最强大的高性能计算系统。它支持数百PB数据存储空间,支持数百GB/s乃至数TB/s并发聚合带宽。

2.5 GridFS

GridFS 是MongDB的分布式存储系统,用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片、音频、视频等)。GridFS 也是文件存储的一种方式,但是它是存储在MonoDB的集合中。GridFS 可以更好的存储大于16M的文件。GridFS 会将大文件对象分割成多个小的chunk(文件片段),一般为256k/个,每个chunk将作为MongoDB的一个文档(document)被存储在chunks集合中。GridFS 用两个集合来存储一个文件:fs.files与fs.chunks。每个文件的实际内容被存在chunks(二进制数据)中,和文件有关的meta数据(filename,content_type,还有用户自定义的属性)将会被存在files集合中。

2.6 MogileFS

MogileFS是一个开源的分布式文件存储系统,是由LiveJournal旗下的Danga Interactive公司开发。目前使用MogileFS的公司非常多,如日本排名先前的几个互联公司以及国内的Yupoo(又拍)、digg、豆瓣、大众点评、搜狗等,分别为所在的组织或公司管理着海量的图片。以大众点评为例,用户全部图片均有MogileFS存储,数据量已经达到500TB以上

2.7 FastDFS(Fast Distributed File System)

FastDFS是一个开源的分布式文件系统,由纯C编写,性能很高。她对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。

2.8 TFS(Taobao File System)

TFS是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求,被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构,可将文件名映射到文件的物理地址,简化了文件的访问流程,一定程度上为TFS提供了良好的读写性能。

参考文章:https://blog.csdn.net/qq_37862148/article/details/113999206

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ORC与Parquet压缩分析

ORC与Parquet压缩分析 date:2023年6月14日 文章目录 ORC与Parquet压缩分析压测环境数据schema 数据实验压缩结果文件使用建议附录编译hadoop-lzo编译前提编译程中出现的错误结果文件 file-compress.jar源码ReadWriterOrc类NativeParquet类FileUtil类 压测环境 OS&a…

管理类联考——逻辑——真题篇——第四章 完型填空

第四章 完型填空 第一节 真题 2020-完型填空- Section I Use of English Directions: Read the following text. Choose the best word (s) for each numbered blank and mark A, B, C or D on the ANSWER SHEET. (10 points) Being a good parent is, of cour…

如何成为一名专业云渗透测试工程师

前言 很多人不知道网络安全发展前景好吗?学习网络安全能做什么?现在行业有哪些热门岗位?今天为大家解答下。 从宏观层面来看,新基建成为中国经济热词,政府和企业业务上云全面提速,随着云计算技术的快速发…

联想创新开放日:计算引领+AI赋能,联想超十项绿色技术重磅亮相

6月14日,联想2023年创新开放日精彩继续,六大主题的展览、多场圆桌论坛等活动吸引了络绎不绝的观众。聚焦ESG领域,本次联想创新开放日专门设立ESG零碳领航站和相关主题的圆桌论坛。期间,ESG展区还专门展示了联想温水水冷技术、智慧…

MM32F3273G8P火龙果开发板MindSDK开发教程20 - letter shell 的移植

MM32F3273G8P火龙果开发板MindSDK开发教程20 - letter shell 的移植 1、Letter Shell 犹如linux下的命令行,或者更像是uboot下的命令行,可以输入命令,执行相对应的函数。 2、Letter Shell移植(GCC 环境) 解压后&am…

虹科干货 | BI软件如何实时连接本地Excel?—以HK-Domo商业智能工具为例

由于资源和人才的限制,很多中小微企业目前在数据收集和数据应用上还处于比较落后的阶段,没有合适的方法处理数据。最典型的情况就是通过Excel收集数据,然后频繁的手动生成报告。这样会导致数据质量差,流程重复,还可能增…

读财报丨长期主义指引下,蔚来“下半年月均交付2万+”能否实现?

新能源汽车的互联网属性正在加速消解,工业产品的特质开始贯穿行业始终。 首先是过去几年风头无两的造车新势力,与传统车企在产品层面的边界越来越模糊。与此同时,新能源汽车的利润水平也在大幅下降,趋近燃油车。 行业整体的风格…

计算机组成原理(第三版)唐塑飞 答案 第三章

3.1什么是总线?总线传输有何特点?为了减轻总线的负载,总线上的部件都应具备什么特点? 答: ① 总线是连接多个部件的信息传输线,是个部件共享的传输介质。 ② 总线传输特点:在某一时刻,只允许有一个部件向总线发送信息,而多个部件可以同时从总线上接受相…

20年不变的初心,亚马逊云科技为初创企业的独角兽梦想加速赋能!

廿年初心不改, 为初创企业打造增长飞轮 【全球云观察 | 热点关注】20年前,亚马逊现任CEO Andy Jassy观察到,在亚马逊内部新业务的孵化过程中工程师需要花大量的时间,投入在一些重复性高却不产生附加价值的基础设施建设…

【UE 从零开始制作坦克】1-控制坦克视角

UE版本:4.26 效果 步骤 1. 在虚幻商城中下载如下资产导入到工程中 导入成功后可以在工程中看到如下文件夹 2. 接下来开始制作一下控制坦克视角的逻辑 首先在项目设置中添加轴映射 新建一个蓝图,父类为“WheelVehicle(轮式载具)” 这里就命名为“TankZ…

科一容易忘、容易混的点(二)

注意落石 高速应急车道用途:主要用于发生事故或故障时停车,以及专为救险所用的车道,被誉为高速公路的“生命通道” 注意 注意 扣9份场景: 城市快速路上 违法停车; 注意 交通事故逃逸, 不一定吊销驾驶证&a…

Python的type内置类详解

目录导览 欢迎来到本文Type简介Type的常见用法用法1-获取对象的类型用法2-创建新的类 Type做为元类(metaclass)元类的作用如何自定义元类 欢迎来到本文 Type简介 在Python中,type是一个内建的类,它是用于表示对象的类型的类。ty…

(九)枚举器和迭代器(2)

一、Enumerator 接口 实现了 IEnumerator 接口的枚举器包含3个函数成员:Current、MoveNext 以及 Reset。 1)Current: 返回序列中当前位置项的属性。 只读属性。返回 Object 类型。可以返回对应的可枚举类型。 2)MoveNext&…

牛客网基础语法41~50题

牛客网基础语法41~50题😘😘😘 💫前言:今天是咱们第五期刷牛客网上的题目。 💫目标:熟练用数学知识来解决编程问题,会利用每种循环。 💫鸡汤:压抑了&#xff0…

8 个身份自动化模版,帮你提升企业身份治理效率

中大型企业的信息化建设已经成为了当前企业的主流趋势。随着日益增长的业务需求,中大型企业的信息系统逐渐发展成为一个拥有众多应用和数据库支撑的复杂体系。由于中大型企业员工众多,部门繁杂,且存在大量员工入、转、调、离等情况&#xff0…

springboot集成quartz

文章目录 前言一、Quartz是什么?难易程度 二、核心思想三、使用步骤1.引入依赖2.创建相应类 总结 前言 引用上一篇博客的说法 springboot整合xxl-job ,集群模式下,定时任务会造成很严重的事故,其次普通的任务也无法做到像xxl-job与Quartz 一样,及时启停,修改等;上一…

文心一言 VS 讯飞星火 VS chatgpt (41)-- 算法导论5.4 5题

五、在大小为n的集合中,一个k字符串构成一个k排列的概率是多少?这个问题和生日悖论有什么关系? 文心一言: 在大小为n的集合中,一个k字符串构成一个k排列的概率是1/k!,这是由于排列的总数是k!,而每个字符串被选中的…

十大开源 ChatGPT 替代品:弥合对话式 AI 的差距

聊天机器人彻底改变了企业与客户互动的方式。由 OpenAI 开发的最先进的 GPT-4 是该领域的主导者。但是,它不是开源的,这限制了开发人员复制结果或开发自己的类似于 GPT-4 的聊天机器人。 为了填补这一空白,开源社区已经开始提供 GPT-4 的替代…

Qt6.5.1+WebRTC学习笔记(十二)环境搭建流媒体服务器(ubuntu22.04+SRS)

前言 若只是实现一对一通信,仅使用webrtc就足够了。但有时间需要进行多个人的直播会议,当人比较多时,建议使用一个流媒体服务器,笔者使用的是SRS。 这个开源项目资料比较全,笔者仅在此记录下搭建过程 一、准备 1.操…

移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速

近日,由中国电信卫星公司牵头,移远通信联合紫光展锐、鹏鹄物宇等行业上下游合作伙伴,针对现有蜂窝通信在信号覆盖盲区,信息监测数据无法实时回传等痛点问题,以领先行业的速度开展了一系列的5G NTN(non-terr…