MinIO分布式存储服务

news2024/10/7 5:22:31

一、前言

最近项目中使用到了MinIO的分布式存储系统,记录一下Minio服务的相关概念以及使用方法。

二、基本概念

MinIO 对象存储系统是为海量数据存储、人工智能、大数据分析而设计,基于Apache License v2.0 开源协议的对象存储系统,它完全兼容 Amazon S3 接口,单个对象的最大可达 5TB,适合存储海量图片、视频、日志文件、备份数据和容器/虚拟机镜像等。作为一个开源服务,MinIO 在设计上汲取了Glusterfs的相关经验不教训,系统复杂度上作了大量简化,目前大小只有40+M,部署只需要一个命令即可完成!另外,minio舍弃了传统分布式存储扩容所需要的迁移流程,采用联盟模式添加集群的方式,极大简化了扩容流程;除此之外,minio还具有纠删编码、比特位保护、单写多读(worm)、下面来依次简要解析一下Mioio的特点及具体实现。

  • Object:存储到Minio的基本对象,如文件字节流,Anything。
  • Bucket:用来存储Object的逻辑空间。每个Bucket之间的数据是相互隔离的。对于客户端而言,就相当于一个存放文件的顶层文件夹。
  • Drive:即存储数据的磁盘,在MinlO启动时,以参数的方式传入。Minio中所有的对象数据都会存储在Drive里。
  • Set:即-组Drive的集合,分布式部署根据集群规模自动划分一个或多个Set,每个Set中的Drive分布在不同位置。一个对象存
    储在一个Set上。(For example:{1…64} is divided into 4sets each of size16)

三、特点及实现

1. 底层存储方式
元数据和数据一起存放在磁盘上。元数据以明文形式存放在元数据文件里(xl.json)。假定对象名字为key_name, 它所在桶的名字是bucket_name, disk路径就是/disk,那么存储路径就是:/disk/bucket_name/key_name,windows下C盘存放桶名为test,对象名为minio.exe,其中有两个文件part.1xl.json
其中part.1是实际存储数据(单机模式为原生数据,分布式为纠删码分块),xl.json是如下所示的json字符串:

{
    //版本号
    "version":"1.0.1",
    //对象的格式,MinIO 内部存储数据主要有两种数据格式:xl 和 fs。单机模式,也就是
      底层数据没有做纠删分片存储格式是fs,主要做测试用,实际使用一般都是xl模式
    "format":"xl",
    //对象状态,大小和修改时间
    "stat":{
        "size":47261688,
        "modTime":"2020-02-10T07:25:39.17335Z"
    },
    //纠删码相关信息
    "erasure":{
   // algorithm 指明了此对象采用的是 Klaus Post 实现纠删码, 生成矩阵是范德蒙矩阵。
        "algorithm":"klauspost/reedsolomon/vandermonde",
   // data,parity指明了纠删组中数据盘、校验盘的个数。
        "data":3,
        "parity":3,
   //  blockSize 是对象被分块的大小默认是5M
        "blockSize":10485760,
   // index指的是当前磁盘在纠删组中的序号
        "index":2,
  // distribution:每个纠删组的数据盘、校验盘的个数是固定的,但是不同的对象的分片 
    写入这个纠删组的顺序是不同的。这里记录了分布顺序。 
        "distribution":[1,3,2,4,5,6],
  // checksum:下面的字段个数跟此对象的分片数量有关。在旧版本的 MinIO 对象存储 系统,
    每一个分片经过 hash 函数计算出的 checksum 会记录在元数据文件的这个位置。
    最新版的 MinIO 会把 checksum 直接计入分片文件(即 part.1 等文件)的前 32 个字节。
    此字段下 algorithm 的值是”highwayhash256S”表明 checksum 值是写入分片文件的。 
        "checksum":[
            {
                "name":"part.1",
                "algorithm":"highwayhash256S"
            }
        ]
    },
    "minio":{
        "release":"RELEASE.2020-01-25T02-50-51Z"
    },
    "meta":{
        "content-type":"application/x-msdownload",
        "etag":"b2591a1de87921e4d49c724fd3fbd5b2-1"
    },
//记录各个分片的信息
    "parts":[
        {
            "number":1,
            "name":"part.1",
            "etag":"",
            "size":47261688,
            "actualSize":47261688
        }
    ]
}

2.纠错码
在同一集群内,MinIO 自己会自劢生成若干纠删组,用于分布存放桶数据。一个纠删组中的一定数量的磁盘发生的故障(故障磁盘的数量小于等于校验盘的数量),通过纠删码校验算法可以恢复出正确的数据。MinIO 集成了 Reed-Solomon 纠删码库,MinIO 存储对象数据时,首先把它分成若干等长的片段(对于大对象,默认按 5MB 切片),然后每一个片段会纠删算法分成若干分片,包括数据分片不校验分片,每个分片放置在一个纠删组的某个节点上。对象的每一个数据分片、校验分片都被“防比特位衰减”算法所保护。
在这里插入图片描述

四、总结

1.传统的扩展方式的劣势
通过增加节点来扩展单集群,一般需要进行数据均衡,否则群集内各存储节点会因负载不均而出现新的瓶颈。除了数据均衡操作的时机这个问题以外,在均衡过程中一般需要仍存储使用率高的节点吐使用率低的节点迁移数据。当集群扩容后,大量已经写入的文件落点会出现改变,文件需要迁移到真实的落点。当存储系统容量比较大时,则会发生大量的文件/对象进行迁移,迁移过程可能由于占用大量资源而导致上层应用性能下降。而且当文件/对象迁移过程中,机器故障可能会导致一些意想不到的情冴,尤其是有大量业务的时候。当然针对此类问题,Gluterfs之类的文件系统有一些比较复杂的处理办法。
2.不支持扩展优势

  • 单集群不可扩展,也就是说系统不需要处理扩展和数据均衡,不仅有效降低系统复杂性,而且可以使得系统部署规划具有很好的可预测性。
  • 不支持对单个集群进行扩展,MinIO 对象存储系统的这种设计,使得系统的很多模块更加简单(比如仍一个对象转换到它所在的纠删组,叧用简单的哈希即可。降低了整个系统出错的概率,使得MinIO对象存储系统更加可靠、稳定。
  • 资料参考:《MinIO技术白皮书》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/483074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【五一创作】【软考:软件设计师】 5 计算机组成与体系结构(三)认证技术 | 计算机可靠性

欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享,与更多的人进行学习交流 本文收录于软考中级:软件设计师系列专栏,本专栏服务于软考中级的软件设计师考试,包括不限于知识点讲解与真题讲解两大部分,并且提供电子教材与电子版真题,关注私聊即可 …

C++入门(保姆级教程)

目录 一、C关键字 二、命名空间 2.1 C语言中的命名冲突 2.2 C中命名空间 2.2.1 命名空间的定义 2.2.2 命名空间的特性 2.2.3 命名空间的使用 2.2.4 补充知识 2.2.4 C库的命名空间 三、C中的输入&输出 四、缺省参数 4.1 定义 4.2 缺省参数的分类 4.2.1 全缺…

Nacos—简述、注册中心、配置中心

目录 什么是Nacos? 什么是注册中心? 什么是配置中心? 什么是服务管理平台? Nacos的关键特性包括(有点)有哪些? 作用(为什么要使用)? 注册中心演变过程 …

业绩稳健增长,公牛集团新老业务如何实现齐头并进?

“插座一哥”公牛集团,正在经历其迈向更高质量发展的自我优化。 4月27日晚,公牛集团(SH:603195)发布了《2022年年度报告》及《2023年第一季度报告》。去年,宏观市场动荡,但公牛集团不仅保持了业绩的稳健增…

ChatGPT本地化部署教程-批量调用ChatGpt共享API key

ChatGPT本地化部署教程 chatGPT是一个基于自然语言处理的深度学习模型,能够生成自然流畅的文本,并且可以应用到多个场景中。与云服务相比,本地部署还可以提高模型的响应速度,进一步增加模型的便捷性和可用性。以下是基于 Docker …

uboot start.S中关于第一阶段的代码分析

u-boot.lds中找到start.S入口 (1)C语言规定整个项目的入口就是main函数。 (2)在uboot中因为有汇编阶段参与,因此不能直接找main.c。整个程序的入口取决于链接脚本中ENTRY声明的地方。ENTRY(_start)因此定义_start符号 的文件就是整个程序的起始文件,即st…

SpringBoot定义优雅全局统一Restful API 响应框架

假如现在有一个Java项目,老板让你做项目组长,定义项目基础框架,系统技术架构选型, 你应该如何设计一个规范的统一的Restful API 响应框架呢 思考 目前项目开发,都是基于前后端分离模式开发的,基于后端模板引擎那一套,可能已经不适用一些项目开发流程,和当下开发模式了,尤其在…

(五)Spring源码阅读:invokeBeanFactoryPostProcessors方法

一、概述 invokeBeanFactoryPostProcessors的执行顺序大致如下,先执行子类BeanDefinitionRegistryPostProcessor再执行父类BeanFactoryPostProcessor。而对于同一个类的执行顺序是先执行外部的集合再到子集,之后再到父集。更小维度执行的顺序按照order注…

WebSocket的那些事(1-概念篇)

目录 一、什么是Websocket二、WebSocket部分header介绍三、HTTP VS WebSocket四、什么时候使用WebSockets五、关于SockJS和STOMP 一、什么是Websocket 根据 RFC 6455 标准,Websocket协议提供了一种标准化的方式在客户端和服务端之间通过TCP连接建立全双工、双向通信…

【DarkLabel】使用教程(标注MOT数据集)

DarkLabel 使用教程 功能部分 Open video 第 2 处的内容为数据集类型。例如:VOC、COCO、MOT、YOLO等。 第 3 处的内容为标签名称。 可在 darklabel.yml 中修改 classes_set。例如:classes_set: "mot_classes" 第 4 处的内容为两种跟踪方法…

Maven项目的配置

Maven是什么?它的作用是什么? Maven是一种开源的构建工具,它可以自动化构建、测试、部署和管理Java项目。它提供了一个中心化的构建过程,包括依赖管理、项目结构管理、插件管理等,使得开发人员更方便地维护和协作应用…

【Python】操作MySQL

一、Python 操作 Mysql的方式 Python 操作 Mysql 主要包含下面 3 种方式: Python-MySql Python-MySql 由 C 语法打造,接口精炼,性能最棒;但是由于环境依赖多,安装复杂,已停止更新,仅支持 Python…

记一次我的漏洞挖掘实战——某公司的SQL注入漏洞

目录 一、前言 二、挖掘过程 1.谷歌语法随机搜索 2.进入网站 3.注入点检测 3.SQLMAP爆破 (1)爆库 (2)爆表 (3)爆字段 三、总结 一、前言 我是在漏洞盒子上提交的漏洞,上面有一个项目叫…

【远程工具】- Tabby 下载、安装、使用、配置【ssh/Serial】-免安装、解压即用

目录 一、Tabby 概述 二、Tabby 下载、安装 三、Tabby 的使用  👉3.1 使用SSH协议连接Linux开发主机  👉3.2 使用Serial(串口)协议连接开发板 一、Tabby 概述 在远程终端工具中,secureCrt 和 XShell 是两款比较有名的远程工具,但…

矩阵求逆方法

1.待定系数法 矩阵A 1, 2 -1,-3 假设所求的逆矩阵为 a,b c,d 则 从而可以得出方程组 a 2c 1 b 2d 0 -a - 3c 0 -b - 3d 1 解得 a3; b2; c -1; d -1 2.伴随矩阵求逆矩阵 伴随矩阵是矩阵元素所对应的代数余子式,所构成的矩阵,转置后得到的新矩阵…

图的存储--邻接矩阵/边集数组/邻接表/链式邻接表/链式前向星

邻接矩阵 使用二维数组w[u][v]存储点u到点v的边的权值。一般应用在点数不多的稠密图 时间复杂度&#xff1a;O(n2) 空间复杂度&#xff1a;O(n2) int w[N][N]; // edge int vis[N]; // visitedvoid dfs(int u){vis[u] true;for(int v 1; v < n; v)if(w[u][v]){prin…

Java 基础进阶篇(六)—— 面向对象三大特征之三:多态

文章目录 一、多态的概述二、多态中成员访问特点 ★三、多态的优势与劣势四、多态下的类型转换4.2 自动类型转换&#xff08;从子到父&#xff09;4.2 强制类型转换&#xff08;从父到子&#xff09;4.3 instanceof 关键字 一、多态的概述 多态&#xff1a;是指执行同一个行为…

自动驾驶——最优控制算法里卡提方程推导【连续系统】

1. Why use the Riccati equation&#xff1f; Q、R就是需要设计的半正定矩阵和正定矩阵。考虑根据实车的情况去标定此参数&#xff0c;从理论和工程层面去理解&#xff0c;如果增大Q、减小R&#xff0c;则此时控制系统响应速度比较快速&#xff08;比较剧烈&#xff09;&…

[SpringBoot]什么是服务器前后端的一个流程图bmi练习案例

前点: 服务器&#xff1a; 服务器就是一台高性能的电脑, 在电脑上安装了提供XXX服务的软件, 这台电脑就可以称为XXX服务器 - 举例: - 数据库服务器: 在电脑上安装了提供数据增删改查服务的软件(DBMS) - 邮件服务器: 在电脑上安装了提供邮件收发服务的软件 - FTP服务器: …

普通的2D Average pooling是怎么进行backward的呢?

二维平均池层计算损失相对于其输入张量的梯度&#xff0c;方法是将损失相对于输出张量的梯度均分在输入子区域&#xff0c;这些子区域在前向传播中被用来计算平均值。 由于平均集合计算的是每个输入子区域的平均值&#xff0c;所以子区域中的每个元素对平均值的贡献是相同的。…