淘宝分布式文件存储系统(一) -TFS

news2025/3/1 1:34:07

淘宝分布式文件存储系统( 一 ) ->>TFS

目录 :

  • 什么是文件系统
  • 文件存储的一些概念
  • 文件的结构
  • 系统读取文件的方式
  • 为什么采用大文件结构的原因
文件系统 :

将我们的数据整合成目录或者文件,提供对文件的存取接口,基于文件的权限进行访问,简单的说,文件系统就是对文件进行管理的方式 .

文件系统

文件存储的一些概念:
  • 扇区 . 存储数据的磁盘的最小单位 , 通常一个扇区的大小是 512b(相当于0.5kb),-------b->字节
  • 块: 文件存储的基本单位, 一般是连续的个扇区组成一块 , 512b*8=4096b–> 4kb
文件的基本结构:

文件==目录项 + 块数据项 + Inode 元信息

目录区 : 存放目录下文件的信息 .

块数据区 : 存储文件数据 .

Inode元信息区 : 存放文件的 inode 包含的信息 ,我们可以理解为文件的属性 .

**Inode 结点 : ** ----->可以用,命令 ls -il 来查看一下

  • 索引结点 : 用来存取文件的元信息, 包括文件大小,创建者 ,创建日期等等 . ,每一个文件都有一个inode号码,相当于我们的身份证,操作系统根据inode编码来识别文件 .
    inode示意图

  • 结点大小-------> 一般是128和256个字节 , inode结点的数量在最开始格式化磁盘的时候就已经标记 , 相当于一个组成一个inode table , 一般是1kb 或者 2kb 设置一个结点 . 例如 1GB的硬盘 , 按128 和 1kb来算 , inode结点大概会占用128MB大小的空间, 占整个磁盘的12.8% . 所有如果你发现你的磁盘还剩10个G的内存,但是死活存不进数据 , 是因为被我们的inode结点占据了 . **

系统读取文件的方式 :

文件读取三部曲

淘宝的分布式文件储存系统为什么采用大文件结构的原因 :

(1) .小文件存储海量的数据,会导致我们硬件的存储器的磁头需要频繁的更换磁道,就会提高我们的存取时的时间(延时).
(2) .如果进行频繁的增加和删除,会导致我们的磁盘产生很多碎片,降低磁盘的存取效率,同时也降低了IO设备的读写效率.
加和删除,会导致我们的磁盘产生很多碎片,降低磁盘的存取效率,同时也降低了IO设备的读写效率.
(3) .海量的小文件,会导致 inode 编号占用太多磁盘空间,降低缓存的效果.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1026859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

List<HashMap<String,String>>实现自定义字符串排序(key排序、Value排序)

系列文章目录 SpringBootVue3实现登录验证码功能 Java实现发送邮件(定时自动发送邮件) 换个角度使用Redis去解决跨域存取Session问题 Redis缓存穿透、击穿、雪崩问题及解决方法 Spring Cache的使用–快速上手篇 更多该系列文章请查看我的主页哦 文章目录…

Vue路由与nodejs环境搭建

目录 一、Vue路由 1.1 SPA简介 1.2 路由简介 1.3 路由实现思路 1.3.1 引入vue-router的js依赖 1.3.2 定义组件 1.3.3 定义路由 1.3.4 组装路由器 1.3.5 将路由挂载根实例 1.3.6 定义触发路由的按钮 1.3.7 定义锚点 1.4 示例 二、nodejs环境搭建 2.1 nodejs简介 2…

MATLAB配置编译器(包括vs和mingw)

版本:matlab2022b,VS2022,mingw:8.1.0 之前安装好了matlab和vs后,在matlab的命令行输入 mex -setup时,自动找到并且配置好了vs编译器,可能是应为二者安装在了同一个根目录下,比如都在…

支付宝开发问题:很抱歉,系统监测到你的支付宝账号有异常,入驻失败,如需帮助请拨打热线

想开发个支付宝小程序,结果困难重重啊 妹的,这一个星期一直都被这个问题困扰,找了一个个体户资质,一直失败,专门去注册了一个公司,还是提交失败。 给支付宝客服打电话,跟没打一样,…

Kafka核心原理

一、kafka安装步骤 (1)配置profile文件 vim /etc/profile// KAFKA export KAFKA_HOME/opt/soft/kafka212 export PATH$KAFKA_HOME/bin:$PATHsource /etc/profile (2)创建kfkdata目录 cd /opt/soft/kafka212/ mkdir kfkdata …

OpenCV实现图像去水印功能(inpaint)

水印定位 需要根据图像特征获取水印的位置。 如图所示,图像左下角、右下角有水印。第一步,我们首先得定位水印所在位置。 Mat gray;cvtColor(src, gray, COLOR_BGR2GRAY);//图像二值化,筛选出白色区域部分Mat thresh;threshold(gray, thres…

可转债实战与案例分析——成功的和失败的可转债投资案例、教训与经验分享

实战与案例分析——投资案例研究 股票量化程序化自动交易接口 一、成功的可转债投资案例 成功的可转债投资案例提供了有价值的经验教训,以下是一个典型的成功案例: 案例:投资者B的成功可转债投资 投资者B是一位懂得风险管理的投资者&#…

LLM各层参数详细分析(以LLaMA为例)

网上大多分析LLM参数的文章都比较粗粒度,对于LLM的精确部署不太友好,在这里记录一下分析LLM参数的过程。 首先看QKV。先上transformer原文 也就是说,当h(heads) 1时,在默认情况下, W i Q W_i…

RabbitMQ - 死信、TTL原理、延迟队列安装和配置

目录 一、死信交换机 1.1、什么是死信交换机 1.2、TTL 1.2.1、什么是 TTL 1.2.2、通过 TTL 模拟触发死信 二、延迟队列 2.1、什么是延迟队列 2.2、配置延迟队列插件 2.2.1、延迟队列配置 a)下载镜像 b)运行容器 c)刚刚设定的Rabb…

jmeter下载安装教程

一、下载安装jdk(jmeter需要) 1、首页下载jdk,地址:Java Downloads | Oracle 2、下载se,注意需要oracle账号,注册即可 这里的8u384代表JDK 8版本,384代表子版本,u是update(更新)的…

flink集群与资源@k8s源码分析-运行时

1 运行时 运行时提供了Flink作业运行过程依赖的基础执行环境,包含Dispatcher、ResourceManager、JobManager和TaskManager等核心组件,本节分析资源相关运行时组件构建和启动。 flink没有使用spring,缺少ioc的构建过程相当复杂,所有依赖手动关联和置入,为了共享组件,fli…

jenkins容器内配置python项目运行环境(Python3.7.3)

目录 1.查看启动的容器2.进入jenkins容器内部3.使用wget:提示没有wget命令4.查看jenkins容器系统版本5.换成国内源(阿里)5.更新apt-get6.安装wget7.创建python存放目录8.下载python9.解压10.安装依赖11.运行脚本configure12.make编译make ins…

汽车三高试验离不开的远程试验管理平台-TFM

随着信息技术的高速发展,企业对远程试验实时监控与数据管理的需求日益增强。而利用远程试验信息协同技术,可突破部门与地域的限制,并把试验现场的车辆状态信息、试验数据和分析结果实时传输给数据分析部门和设计部门等,从而缩短时…

什么是HTTP/2?它与HTTP/1.1相比有什么改进?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ HTTP/2 简介⭐ 主要的改进和特点1. 多路复用(Multiplexing)2. 头部压缩(Header Compression)3. 服务器推送(Server Push)4. 二进制传输(Binary Protocol&…

12基于MATLAB的短时傅里叶变换( STFT),连续小波变换( CWT),程序已调通,可以直接运行。

基于MATLAB的短时傅里叶变换( STFT),连续小波变换( CWT),程序已调通,可以直接运行

jdk exe安装包如何自制zip解压版

jdk8 oracle官方下载页面 https://www.oracle.com/java/technologies/downloads/#java8-windows 可以看到,只有exe安装包 下载最新的exe安装包 解压 用7Zip解压 里面有好几个JAVA_CAB*文件夹,我们只需要关注两个:9和10,JAVA_CA…

【操作系统笔记】内存分配

内存对齐 问题:为什么需要内存对齐呢? 主要原因是为了兼容,为了让程序可以运行在不同的处理器中,有很多处理器在访问内存的时候,只能从特定的内存地址读取数据。换个说法就是处理器每次只能从内存取出特定个数字节的数…

卡尔曼滤波(Kalman Filter)C#测试

一、操作过程 刚学了一下卡尔曼滤波,具体原理还没细看,大致过程如下 分为两步,第一步Predict,以下两个公式 第二步Correct,以下三个公式 公式看起来很复杂,其中是我们要处理的数据, 是滤…

HTTP 协商缓存 ETag、If-None-Match

(1)浏览器第一次跟服务器请求一个资源,服务器在返回这个资源的同时,在respone header加上ETag。 ETag是服务器根据当前请求的资源生成的一个唯一标识。 这个唯一标识是一个字符串,只要资源有变化这个串就不同&#xff…

CSS的学习

1.认识CSS CSS 叫做"层叠样式表" “层叠样式表” 样式 --> 大小,位置,间距,颜色,字体,表框背景… 统称为"样式",描述了一个网页长什么样子~ 层叠 --> 针对一个html的元素/标签,可以同时应用多组CSS样式~~ 多组样式会叠加在一起~~ CSS描述的是页…