HDFS异构存储详解

news2025/1/15 6:26:03

异构存储

    • HDFS异构存储类型
    • 什么是异构存储
      • 异构存储类型
      • 如何让HDFS知道集群中的数据存储目录是那种类型存储介质
    • 块存储选择策略
      • 选择策略说明
      • 选择策略的命令
    • 案例:冷热温数据异构存储
      • 对应步骤
    • HDFS内存存储策略支持-- LAZY PERSIST
      • 介绍
      • 执行
      • 使用

HDFS异构存储类型

  • 冷,热,温,冻数据
    • 通常,公司或者组织总是有相当多的历史数据占用昂贵的粗处空间。典型的数据使用模式是新传入的数据被应用程序大量使用,从而该数据被标记为“热”数据。随着时间的推移,存储的数据每周被访问几次,而不是一天几次,这是认为其是“暖”数据。在接下来的几周和几个月中,数据使用率下降的更多,成为“冷”数据,。如果很少使用数据,例如每年查询一次或两次,这是甚至可以根据其年龄创建第四个数据风雷,并将这组很少被铲讯的旧数据被称为“冻结数据”
    • Hadoop允许将不是热数据或者活跃数据的数据分配到比较便宜的存储上,用于归档或冷存储。可以设置存储策略,将较旧的数据从昂贵的高性能存储上转移到性价比较低(较便宜)的存储设备上。
    • Hadoop2.5及以上版本都支持存储策略,在该策略下,不仅可以在默认的传统磁盘上存储hdfs数据,还可以在SSD(固态硬盘)上存储数据。

什么是异构存储

异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。
例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。
在这里插入图片描述

异构存储类型

RAM_DISK(内存)
SSD(固态硬盘)
DISK(机械硬盘)默认使用
ARCHIVE(高密度存储介质,存储档案历史数据)
在这里插入图片描述

如何让HDFS知道集群中的数据存储目录是那种类型存储介质

  • 配置属性时主动声明。 HDFS并没有自动检测的能力
  • 配置参数dfs.datanode.data.dir = [SSD] file:///grid/dn/ssd0
  • 如果目录前没有带上[SSD][DISK][ARCHIVE][RAM_DISK]这4种类型中的任何一种,则默认时DISK类型。

块存储选择策略

  • 块存储指的是对HDFS文件的数据块副本存储
  • 对于数据的存储介质,HDFS的BlockStoragePolicySuite类内部定义了6种策略
    HOT(默认策略)
    COLD
    WARM
    ALL_SSD
    ONE_SSE
    LAZY_PERSIST
  • 前三种根据冷热数据区分,后三种根据磁盘性质区分
    在这里插入图片描述

选择策略说明

  • HOT:用于存储和计算。流行且仍用于处理的数据保留在此策略中。所有副本都存储在DISK中。
  • COLD:仅适用于计算量中有限的存储。不再使用的数据或需要归档的数据从热存储移动到冷存储。所有副本都存储在ARCHIVE中。
  • WRAM:部分热和部分冷。热时,其某些副本存储在DISK中。其余副本存储在ARCHIVE中。
  • ALL_SSD:将所有副本存储在SSD中
  • one_SSD:用于将副本之一存储在SSD中。其余副本存储在DISK中。
  • Lazy_Persist:用于在内存中写入具有单个副本的块。首先将副本写入RAM_DISK,然后将其延迟保存到DISK中
    在这里插入图片描述

选择策略的命令

  • 列出所有存储策略
    hdfs storagepolicies -listPolicies

在这里插入图片描述

  • 设置存储策略
    hdfs storagepolicies -setStoragePolicy -path -policy

在这里插入图片描述

  • 取消存储策略
    hdfs storagepolicies -unsetStoragePolicy -Path
    在执行unset命令之后,将应用当前目录最近的祖先存储策略,如果没有任何祖先的策略,则将应用默认的存储策略
  • 获取存储策略
    hdfs storagepolicies -getStoragePolicy -path

案例:冷热温数据异构存储

为了更加充分的利用存储资源,我们可以将数据分为冷,热,温三个阶段来存储。具体规划如下:
在这里插入图片描述

对应步骤

  • step1:配置DataNode存储目录,指定存储介质类型(hdfs-site.xml)
    在这里插入图片描述
  • step2:重启HDFS集群,验证配置

在这里插入图片描述

  • step3:创建测试目录
hdfs dfs -mkdir -p /data/hdfs-test/data_phase/hot
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/warm
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/cold

在这里插入图片描述

  • step4:分别设置三个目录的存储策略
hdfs storagepolicies -setStoragePolicy - path /data/hdfs-test/data_phase/hot -policy HOT
hdfs storagepolicies -setStoragePolicy -path /data/hdfs-test/data_phase/warn -policy WARN
hdfs storagepolicies -setStoragePolicy -path /data/hdfs -test/data_phase/cold -policy COLD
  • step5:查看三个目录的存储策略
hdfs storagepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/hot
hdfs sotragepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/warm
hdfs soragepolicies -getStoragePolidy -path /data/hdfs-test/data-phase/cold
  • step6:上传文件测试异构存储
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/hot
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/warm
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/ cold
  • step7:查看不同存储策略文件的block位置
    hdfs fsck /data/hdfs-test/data_phase/hot/profile -files -blocks -locations

在这里插入图片描述

HDFS内存存储策略支持-- LAZY PERSIST

介绍

  • HDFS支持把数据写入由DataNode管理的对外内存
  • DataNode异步地将内存中数据刷新到磁盘,从而减少代价较高的磁盘IO操作,这种写入被称为Lazy Persist写入
  • 该特性从Apache Hadoop 2.6.0开始支持
    在这里插入图片描述

执行

  • 对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略
  • 客户端进程向NameNode发起创建/写入文件
  • 客户端请求到具体的DataNode后DataNode会把这些数据块回写入RAM内存中,同时启动异步线程服务将内存数据持久化写到磁盘上。
  • 内部的异步持久化存储是指数据不是马上落盘,而是懒惰的,延时的尽心处理

使用

  • step1:虚拟内存盘配置
mount -t tmpfs -o size=1g tmpfs /mnt/dn-tmpfs/

将tmpfs挂载到目录/mnt/dn-tmpfs/,并且限制内存使用大小为1GB

  • step2:内存存储介质设置
    将机器中已经完成好的虚拟内存盘配置到dfs.datanode.data.dir中,其次还要带上RAM_DISK标签
    在这里插入图片描述

  • step3:参数设置优化
    dfs.storage.policy.enabled
    是否开启异构存储,默认true开启
    dfs.datanode.max. locked.memory
    用于在数据节点上的内存中缓存副本的内存量(以字节为单位)。默认情况下,此参数设置为0,这将禁用内存中缓存。内存值过小会导致内存中的总的可存储的数据块变小,但如果超过DataNode能承受的最大内存大小的话,部分内存块会被直接移出。

  • step4:在目录上设置存储策略

hdfs storagepolicies -setStoragePolicy -path <path> -policy LAZY_PERSIST

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/794477.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【代码随想录day20】二叉搜索树的最小绝对差

题目 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&#xff0c;其数值等于两值之差的绝对值。 思路 最简单的一个思路是使用中序遍历&#xff0c;从二叉排序树中得到有序序列&#xff0c;存储到self.elem中&…

静态 链接

1、空间与地址的分配 现在的链接器空间分配的策略基本上都采用 “相似段合并” 的方式。通过将所有相同类型的 section 合并到一起&#xff0c;例如将所有输入目标文件的 .text 合并&#xff08;按顺序合并&#xff09;到输出文件的 .text 节中&#xff1b;然后&#xff0c;链接…

EasyExcel实现多sheet excel导出

EasyExcel简介 Java领域解析、生成Excel比较有名的框架有Apache poi、jxl等。但他们都存在一个严重的问题就是非常的耗内存。如果你的系统并发量不大的话可能还行&#xff0c;但是一旦并发上来后一定会OOM或 者JVM频繁的full gc。 EasyExcel是阿里巴巴开源的一个excel处理框架…

eNSP的安装【最全最详细教程】

目录 一、下载软件和插件二、VirtualBox安装步骤三、WinPcap安装步骤四、Wireshark安装步骤五、eNSP安装步骤六、eNSP测试安装eNSP可能失败的原因 一、下载软件和插件 在安装eNSP之前分别要下载三个插件&#xff1a;VirtualBox、WinPcap、Wireshark 下载软件链接&#xff1a;…

集成学习概述

集成学习 1. 集成学习概念 集成学习是解决有监督机器学习任务的一类方法,它的思路是基于多个学习算法的集成来提升预测结果,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型成为弱学习器(基学习器)。训练时,使用训练集依次训练出这些弱学习器,对未知的样本…

PLC编程:关键在于模拟操作流程和实现控制

PLC编程的核心是通过程序描述流程&#xff0c;完成控制过程。因此&#xff0c;掌握PLC编程语言和基本功能实现是必要的。 PLC语言主要分为梯形图、语句和功能图。梯形图适合基本逻辑描述&#xff0c;语句表用于数据处理&#xff0c;相对较难理解。步进式功能图的状态函数描述很…

[NLP]LLaMA与LLamMA2解读

摘要 Meta最近提出了LLaMA(开放和高效的基础语言模型)模型参数包括从7B到65B等多个版本。最值得注意的是&#xff0c;LLaMA-13B的性能优于GPT-3&#xff0c;而体积却小了10倍以上&#xff0c;LLaMA-65B与Chinchilla-70B和PaLM-540B具有竞争性。 一、引言 一般而言&#xff0…

IT 资产管理功能

ServiceDesk Plus 支持ITIL流程&#xff0c;帮助管理员制定明智的业务决策&#xff0c;在整个生命周期中跟踪所有资产的硬件和软件。 ServiceDesk Plus 中的资产管理模块包含多种功能&#xff0c;例如&#xff1a;多种扫描资产的方法&#xff1b;基于代理和无代理的方法&#…

新老联手,火花四溅?大众汽车与小鹏汽车达成长期合作框架协议

7 月 26 日资讯&#xff0c;大众汽车宣布与小鹏汽车达成长期合作框架协议&#xff0c;并在官网中正式宣布&#xff0c;大众是老牌油车领军代表&#xff0c;小鹏则是新势力中的佼佼者&#xff0c;新老强强联手&#xff0c;又会碰撞出怎样的火花呢&#xff1f; 现阶段大众计划与…

凭借一份深入解析 Java 虚拟机 HotSpot 手册,让我卷成美团架构师

前言 Java 语言已经走过了 20 多个年头&#xff0c;在此期间虽然新语言层出不穷&#xff0c;但是都没有撼动 Java 的位置。可能是历史选择了 Java&#xff0c;也可能是 Java 改变了历史&#xff0c;总之&#xff0c;Java 无疑是一门成功的编程语言。这门语言之所以能如此成功&…

MODBUS RTU转 EtherNet/IP 网关连接森兰变频器与欧姆龙系统通讯配置案例

捷米特JM-EIP-RTU&#xff08;Modbus转Ethernet/Ip&#xff09;网关&#xff0c;用于将多个 MODBUS 从站设备接入 ETHERNET/IP 主站网络&#xff0c;实现 MODBUS 转 ETHERNET/IP 功能。配上 捷米特JM-EIP-RTU网关专用的 EDS 文件,实现 ETHERNET/IP 主 站对 MODBUS 从站设备的控…

Java多线程锁

多线程锁 本专栏学习内容又是来自尚硅谷周阳老师的视频 有兴趣的小伙伴可以点击视频地址观看 Synchronized Synchronized是Java中锁的一种实现方法&#xff0c;我们需要了解他锁在什么地方&#xff0c;锁的类型有哪些 阿里巴巴开发手册规定&#xff1a; 高并发时&#xff0c;同…

大语言模型LLM技术赋能软件项目管理和质量保障︱微软中国高级研发经理步绍鹏

微软中国高级研发经理步绍鹏先生受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾&#xff0c;演讲议题&#xff1a;大语言模型LLM技术赋能软件项目管理和质量保障。大会将于8月12-13日在北京举办&#xff0c;敬请关注&#xff01; 议题内容简要&#xff1a; 本次分享将…

809 协议相关

809 协议 目录概述需求&#xff1a; 设计思路实现思路分析1.概念2.业务流程3.详细过程4.相关过程 参考资料 Survive by day and develop by night. talk for import biz , show your perfect code,full busy&#xff0c;skip hardness,make a better result,wait for change,ch…

Windows上安装Docker Desktop

运行环境 Windows 10Docker Desktop 4.21.1 安装步骤 步骤1&#xff1a; 勾掉"Use WSL 2 instead of Hyper-V(recommended)"&#xff08;原因见小插曲2章节&#xff09; 步骤2&#xff1a; 安装完成 步骤3&#xff1a; 运行Docker Desktop 步骤4&#xff1a; …

面试了无数家公司整理的软件测试面试题【含答案】

1、自动化代码中,用到了哪些设计模式? 单例设计模式 工厂模式PO设计模式数据驱动模式面向接口编程设计模式 2、什么是断言( Assert) ? 断言Assert用于在代码中验证实际结果是不是符合预期结果&#xff0c;如果测试用例执行失败会抛出异常并提供断言日志 3、什么是web自动化测…

STM32 串口实验(学习一)

本章将实现如下功能&#xff1a;STM32通过串口和上位机对话&#xff0c;STM32在收到上位机发过来的字符串后&#xff0c;原原本本返回给上位机。 STM32 串口简介 串口作为MCU的重要外部接口&#xff0c;同时也是软件开发重要的调试手段&#xff0c;其重要性不言而喻。现在基本…

centos7设置网桥网卡

安装bridge-utils yum install bridge-utils修改ens33 网卡 TYPEEthernet BOOTPROTOnone DEFROUTEyes IPV4_FAILURE_FATALno IPV6INITyes IPV6_AUTOCONFyes IPV6_DEFROUTEyes IPV6_FAILURE_FATALno NAMEens33 UUID04b97484-25c8-45c7-8c8c-e335e8080e10 DEVICEens33 ONBOOTye…

TEE GP(Global Platform)认证方案

TEE之GP(Global Platform)认证汇总 一、GP认证方案 二、GP认证方案分类 参考&#xff1a; GlobalPlatform Certification - GlobalPlatform

【读书笔记】《生命册》- 李佩甫 - 2012年出版

不停的阅读&#xff0c;然后形成自己的知识体系。 2023.07. 读 《生命册》是河南作家李佩甫于2012年发表的长篇小说&#xff0c;作家出版社发行&#xff0c;全书共12章约38万字&#xff0c;与之前发表的《羊的门》、《城的灯》组成“平原三部曲”&#xff0c;2015年获得第九届…