【大数据之路】数据管理篇 《三》存储和成本管理 【搬运小结】

news2025/1/18 4:46:55

文章目录

  • 【大数据之路】数据管理篇 《三》存储和成本管理
    • 1.1数据压缩
    • 1.2存储治理项优化
    • 1.3生命周期管理
      • 1.3.1 生命周期管理策略
      • 1.3.2 生命周期管理策略
    • 1.4数据成本计量

【大数据之路】数据管理篇 《三》存储和成本管理

1.1数据压缩

在分布式文件系统中,为了提高数据的可用性与性能 ,通常会将数
据存储 份,这就 着存储 lTB 的逻辑数据, 实际上会占用 TB物理空间。

1.2存储治理项优化

在元数据的基础上,诊断、加工成多个存储治理优化项。
目前已有的存储治理优化项有未管理表空表最近 62 天未访问表数据无更新无任务表数据无更新有任务表开发库数据大于 lOOGB 且无访问表长周期表等。通过对该优化项的数据诊断形成治理项,治理项通过流程的方式进行运转、管理,最终推动各个 TL 发人员进行操作,优化存储管理,并及时回收优化的存储效果。
在这里插入图片描述

1.3生命周期管理

1.3.1 生命周期管理策略

生命周期管理的根本
目的就是用最少的存储成本来满足最大的业务需求,使数据价值最大化。

1.周期性删除策略

所存储的数据都有定的有效期,从数据创建开始到过时,可以周期性删除 天前的数据。例如对于 MySQL 业务库同步到 MaxCompute 的全量数据,或者 ETL 过程产生的结果数据,其中某些历史数据可能已经没有价值,且占用存储成本,那么针对无效的历史数据就可以进行定期清理。

2.彻底删除策略
无用表数据或者 ETL 过程产生的临时数据,以及不需要保留的数据,可以进行及时删除,包括删除元数据。

3.永久保留策略
重要且不可恢复的底层数据和应用数据需要永久保留。比如底层交
易的增量数据,出于存储成本与数据价值平衡的考虑,需要永久保留,
用于历史数据的恢复与核查。

4.极限存储策略
极限存储可以超高压缩重复镜像数据,通过平台化配置手段实现透明
访问:缺点是对数据质量要求非常高,配置与维护成本比较高,建议一个
分区有超过 5G 的镜像数据(如商品维表、用户维表)就使用极限存储。

5.冷数据管理策略
冷数据管理是永久保留策略的扩展。永久保留的数据需要迁移到冷
数据中心进行永久保存,同时将 MaxCompute 中对应的数据删除。一般
将重要且不可恢复的、占用存储空间大于 lOOTB ,且访问频次较低的数
据进行冷备,例如 年以上的日志数据。

6.增量表 merge 表策略
对于某些特定的数据,极限存储在使用性与存储成本方面的优势不
是很明显,需要改成增量同步与全量 erge 的方式,对于对应的 delt
增量表的保留策略,目前默认保留 93 天。

1.3.2 生命周期管理策略

1.历史数据等级划分
主要将历史数据划分
P0 Pl P2 P3 四个等级,其具体定义如下。
• P0 :非常重要的主题域数据和非常重要的应用数据,具有不可恢
复性,如交易、日志、集团 KPI 数据、 IPO 关联表。
• Pl :重要的业务数据和重要的应用数据,具有不可恢复性,如
要的业务产品数据。
• P2 :重要的业务数据和重要的应用数据,具有可恢复性,如交易
ETL 产生的中间过程数据。
• P3: 不重要的业务数据和不重要的应用数据,具有可恢复性,如
某些 SNS 产品报表。

2.表类型划分

1.4数据成本计量

我们将数据成本定义为存储成本、计算成本和扫描成本三个部分。

通过在数据成本计量中引人扫描成本的概念,可以避免仅仅将表自
身硬件资源的消耗作为数据表的成本,以及对数据表成本进行分析时,
孤立地分析单独的一个数据表,能够很好地体现出数据在加工链路中的
上下游依赖关系,使得成本的评估尽量准确、公平、合理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/150915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python制作课堂点名系统,从此老师对我关爱有加

前言 大家早好、午好、晚好吖 ❤ ~ 准备工作 首先我们需要准备好点名的姓名文件,使用的时候导入进去就可以开始点名了。 新建一个文本文档,将姓名设置设置好,如下: 使用系统库和第三方库都比较常规 from PyQt5.QtWidgets impo…

Attention机制的具体计算过程

一、介绍Query、Key、Value的来源一个输入,经过embedding位置编码后得到最终的输入X(512维),最终的输入X与矩阵参数WQ(512*64维)相乘,得到Query;与矩阵参数WK(512*64维&a…

Java反射机制

目录 反射问题的引出 Java程序在计算机中部署的三个阶段 反射的主要相关类 反射机制的优缺点 调优 反射常用类—Class 特点 常用方法 获取映射Class类对象的四种方式 类加载的三个阶段 加载阶段 Loading 链接阶段 Linking 验证 Verification 准备 Preparation 解…

OpenGL示例源码opengl_examples编译

下载好源码并创建编译目录opengl_build 打开CMake-GUI选择源码目录及二进制编译目录:

C#学习记录——【实例】读写ini文件

『知识有两种,一种是你知道的,一种是你知道在哪里能找到的!』—— 塞缪尔约翰逊 1、概念 C#读写ini文件之前要了解的概念:INI就是扩展名为"INI"的文件,其实他本身是个文本文件,可以用记事本打开,主要存放的是用户所做…

axios拦截器使用和知识点补充

axios拦截器使用和知识点补充axios拦截器使用axios基地址ajax知识点补充onreadstatechange事件Ajax组成部分了解get请求与post请求区别其他请求方法了解axios拦截器使用 <link rel"stylesheet" href"./lib/bootstrap-v4.6.0.css" /><style>bod…

农业机器人研究进展

文章目录一、农业机器人二、国际农业机器人现状三、我国农业机器人发展情况四、农业机器人展望五、结束语2022年9月17-18日&#xff0c;第十一届中国智能产业高峰论坛成功在厦门举办。大会主论坛上&#xff0c;CAAI副理事长、中国工程院院士、国家农业信息化工程技术研究中心研…

Java实现二叉树

一、树 1、树简介 树是一种非线性的数据结构&#xff0c;具有n个结点其数据存储形式像一棵倒挂的树&#xff0c;树有一个根结点没有前驱结点&#xff0c;树有多个叶子结点没有后继结点&#xff0c;树有多个中间结点既有前驱结点又有后继结点。 树结构中子树之间不能有交集。 n个…

【Node.js实战】一文带你开发博客项目之联调(导入HTML、Nginx反向代理、CORS解决跨域、与前端联调)

个人简介 &#x1f440;个人主页&#xff1a; 前端杂货铺 &#x1f64b;‍♂️学习方向&#xff1a; 主攻前端方向&#xff0c;也会涉及到服务端 &#x1f4c3;个人状态&#xff1a; 在校大学生一枚&#xff0c;已拿多个前端 offer&#xff08;秋招&#xff09; &#x1f680;未…

Tapdata Cloud 场景通关系列: Oracle → MySQL 异构实时同步

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud 自去年发布云版公测以来&#xff0c;吸引了近万名用户的注册使用。应社区用户上生产系统的要求&#xff0c;Tapdata Cloud 3.0 将正式推出商业版服务&#xff0c;提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数…

二叉树的遍历(非递归)

二叉树的遍历 遍历二叉树, 是指按一定的规则和顺序访问二叉树的所有结点, 使每一个结点都被访问一次, 而且只被访问一次. 由于二叉树是非线性结构, 因此, 二叉树的遍历实质上是将二叉树的各个结点排列成一个线性序列. DFS: 前序, 中序及后序. BFS: 是指沿着二叉树的宽度优先遍…

Leetcode.1806 还原排列的最少操作步数

题目链接 Leetcode.1806 还原排列的最少操作步数 题目描述 给你一个偶数 ​n​n​n​​​​​ &#xff0c;已知存在一个长度为 nnn 的排列 permpermperm &#xff0c;其中 perm[i]iperm[i] iperm[i]i​&#xff08;下标 从 0 开始 计数&#xff09;。 一步操作中&#xff0…

OLAP和OLTP的区别

OLAP和OLTP的区别 OLAP&#xff1a; (Online transaction processing):在线/联机事务处理。典型的OLTP类操作都比较简单&#xff0c;主要是对数据库中的数据进行增删改查&#xff0c;操作主体一般是产品的用户。 OLTP&#xff1a; (Online analytical processing):指联机分…

Vue新一代状态管理工具—Pinia—都2023年了,快学起来吧!

Pinia 基本介绍 Pinia 是 Vue.js 的轻量级状态管理库 官方网站&#xff1a;https://pinia.vuejs.org/ 中文文档: https://pinia.web3doc.top/introduction.html 为什么学习pinia? pinia和vuex4一样&#xff0c;也是vue 官方 状态管理工具(作者是 Vue 核心团队成员&#xff…

基于JAVA SSM框架的影院管理系统源码,实现包括影院管理,电影管理,影厅管理,排片管理,选座售票,演员管理,影片评论等功能

介绍 下载地址&#xff1a;基于JAVA SSM框架的影院管理系统源码 该项目是一个电影信息管理、发布、展示平台&#xff0c;终端用户可以浏览、购票、评论。项目主要实现包括影院管理&#xff0c;电影管理&#xff0c;影厅管理&#xff0c;排片管理&#xff0c;选座售票&#xff…

连号区间数(第四届蓝桥杯省赛C++B组,第四届蓝桥杯省赛JAVAB组)

题目详细&#xff1a;解题思路&#xff1a;对于这个题目如果一开始没有思路的话我们可以先想一下暴力写法暴力的话就是不断的枚举每个区间然后判断这个区间是否合法这样写下来用了三重循环而对于题目我们只能通过部分样例所以我们就要想办法取缩减它的时间对于遍历每个区间我们…

【SpringBoot】使用AOP+注解实现请求参数的指定自动填充

首先定义一个加在方法上的注解 import java.lang.annotation.*;/*** 开启自动参数填充*/ Retention(RetentionPolicy.RUNTIME) Target({ElementType.METHOD}) Documented Inherited public interface AutoParameterFill {/*** 要填充的字段名,不写的话默认下面类的子类中的字段…

Redis未授权访问漏洞(一)先导篇

前言 Redis默认情况下&#xff0c;会绑定在0.0.0.0:6379&#xff0c;如果没有进行采用相关的策略&#xff0c;比如添加防火墙规则避免其他非信任来源ip访问等&#xff0c;这样将会将Redis服务暴露到公网上。 如果在没有设置密码认证&#xff08;一般为空&#xff09;的情况下…

InceptionNet与ResNet

以下代码图片思路来源&#xff1a; 北京大学Tensor flow笔记 嗯,最近学了一下神经网络&#xff0c;并没有很难&#xff0c;主要是把代码背下来&#xff0c;然后掌握Tensorflow是怎么搭建网络的&#xff0c;Tensorflow是比pytorch好用的&#xff0c;我直接抄的代码里面&#xff…

UDS诊断系列介绍05-27服务

本文框架1. 系列介绍27服务概述2. 27服务请求与应答2.1 27服务请求2.2 27服务肯定应答2.3 27服务否定应答1. 系列介绍 UDS&#xff08;Unified Diagnostic Services&#xff09;协议&#xff0c;即统一的诊断服务&#xff0c;是面向整车所有ECU的一种诊断通信方式&#xff0c;…