数据全生命周期管理

news2024/11/17 7:29:30

数据存储

时代"海纳百川,有容乃大"意味结构化、半结构和非结构化多样化的海量的 ,也意味着批数据和流数据多种数据形式的存储和计算。面对不同数据结构、数据形式、时效性与性能要求和存储与计算成本等因素考虑,应该使用适合的存储形式与计算引擎。但数据容量的急剧扩大,这对于和计算成本带来极大挑战。而应针对不同热度数据采用不同存储和计算资源,以优化存储和处理成本并提升可用性。

数据存储系统划分

从时效性或数据形式上分为批式数据、实时流式数据;数据从结构化上分为结构化、半结构化和非结构化 。根据数据热度不同对存储量、时效性、读写查询性能要求各异,选择适合存储技术。
存储技术分类如下:

  • 传统关系数据库:Oracle、DB2、MySQL和SQL Server等,属于结构化数据存储。
  • 分布式关系数据库:Hive、GreenPlumn、Teradata和Vertica等,属于结构化数据存储。
  • NoSql存储:HBase、Redis、Elasticsearch、MongoDB和Neo4J等,属于半结构化和非结构化数据存储。
  • 消息系统:Kafka、RocketMQ等消息系统,属于非结构化和半结构化短期存储。
  • 文件系统:HDFS、S3和OSS等,属于结构化、半结构化和非结构化数据存储。

数据热度

所谓的数据热度,根据价值密度、访问频次、使用方式、时效性等级,将数据划分为热数据、温数据、冷数据和冰数据。数据热度应随着时间的推移,数据价值会变化,应动态更新数据热度等级,推动数据从产生到销毁数据生命周期管理。

  • 热数据:一般指价值密度较高、使用频次较高、支持实时化查询和展现的数据。
  • 温数据:介于冷热数据之间,主要用于数据分析。
  • 冷数据:一般指价值密度低、使用频次较低、用于数据筛选和检索的数据。
  • 冰数据:一般指价值极低,使用频次为零、暂时归档的数据。
    在这里插入图片描述
  • 热数据服务于决策管理者,建议采用存储量低,但对时效性、稳定性和可用性要求较高存储技术;
  • 温数据服务于数据分析者,建议采用存储稍高,计算资源性能高能支持数据分析工具有效发挥的存储和计算引擎;
  • 冷数据服务于数据科学家,建议采用大容量、 能力和可扩展存储技术;
  • 冰数据采用超大容量,超低成本用于归档的存储技术。
    对于冰数据归档数据,可根据企业数据战略按照数据年龄、法律强制保留年限等要求,制定数据销毁规则,对在充分挖掘数据价值前提下,对数据进行销毁减少不必要存储成本,其实这也是数据全生命周期管理的意义。

归档

数据归档是指将那些生命周期步入尾声保存到低性能廉价的存储,是数据生命周期管理必不可少的步
骤。在数据的正常运行过程中,数据热度从热、温、冷和冰的依次降温的转化可认为是归档的过程。
可根据企业监管法规要求及企业战略,指定出明确数据热、温、冷和冰数据之间的界限,制定出企业
数据归档策略,并依据归档策略对数据进行归档处理。
哪些数据需要归档,主要与监管法规的要求及企业的数据战略有关,其中有些关键的指标可供参考:

  • 数龄大老化的数据
  • 低使用率且容量大的数据
  • 暂无数据价值的冰数据
  • 企业监管法规要求强行保留的数据
  • 由于数据具有关键性价值而被保留的数据,无关乎使用概率

数据归档还要考虑到数据结构重构、数据压缩格式改变、访问性变化、数据可恢复性和数据可理解性
元数据管理等方面。

销毁

随着存储成本的进一步降低,越来越多的企业采取了“保存全部数据”的策略。因为从业务和管理的角度,以及数据价值角度上讲,谁也无法未来会使用什么数据。但随着数据量急剧增长,从价值成本角度,存储超出业务需求的数据未必是个好的选择。有时候一些历史数据也会导致企业的法律风险,
因此数据的销毁还是很多企业应该考虑的选项。

对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。

学习记录;源来自于:微信号biggata53o

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/546795.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

组合预测模型 | ARIMA-CNN-LSTM时间序列预测(Python)

组合预测模型 | ARIMA-CNN-LSTM时间序列预测(Python) 目录 组合预测模型 | ARIMA-CNN-LSTM时间序列预测(Python)预测结果基本介绍程序设计参考资料 预测结果 基本介绍 ARIMA-CNN-LSTM是一种结合了传统时间序列模型和深度学习模型的…

chatgpt赋能Python-python3的下载

Python 3-您在编程路上不可或缺的伙伴 如果您正在寻找一种流行的编程语言,那么Python 3就是一个不错的选择。Python 3作为一种高级编程语言,可以轻松地创建各种应用程序和网站。它是最受欢迎的编程语言之一,就是因为它易于学习和使用。 Pyt…

本地部署 VisualGLM-6B

本地部署 VisualGLM-6B 1. 什么是 VisualGLM-6B2. Github 地址3. 安装 Miniconda34. 创建虚拟环境5. 安装 VisualGLM-6B6. 启动 VisualGLM-6B7. 访问 VisualGLM-6B8. API部署9. 命令行部署 1. 什么是 VisualGLM-6B VisualGLM-6B 是一个开源的,支持图像、中文和英文…

大模型时代下智能文档处理核心技术大揭秘

大模型时代下智能文档处理核心技术大揭秘 前言一张图全览文档图像分析与预处理图像预处理的整体架构核心技术点应用场景 版面分析与还原整体架构核心技术点应用场景 AI安全文档图像篡改检测 大模型时代思考总结 前言 最近,中国图像图形大会在苏州圆满结束&#xff0…

碳交易机制下考虑需求响应的综合能源系统优化运行(matlab代码)

目录 1 主要内容 架构模型: 需求响应模型: 目标函数: 2 部分程序 3 程序结果 4 下载链接 1 主要内容 该程序复现文献《碳交易机制下考虑需求响应的综合能源系统优化运行》,解决碳交易机制下考虑需求响应的综合能源系统优化…

Emacs之快速高亮查找字符(九十)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

ubuntu22.04静态ip设置(桥接模式、only-host+NAT模式)

在创建一台虚拟机后,默认的方式往往是通过DHCP动态的进行分配,DHCP服务器会告知创建的虚拟机分配到的ip地址,网关地址等信息。所以在创建好虚拟机之后,这些信息都不需要我们来配置,我们直接用就好了。 但是&#xff0…

redis集群之hash槽分析算法

上文提过了 hash取余算法和hash一致性算法 一致性hash算法是为了减少节点数目发生改变时尽可能的减少数据迁移 将所有的存储节点排在首位相连的Hash环上,每个key在计算hash后会顺时针找到临近的存储节点。 而当有节点加入或退出时,仅影响该节点在hash环上…

chatgpt赋能Python-python3求平均值

Python3求平均值-从基础到实践 Python3作为一种广泛使用的编程语言,被广泛应用于不同的领域。今天我们将探讨如何使用Python3求平均值。求平均值在数学和统计学中非常常见,使我们能够了解数据的中心趋势,并简化数据分析过程。让我们深入了解…

DELPHI7实现XP菜单风格

在DELPHI7中不使用任何第三方控件,实现放在工具栏上可拖动的XP风格菜单 今天有点空闲时间,顺便写点东西,不是什么深奥的东西,但实用,对于不想第三方控件但又想加点效果的朋友可能有点用.实现的效果如图: 步骤一:把Win32面板上把CoolBar组件加到窗体上 步骤二:把Additional面板上…

VBA 密码删除软件 4n6.VBA Password Remover 1.2 Crack

VBA 密码删除软件 软件评级(基于 1541 条评论的平均评分 4.8) 该工具是完美的软件,可以解锁任何类型的受密码保护的 VBA 文件。用户可以轻松使用此 VBA 密码删除软件并从 VBA 文件中删除密码保护。 兼容所有 Office 文件格式:.d…

Linux线程5——生产消费模型

生产消费模型 1个交易场所:超市 2种角色:生产者/消费者 3种关系:生产者和生产者(竞争关系也叫互斥关系),消费者和消费者(竞争关系同样是互斥关系),生产者和消费者(互斥,同步关系:生产完再消费或消费完再生产)。 以上是生产消费模型遵守的“321”原则。 生产者和消…

RocketMQ Connect 核心知识点概述

一、概览 RocketMQ Connect是RocketMQ数据集成重要组件,可将各种系统中的数据通过高效,可靠,流的方式,流入流出到RocketMQ,它是独立于RocketMQ的一个单独的分布式,可扩展,可容错系统&#xff0…

英文文本情感分析textblob模块sentiment方法

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 英文文本情感分析 textblob模块 sentiment方法 [太阳]选择题 关于下列代码说法错误的是? from textblob import TextBlob myText"Textblob is amazingly simple to us…

chatgpt赋能Python-python3绝对值

Python3绝对值——学习Python3编程的基础 Python3是一种非常流行的编程语言,可以应用于各种不同的场景,例如数据科学、机器学习、网络编程、自动化脚本、游戏开发等。在Python3编程中,绝对值是一个基础的概念。 什么是绝对值? …

【网络编程】实现UDP/TCP客户端、服务器

目录 一、UDP 1、Linux客户端、服务器 1.1udpServer.hpp 1.2udpServer.cc 1.3udpClient.hpp 1.4udpClient.cc 1.5onlineUser.hpp 2、Windows客户端 二、TCP 1、单进程版的TCP客户端、服务器 1.1tcpServer.hpp 1.2tcpServer.cc 1.3tcpClient.hpp 1.4tcpClient.cc …

K8s进阶1——kubeadm工具搭建K8s高可用集群

文章目录 一、资源清单二、系统初始化2.1 所有服务器配置2.2 master节点配置 三、nginxkeepalived3.1 主备机器上进行3.2 配置主节点3.3 配置备节点3.4 启动服务 四、部署etcd集群4.1 资源清单4.2 生成Etcd证书4.3 部署Etcd集群 五、安装Docker/kubeadm/kubelet5.1 安装docker5…

ESP32-C3入门教程 问题篇⑱——VSCode ESP-IDF Monitor device 波特率不对导致乱码

文章目录 一、前言二、发现问题三、分析问题一、前言 本文基于VS Code IDE进行编程、编译、下载、运行等操作 基础入门章节请查阅:ESP32-C3入门教程 基础篇①——基于VS Code构建Hello World 教程目录大纲请查阅:ESP32-C3入门教程——导读 二、发现问题 升级了VSCode,没注意…

GDB调试无行号,报dwarf error问题解决

背景 近期我开发的一个C程序,在生产环境产生了coredump,但是在调试该core文件时,打出的debug信息并不全。 这种debug信息丢失,其实说白了,就是符号表丢失。一般由两种情况造成,一种是编译的时候没有加-g参…

EasyRecovery16适用于Windows和Mac的专业硬盘恢复软件

无论你对数据恢复了解多少, 我们将为您处理所有复杂的流程并简化恢复!适用于Windows和Mac的 专业硬盘恢复软件 硬盘数据无法保证绝对安全。有时会发生数据丢失,需要使用硬盘恢复工具。支持恢复不同存储介质数据:硬盘、光盘、U盘/移动硬盘、数…