数据重删技术

news2024/9/22 4:02:58

目录

一、名词介绍

二、重删概述

三、重删分类

四、源端重删


一、名词介绍

        指纹:不同数据块数据通过哈希算法所生成的唯一标识。

        重删率:(1 - 实际备份数据量 / 已完成数据量)* 100%。

        重删卷:存放指纹库的物理卷。

        指纹库:在重删卷中,用于存放指纹的区域。

        指纹池:将拥有重删卷的节点组成逻辑池,用于存放指纹库。

        重删卷是重删服务管理数据资源的基本单位。单个节点的重删卷统一由该节点的重删服务管理,多个节点的所有重删卷组成一个指纹池。
        指纹池是规划指纹库存放节点的管理单元。指纹池是存放任务指纹的最大逻辑管理单元。

二、重删概述

        重删技术(Deduplication)是一种数据优化技术,用于减少存储系统中的重复数据。它可以显著降低存储空间的使用,提高存储和传输效率

        重删的基本步骤如下:

(1)对于需要进行重删的数据进行分割,计算每个数据库的指纹(一个或多个 hash 值);

(2)将计算的指纹与现有的指纹库进行对比;

(3)若存在相同指纹,则删除重复数据,并记录对应数据块的数据索引;若不存在相同指纹,则保留数据,并将指针入库;

三、重删分类

重删技术可分为如下几类:

  1. 文件级重删:
  • 优点:实现简单,通常用于文件备份和归档。
  • 缺点:只能识别整个文件的重复数据,无法对部分文件进行优化。

      2. 块级重删:

  • 优点:可以识别文件中的部分重复数据,更细粒度的优化存储。
  • 缺点:实现复杂度较高,需要处理数据块的分割和合并。

     3. 源端重删(在线重删):

  • 定义:在数据写入存储系统时实时进行重删。数据在被存储之前会进行去重处理。
  • 优点:节省存储空间,即刻减少重复数据。
  • 缺点:可能会影响写入性能,因为需要实时计算和比较数据。

     4. 目标端重删(离线重删):

  • 定义:在数据写入后,系统定期扫描存储系统以识别和删除重复数据。
  • 优点:写入性能不会受到影响。
  • 缺点:需要额外的存储和处理时间来完成重删操作。

四、源端重删

下面着重介绍源端重删,以爱数产品为例:

(1)客户端中的相关服务计算指定大小数据切片的指纹,并将指纹信息发送至重删服务。

(2)重删服务根据查询信息,将去重的结果发送至客户端。

(3)客户端得到查询结果后,发送未能去重数据至备份存储,并将该数据切片的指纹信息记录至重删资源,即任务对应的指纹库内。

(4)若查询到已有指纹,则将对应的元数据信息发送至备份存储。保存的元数据将与同指纹信息数据共用数据 chunk。

------------------------------------------

------------------------------------------

数据重删是一种优化存储系统的技术,用于减少存储空间需求。其核心原理是通过识别和删除重复的数据块来实现存储效率的提升。首先,数据重删通过散列算法(如MD5或SHA-1)生成数据块的唯一指纹,识别出重复的数据块。接着,在文件级重删中,系统比较整个文件的内容来发现重复文件,只保留一个副本;而在块级重删中,系统将文件拆分为多个块,比较这些块的内容,即使文件的部分内容重复也能进行优化。重删可以分为内联和后处理两种类型。内联重删在数据写入时实时进行处理,从而节省存储空间,但可能会影响写入性能;后处理重删则在数据写入后定期进行,这不会影响写入性能,但需要额外的时间和存储资源。数据重删技术广泛应用于备份和恢复、存档、虚拟化环境以及现代文件系统中,以减少重复数据的存储需求,降低成本,并提高备份和恢复效率。然而,它的实现复杂度较高,尤其是块级和内联重删,可能会对系统性能产生影响,并可能带来数据一致性问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2117739.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JAVA一键开启缘分之旅红娘相亲交友系统小程序源码

一键开启缘分之旅 —— 红娘相亲交友系统 💖 初遇心动,一键启程 在这个快节奏的时代,找到那个对的人似乎成了一种奢侈。但别担心,有了“红娘相亲交友系统”,你的缘分之旅只需一键即可开启!无需复杂的注册流…

【网页播放器】播放自己喜欢的音乐

// 错误处理 window.onerror function(message, source, lineno, colno, error) {console.error("An error occurred:", message, "at", source, ":", lineno);return true; };// 检查 particlesJS 是否已定义 if (typeof particlesJS ! undefi…

【Day10-配置文件日志多线程】

配置文件 介绍 配置文件 在企业开发过程中,我们习惯把一些需要灵活配置的数据放在一些文本文件中,而不是在Java代码写死我们把这种存放程序配置信息的文件,统称为配置文件 Properties 是一个Map集合(键值对集合)&am…

推荐系统的基础_协同过滤(CF)

协同过滤(Collaborative Filtering)是一种推荐系统算法,它通过分析用户之间的相似性或者物品之间的相似性来预测用户可能感兴趣的物品。协同过滤算法主要有两种类型: 1. 用户基协同过滤(User-based Collaborative Filt…

OceanMind海睿思“一种业务驱动数据治理的方法和系统”获国家发明专利!

近日,中新赛克海睿思最新技术:一种业务驱动数据治理的方法和系统(专利号ZL 202410567107.8),获得国家知识产权局的正式授权,并取得专利证书。 当前,现有的数据治理方法论和平台工具主要聚焦于数…

IDEA 常用插件推荐,美观又实用!

1、 TONGYl Lingma - Your Al Coding Assistant. Type less, Code more. 通义灵码,是一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力&…

JVM 调优篇2 jvm的内存结构以及堆栈参数设置与查看

一 jvm的内存模型 2.1 jvm内存模型概览 二 实操案例 2.1 设置和查看栈大小 1.代码 /*** 演示栈中的异常:StackOverflowError** author shkstart* create 2020 下午 9:08** 设置栈的大小: -Xss (-XX:ThreadStackSize)** -XX:PrintFlagsFinal*/ public class S…

【C++】C++ STL 探索:List使用与背后底层逻辑

C语法相关知识点可以通过点击以下链接进行学习一起加油!命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C内存管理模板初阶String使用String模拟实现Vector使用及其模拟实现 本文将通过模拟实现List,从多个角度深入…

第J3周:DenseNet算法实战与解析(pytorch版)

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客** >- **🍖 原作者:[K同学啊]** 📌 本周任务: ●1.请根据本文 Pytorch 代码,编写出相应的 TensorFlow 代码(建议使用…

《黑神话·悟空》背后的佛学义理探析

《黑神话悟空》不仅是一款备受期待的动作冒险游戏,其背后的深厚文化内涵,尤其是佛教义理的体现,更是吸引了不少玩家和佛学爱好者的关注。本文将通过对游戏剧情的解析,结合佛教思想,探讨《黑神话悟空》中所蕴含的哲学智…

冯·诺依曼体系结构

纯硬件的计算机结构应该就是输入设备——CPU——输出设备 冯诺依曼体系结构加入了存储器(内存) 因为数据是要在计算机体系结构中流动的,流动过程中对数据进行加工处理,数据从一个设备到另流动到另一个设备本质是一种数据拷贝。C…

HDFS常用命令及Python连接HDFS操作

目录 一、HDFS常用命令 二、Python连接HDFS操作 一、HDFS常用命令 HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop集群中的一部分,用于存储大量数据,并运行在商用硬件集群上。以下是HDFS中常用…

6款好用到离谱的宝藏软件,每一款都超出你的认知

你的电脑里有没有那种,无论重装多少次系统,都要第一时间安装的软件? 请把它的名字打在评论区!本期分享6款,免费也能吊打付费的Windows电脑必装软件。 最大程度的增强Windows系统的功能,良心分享&#xff…

一文讲解多种GIS分析功能

GIS行业有很多分析功能,对于刚入行的新手有着足够的吸引力,其实有许多分析功能实现原理大差不差,比如模型压平,基于模型的淹没分析以及模型裁切。本文将以模型裁切为切入口进行介绍其中原理。 首先 (立方体剖切示意图…

只需一个类文件,Erupt 可以能完成整个后台管理?这个低代码值得一试

只需一个类文件,Erupt 竟然能搞定整个后台管理?这个低代码值得一试 在纷繁复杂的后端开发世界里,Erupt 就像是一剂强心针,用一个 .class 文件就能实现后台管理功能,简直让人感叹“开发也可以这么简单!”本文…

linux进程的概念和pid

进程的概念 进程是参与分配资源(cpu,内存)得实体,比如打开qq,浏览器就是打开了进程。 进程这么多,如何管理进程呢? 在linux下进程通过PCB(task_struct)来管理进程 ta…

足浴行业在线预约小程序源码系统+支持拼团功能 带完整的安装代码包以及搭建部署教程

系统概述 在快节奏的现代生活中,人们对健康养生的需求日益增长,足浴行业作为传统养生方式之一,其市场需求也随之不断扩大。为了满足消费者日益增长的便捷性需求,一款集在线预约、拼团优惠于一体的足浴行业小程序源码系统应运而生…

Vue/cli不同环境下打包后js文件没有添加hash值-会导致缓存问题-解决

环境变量 包文件判断是根据NODE_ENV=production,这时会对应打包加上hash值,所以在配置不同环境对应命令的时候,把NODE_ENV=production加上 全局的环境变量需要以VUE_APP_ 开头 process.env.VUE_APP_ENV 会读取不到值 .env 文件配置 NODE_ENV=production 才会按照hash模式去…

利用数据分析提升SEO排名的7种方法

我们都听过“大数据分析”这个词。科技让我们能够清晰地了解我们的活动和内容的表现——向我们提供了关于受众的宝贵信息,甚至可以精确到他们在Google和其他搜索引擎上使用的具体搜索词。 你已经在你的业务中使用数据分析了吗?如果是,你有利…

漏水监测报警摄像机

漏水监测报警摄像机 是一种智能设备,专门用于监测管道或设备的漏水情况,并能在检测到漏水时发出警报,帮助用户及时发现并处理水患。这种摄像机通常配备高清摄像头和敏感的水滴传感器,能够全天候地监测管道周围的情况。 当漏水摄像…