Deflate内部实现(LZ77无损压缩算法)超详细图解算法版~

news2024/11/17 5:44:56

无损压缩算法

  • 第一阶段:重复消除 — LZ77无损压缩算法
    • 算法介绍
      • 举例
      • 压缩算法思路
      • 图解压缩过程
  • 第二阶段:位减少
    • huffman
    • 位减少

概览

  • Gzip
    • Deflate 编码(LZ77+哈夫曼)
  • Brotli
    • LZ77+哈夫曼+二阶上下文建模

Deflate 分两个阶段压缩数据:重复消除位减少

第一阶段:重复消除 — LZ77无损压缩算法

算法介绍

基于字典的无损压缩算法,它搜索重复的未压缩序列并用引用指针替换它们。

引用指针由 2 个元素定义:

  • offset距离(或偏移量):原始未压缩数据中出现的第一个现有字节的相对返回。
  • Length:重复的字节长度。

当对序列进行压缩的时候,采用 “滑动窗口” 算法,
结构如下:

  • 查找缓冲区(Search buffer),也称字典(已编码部分)
  • 先行缓冲区(Look ahead buffer),包括即将进行编码序列的一部分。每次读取数据的时候,先把一部分数据预载入前向缓冲区。为移入滑动窗口做准备。

由于缓冲区具有固定的长度,所以,当算法(编码器)在运行时候,它看起来像在文件中“滑动”,所以这个缓冲区被称为“滑动窗口”。

滑动窗的尺寸是影响压缩性能的关键因素之一。如果滑动窗口太小,则压缩器可能会发现较少的重复数据序列,结果,压缩文件的大小将更大。如果滑动窗口太大,则压缩器可能需要花费更长的时间来查找重复的数据序列,因此压缩速度将变慢。
在这里插入图片描述

要使用 LZ77 压缩算法:

  1. 将编码位置设置为输入流的开头。
  2. 在查找缓冲区的窗口中找到最长的匹配项。
  3. 如果找到匹配,则输出指针 P。将编码位置(和窗口)向前移动 L个字节。
  4. 如果未找到匹配项,则输出空指针和先行缓冲区中的第一个字节。将编码位置(和窗口)向前移动一个字节。
  5. 如果先行缓冲区不为空,则返回步骤 2。

主要逻辑 :
通过先行缓冲区预读取数据,然后向字典中移入, 不断搜索字典中与先行缓冲区连续相匹配的最长序列,然后输出metadata标记。

举例

以微软的例子来理解算法:微软介绍:LZ77压缩算法

Input stream

Position    1    2    3    4    5    6    7    8    9
Byte        A    A    B    C    B    B    A    B    C

Output 期望压缩后得到的结果:
在这里插入图片描述

压缩后怎么能读取到原文呢?

答:需要将output进行解码,如:
(0,0)‘X’:直接推入X
(o,l):找到offset=o的位置,往后复制l个字符
在这里插入图片描述

看来最重要的一环就是如何压缩啦!让我们一起看看这个算法的思路和图解吧~

压缩算法思路

AABCBBABC串,将重复的子串用指针进行替换,
对于其中的每个元素 x 有两种情况:
     1. 前文没有任何重复的子串:输出(0,0)x
     2. 在前文能找到重复的子串:输出(offset = x和匹配子串的的距离,length = 匹配子串的长度)

图解压缩过程

字符序列移动方向:从右往左

简称:

  • buffer区:先行缓存区(未编码),这是需要匹配的字符串
  • Dictionary:查找缓存区(已编码),用来匹配buffer的字典区域
  1. 初始字符串从右往左滑动,直至占满所有buffer区,如图1
    在这里插入图片描述
                    (图1)
    在这里插入图片描述

  2. 开始遍历 图1 buffer的第一个字符’A’,因Dictionary空,未匹配到’A’ => 往左移一格(如图2),输出(0,0)A。
    (offset = A无匹配子串,距离=0,length:0,无重复子串)在这里插入图片描述                (图2)
    在这里插入图片描述

  3. 遍历 图3 buffer第一个字符"A",在Dictionary找到"A",未超过buffer黄色长度,往后遍历到编码"AB",Dictionary没有匹配到“AB”字符串,于是只编码"A",输出(1, 1)。
    在这里插入图片描述
                    (图3)

    图4,匹配长度为1,所以字符串向左偏移一个单位:
    在这里插入图片描述
                    (图4)
    在这里插入图片描述

  4. 匹配buffer区第一个字符’B’,Dictionary内未匹配,同步骤1,输出(0,0)B,左移一格。

  5. 匹配buffer区第一个字符’C’,Dictionary内未匹配,同上,输出(0,0)C,左移一格,如 图5
    在这里插入图片描述
                    (图5)
    在这里插入图片描述

  6. 匹配 图6 buffer区第一个字符’B’,offset('B’与Dictionary中匹配的’B’的距离)=2,两个查找指针同时往后移1(如图6),比较'C'vs'B'不匹配,终止,length=1,输出(2,1)
    在这里插入图片描述
                    (图6

    得到结果:
    在这里插入图片描述
                    (图7)
    在这里插入图片描述

  7. 匹配 图7 buffer区第一个字符’B’,Dictionary匹配到‘B’,分别是offset=1和offset=3,但offset=3下一字节'C'vs'A'不匹配,就近原则选择offset=1,length=1,输出(1,1)。
    在这里插入图片描述
                    (图8)
    此时已编码序列长度大于Dictionary区,有序列滑出了窗口,如图8
    在这里插入图片描述

  8. 匹配 图8 BUFFER第一个字符 ‘A’,在DICTIONARY匹配到,offset=5,往后遍历直到匹配"ABC",length=3,此时不能再往后编码否则超过BUFFER区域长度,故输出(5, 3),往左移动3格,如图:
    在这里插入图片描述
    在这里插入图片描述

第二阶段:位减少

huffman

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过哈夫曼树,我们可以将原本需要120bit(15*8)的位减少到 28bit

位减少

范式huffman树:在普通huffman树的基础上只要保存编码位长,利用位长反推编码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1839296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

系统架构——Spring Framework

目录 (1)基本介绍 (2)基本发展历史 (3)了解和学习 Spring 4.x 系列的系统架构 1、第一个模块:做核心容器(Core Contaner) 2、第二个模块:AOP与Aspects(这…

怎么用AI生成逼真的图片?

以 SD 为例,选择一个写实的大模型就可以了,比如以下是我用 XXMix_9realisticSDXL 大模型生成的图片: xxmixgirl,((((melt)))),(((((black and white melt))))),(((wear Black and white Taoist robes))),((((gold and silver lace)))),(((gol…

mysql密码过期的修改(Your password has expired. ..)

参考文章:mysql密码过期的修改方法(your password has expired)_我是知青-RuoYi 若依 (csdn.net) 问题:Your password has expired. To log inyou must change it using a clientthat supports expired passwords. 解决方式&…

智慧体育场馆:视频孪生引领体育场馆智能化

随着数字经济时代的发展,技术的迭代跃迁加速了体育场馆运营革新的步调,在技术赋能理念的驱动下,体育场馆逐步由复合化发展姿态,升级为物联感知式的智能场馆,并迈向了智慧体育场馆的发展之路。《“十四五”时期全民健身…

Sui的Fastcrypto加密库刷新速度记录

Sui使用的加密库Fastcrypto打破了许多速度记录,Mysten Labs在基准测试和安全分析中的工作修复了许多安全漏洞,同时通过识别新的优化技巧为创新开辟了道路。 最近在伦敦帝国理工学院举行的国际性能工程会议(ICPE)基准测试研讨会上…

成都爱尔周进院长提醒毕业生摘镜,术式如何挑

高考完迎来一个悠长假期,考后放松的同时,也有不少同学开始“准备”。 为奔赴梦想,为了理想的专业和学校,不少人决定摘镜。 不少专业有视力要求,且不同专业方向的要求各有不同。我们先来看看有视力要求的专业有哪些&am…

Linux终端玩转bastet俄罗斯方块小游戏

Linux终端玩转bastet俄罗斯方块小游戏 一、bastet小游戏介绍1.1 bastet小游戏简介1.2 项目预览 二、本次实践介绍2.1 本地环境规划2.2 本次实践介绍 三、检查系统镜像源3.1 检查系统镜像源3.2 更新软件列表3.3 查询软件 四、安装bastet小游戏4.1 安装bastet4.2 启动bastet游戏 …

Clickhouse监控_监控的指标以及Grafana配置Clickhouse指标异常时触发报警

使用PrometheusGrafana来监控Clickhouse服务和性能指标 Clickhouse监控指标的官方文档https://clickhouse.com/docs/zh/operations/monitoring 建议使用PrometheusGrafana组合监控Clickhouse服务和性能指标,数据流向:Prometheus的clickhouse_exporter组件…

jpg格式图片无法打开可以修复吗?有哪些方法?

JPG的图片打不开怎么办呢?当JPG图片打不开的时候,我们需要先了解下具体的原因,是因为格式不支持,还是因为图片文件损坏。不同的原因,解决的方法也会不同,比如图片损坏,我们就需要对图片修复处理…

Maven相关知识

maven 继承与聚合 聚合:聚合多个模块(可以一起构建) ,各模块之间单独打包 继承: 为了消除重复,将相同的配置提取,子模块默认继承全部父模块的依赖dependencies节点,通过它来管理jar包的版本&am…

汽车IVI中控开发入门及进阶(三十一):视频知识扫盲

有效的视频资源管理需要集成许多不同的底层技术,共同为用户提供给定应用程序的最佳体验。其中许多技术是从早期电视广播中使用的技术演变而来的。其他方法,如用于通过网络流式传输视频的压缩方法,相对较新且不断发展。 以下详细概述了与图形和视频处理和传输相关的一些基本…

智能合约开发的过程

智能合约是一种运行在区块链上的程序,可以自动执行预先设定的条款和条件。智能合约具有去中心化、透明、不可篡改等特点,因此被广泛应用于金融、供应链、物联网等领域。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流…

西门子PLC1200--与电脑连接的TCP通讯

本例演示将PLC作为服务器,电脑作为客户端,进行通讯。 反过来也是一回事,就不啰嗦了。 二者进行TCP通讯,是基于网线的,电脑上用的是网口,PLC上用的是Profinet接口,即PN口。 软件工具准备 西门子…

智慧工地系统源码,支持项目级、公司级、集团级多级权限划分,支持PC端、手机端

智慧工地的核心是数字化,它通过传感器、监控设备、智能终端等技术手段,实现对工地各个环节的实时数据采集和传输,如环境温度、湿度、噪音等数据信息,将数据汇集到云端进行处理和分析,生成各种报表、图表和预警信息&…

2023-2024“讯方杯”全国总决赛即将开赛,精彩一触即发!

讯方杯 2023-2024“讯方杯”全国大学生信息技术应用及创新大赛全国总决赛将于2024年6月21日一23日在广东东莞举行,旨在为全国高校大学生打造竞技和交流平台,提升学生的ICT知识水平和实践动手能力,助力学生迈向更高的竞赛舞台。 本次大赛由深…

24年新版!这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来

前⾔ 微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,…

从零基础到学完CCIE要多久?

思科认证的CCIE是网络工程师追求的顶级认证之一。 对于刚入门的初学者来说,从零基础到通过CCIE认证,这条路需要多长时间? 这个问题的答案因人而异,取决于多种因素。 这不仅是一个关于时间的问题,更是一个关于规划、学习…

oracle数据库日常保养或巡检语句实践整理汇总

目录 1.目的 2.操作工具 3.实践说明 1.检查Oracle实例状态 2.检查Oracle在线日志状态 3.检查Oracle表空间状态 4.检查Oracle所有数据文件状态 5.检查Oracle数据库连接情况 6.检查Oracle表容量占用大小 7.检查Oracle备份 8.检查数据库表空间的使用情况 4.总结 1.目的 …

无线麦克风哪个品牌音质最好,领夹麦克风品牌排行榜前十名推荐

​在数字化时代的背景下,声音的传播与记录变得日益重要。无论是会议室、教室还是户外场所,无线领夹麦克风凭借其便携性和稳定的连接性能,成为人们沟通表达的首选工具。面对众多选择,我为你精选了几款性能卓越且性价比高的无线领夹…

ShokoServer /api/Image/withpath/ 任意文件读取漏洞复现(CVE-2023-43662)

0x01 产品简介 ShokoServer是一款高性能、可扩展的服务器软件,专为满足现代数据管理和处理需求而设计。它采用先进的架构和算法,提供稳定、可靠的数据存储、查询和分析服务,适用于各种规模和类型的应用场景。 0x02 漏洞概述 ShokoServer /…