数据结构【二】:霍夫曼编码

news2025/1/18 18:51:02

霍夫曼编码(Huffman Coding)是可变长编码(VLC)的一种。本质上使用变长编码表对源符号进行编码,通过评估源符号出现概率的方法进行分类,将出现几率较高的源字符使用较短的编码,出现几率较低的源字符使用较长的编码,使得整体的字符串的平均长度、期望值较低,从而达到无损压缩数据的目的。

霍夫曼编码的具体步骤

步骤1:将源符号的概率按从小到大排序成序列A;
步骤2:把两个最小的概率相加a、b, 得出概率值,放置在序列A中,记为z,同时删除a,b,和原序列中值按照从小到大排序,并记录a,b,z二叉树,且二叉树左叶值比右叶值小;
步骤3:重复步骤2,形成整体二叉树,左树标记为0,右树标记为1,从上到下即为该源符号的编码;

例:已知某文档包含5个字符,每个字符出现的频率如下,采用霍夫曼编码进行文档压缩,则单词"cade"的编码为?,文档的压缩比是多少?

字符abcde
概率%4010201614

解:
步骤1:将所有的字符按照从小到大排序,即b:10,e:14,d:16,c:20,a:40;
步骤2:将最小的两个概率值取出,左小右大组成二叉树,二叉树的节点为24
在这里插入图片描述

步骤3:重新将概率按照从小到大排序,即d:16,c:20,24,a:40;并选出最小的两个概率值,左小右大组成二叉树,二叉树节点为36;
在这里插入图片描述

步骤4:重复步骤3,将概率重拍,即24,36,a:40,并组成二叉树;左树标记为0,右树标记为1;
在这里插入图片描述

因此,a的编码为0,b的编码为101,e的编码为101,d的编码为110,c的编码为111;
cade的编码为 1110110101;
那么文档的压缩比怎么计算呢?
因为该文档有a、b、c、d、e五个字符,那么其处于2的2次方和2的3次方之间,则可用3位2进制数进行编码,假设a:000,b:001,c:010,d:011,e:100;
而采用霍夫曼编码,则文档压缩比计算为
压缩后编码长度 = 1 ∗ 40 % + 3 ∗ 10 % + 3 ∗ 20 % + 3 ∗ 16 % + 3 ∗ 14 % = 2.2 文档压缩比 = 1 − 2.2 / 3 = 27 % 压缩后编码长度 = 1*40\% +3*10\%+3*20\%+3*16\%+3*14\% = 2.2\\ 文档压缩比 = 1 - 2.2/3 = 27\% 压缩后编码长度=140%+310%+320%+316%+314%=2.2文档压缩比=12.2/3=27%

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/470349.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Hive优化补充

目录 一、表设计优化 1.通过设计分区表,增加动态分区,查询时避免全表扫描 2.设计分桶表:适用于大表join大表的情况 最后,两张大表进行join转为两张分桶表进行join: 二、文件存储 1.文件格式-概述 2.文件格式——…

学系统集成项目管理工程师(中项)系列13b_人力资源管理(下)

1. 项目团队建设 1.1. 塔克曼(Tuckman)阶梯理论 1.2. 理论基础 1.2.1. 激励理论 1.2.1.1. 马斯洛需要层次理论 1.2.1.1.1. 生理需要 1.2.1.1.2. 安全需要 1.2.1.1.3. 社会交往的需要 1.2.1.1.4. 自尊的需要 1.2.1.1.5. 自我实现的需要 1.2.1.2. 赫茨伯格的双因素理论…

Leetcode力扣秋招刷题路-0802

从0开始的秋招刷题路,记录下所刷每道题的题解,帮助自己回顾总结 802. 找到最终的安全状态 有一个有 n 个节点的有向图,节点按 0 到 n - 1 编号。图由一个 索引从 0 开始 的 2D 整数数组 graph表示, graph[i]是与节点 i 相邻的节…

Git HEAD及detached head

背景:最近在使用git checkout重置HEAD指向,偶尔会出现Detached HEAD提示,于是想探究一下具体的原理及过程,遂写下了这篇文章。一般checkout用于切换分支和检出历史的某个节点,或恢复工作区的文件,这三个功能…

OpenHarmony JS Demo开发讲解

项目结构 打开entry→src→main→js,工程的开发目录如图所示 其中, i18n文件夹:用于存放配置不同语言场景的资源,比如应用文本词条,图片路径等资源。en-US.json文件定义了在英文模式下页面显示的变量内容&#xff0c…

Java 泛型为什么设计成是可以擦除的

Java 泛型是 Java 5 引入的一种类型安全的编程机制,它允许在编译时指定泛型类型参数,从而提高代码的类型安全性和可读性。然而,Java 泛型的实现方式是通过类型擦除来实现的,这也引发了一些争议。本文将介绍 Java 泛型为什么设计成…

2023年某科技公司前端开发初级岗的面试笔试真题(含选择题答案、问答题解析、机试题源码)

📚关于该专栏: 该专栏的发布内容是前端面试中笔试部分真题、答卷类、机试等等的题目,题目类型包括逻辑题、算法题、选择题、问答题等等,除了内容的分享,还有解析和答案。真实来自某些互联网公司,坐标广东广州。 🔥🔥🔥 持 续 更 新 🔥🔥🔥 😉专栏博主: 黛…

HCIP-7.1交换机ARP、VLAN之间的三层通信技术学习

交换机ARP、VLAN之间的三层通信技术学习 1、ARP1.1、 地址解析过程1.2、ARP报文格式1.3、ARP表项1.4、免费ARP1.5、 VLAN间ARP代理1.5.1、解决同网段,不同广播域内主机互通问题;1.5.2、解决同网段,不同VLAN之间主机互通问题。1.5.3、解决同网…

Ignore insecure directories and continue [y] or abort compinit [n]?

问题: 在Mac终端中使用Zsh作为默认shell时,有时会弹出以下提示信息: Ignore insecure directories and continue [y] or abort compinit [n]? 这个提示出现的原因是因为Zsh在加载时会检查所有的目录是否安全,并拒绝加载不安全的…

【LeetCode: 62. 不同路径 | 暴力递归=>记忆化搜索=>动态规划 】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

卡尔曼滤波器简介——概述

关于卡尔曼滤波器 大多数现代系统都有许多传感器,可以根据一系列测量来估计隐藏(未知)状态。例如,GPS接收器提供位置和速度估计,其中位置和速度是隐藏状态,卫星信号到达的差分时间是测量值。 跟踪和控制系统…

ChatGPT的进化版?AutoGPT怎么用

AutoGPT是什么 首选给大家介绍,ChatGPT与AutoGPT的区别 目前AutoGPT被称为最接近AGI的人工智能,它是ChatGPT的进化版? “ChatGPT” 只能提供2021年9月之前的信息,所以你问它告诉我今天的天气,它回答不了 “AutoGPT” …

AutoGPT不靠谱,微软推出升级版!可编辑自主规划过程

夕小瑶科技说 原创 作者 | iven 火遍全网的AutoGPT[1]在Github收藏量突破十万。这种自我规划、自我执行的智能体首次关注人工智能模型内部的自我调整与优化。 但是有不少网友发现,AutoGPT的表现不稳定,死循环是最常见的现象。此外,AutoGPT执…

输入指令为±10V或4~20mA型伺服阀控制器

工作电压 19~35 VDC(常规24VDC) 最大功率消耗 <25VA 空载电流 ≤100mA(24V) 差分信号输入 0~10 V,输入阻抗≥100KΩ 4~20 mA,输入阻抗100Ω (出厂前需指定,现场不可…

免费的ERP系统哪个好?这款让管理更高效

阅读本文你将了解:ERP是什么?解决什么问题?ERP选型的参考维度?零代码ERP系统解决哪些场景问题? 题目提到“免费”,其实很难有软件可以真正做到。 商业化市场决定了没有一家厂商可以不落俗套。因而我们要探…

[架构之路-177]-《软考-系统分析师》-17-嵌入式系统分析与设计 -2- 系统分析与设计、低功耗设计

目录 1 7 . 4 嵌 入 式 系 统 开 发 17.4.1 开发平台 1 . 交叉开发环境 2 . 交叉编译环境 17. 2 开发流程 1. 过程模型 2 . 分析与设计方法 17.4.3 软硬件协同设计 1 . 软 硬 件 协 同 设 计 方 法 2 . 协 同 设 计 工 具 17.4.4 系统分析与设计 1 . 需求分析 2 .…

CI/CD: GitLab Runner安装注册配置管理

点击上方蓝字⭐️关注“DevOps云学堂”,接收最新技术实践 今天是「DevOps云学堂」与你共同进步的第 21 天 本文是《GitLabCI实践》教程部分内容 GitLab Runner是一个开源项目,用于运行您的作业并将结果发送回GitLab。它与GitLab CI结合使用,G…

计算机网络学习10(ARP协议详解)

ARP 协议,可以说是在协议栈中属于一个偏底层的、非常重要的、又非常简单的通信协议。 开始阅读这篇文章之前,你可以先看看下面几个问题: ARP 协议在协议栈中的位置? ARP 协议在协议栈中的位置非常重要,在理解了它的工…

Linux 内存 pt.1

哈喽大家好,我是咸鱼 今天我们来学习一下 Linux 操作系统核心之一:内存 跟 CPU 一样,内存也是操作系统最核心的功能之一,内存主要用来存储系统和程序的指令、数据、缓存等 关于内存的学习,我会尽量以通俗易懂的方式…

R语言的基本数学运算

目录 一、对象命名原则 二、基本数学运算 2.1 四则运算 2.2 余数和整除 2.3 次方或平方根 2.4 绝对值 2.5 exp()与对数 2.6 科学符号e 2.7 圆周率与三角函数 2.8 四舍五入函数 2.9 近似函数 2.10 阶乘 三、R语言控制运算的优先级 四、无限大 五、非数字&#xf…