【数据结构与算法】使用哈夫曼编码压缩文本

news2024/9/22 0:58:40

哈夫曼编码原理

哈夫曼编码属于一种基于字符出现频率的贪心算法,其通过构建哈夫曼树,为文本中的每一个字符赋予独一无二的二进制编码。频率较高的字符会被分配较短的编码,而频率较低的字符则会被分配较长的编码,以此达成压缩数据的目标。

构建哈夫曼树的步骤

  1. 统计频率:统计文本中各个字符的出现次数。
  2. 选择频率最低的节点:从统计结果中选择频率最低的两个节点,并将其作为新节点的左右子节点,并将构成的新节点放回。
  3. 构建哈夫曼树:重复步骤2,直到所有节点都被合并为一棵树。

编码与解码过程

  • 编码:利用哈夫曼树为每个字符生成编码。从根节点起始,向左行进表示“0”,向右行进表示“1”,一直抵达叶子节点,叶子节点所对应的字符编码便是该字符的哈夫曼编码。
  • 解码:依据编码逆向遍历哈夫曼树,从根节点出发,读取一位编码,向左走代表“0”,向右走代表“1”,直至抵达叶子节点,输出该节点的字符,而后回退至根节点继续解码。

示例

首先我们给定一个示例文本,并统计各字符的频率

然后选择频率最低的两个节点进行合并
这里因为有多个频率为1的节点,我直接全部连上了(连的方式不唯一,只要连接时选择频率最小的即可)

刚才剩下来的’!'也是频率为1的,随便找个最小的连上就行

现在2是最小的了,就把2连起来变成4

现在剩下的节点权重为2,3,3,4
所以继续2+3=5

3+4=7

5+7=12

这样就构建完成了,我们可以根据这棵树得到编码

结果不唯一,与迭代过程中的选择顺序有关

问题

可能有人会想,我原本1个字符编码后长度不为1了,那不是没有起到压缩的效果吗?
但是我们可以用位来存储,根据不同的字符集,原本一个字符需要7位,8位,16,位甚至32位,现在可以降低出现频率更高的字符的编码长度,那么反映在需要压缩的文本中,压缩比就很可观了。虽然可能会导致低频字符的编码长度变长,但是其频率低,对压缩结果影响不大。所以最终能起到压缩的效果

Python 实现哈夫曼编码

以下是我用Python实现的一个示例
其中在序列化和反序列化的时候因为我们只关心树的结构,所以没有对weight进行处理

# -*- coding: utf-8 -*-
"""
Huffman编码
"""
import os
from collections import Counter
from heapq import *
from typing import Union
from bitarray import bitarray


class HuffmanNode:
    """
    Huffman节点基类
    """
    def __init__(self, weight, ):
        """
        初始化节点权重
        :param weight: 节点权重
        """
        self.weight = weight

    def __lt__(self, other):
        """
        小于运算符重载,用于比较节点权重
        :param other: 另一个节点
        :return: 如果当前节点权重小于另一个节点的权重,则返回True
        """
        return self.weight < other.weight

    def __eq__(self, other):
        """
        等于运算符重载,用于比较节点权重
        :param other: 另一个节点
        :return: 如果当前节点权重等于另一个节点的权重,则返回True
        """
        return self.weight == other.weight

    def __gt__(self, other):
        """
        大于运算符重载,用于比较节点权重
        :param other: 另一个节点
        :return: 如果当前节点权重大于另一个节点的权重,则返回True
        """
        return self.weight > other.weight


class HuffmanTreeNode(HuffmanNode):
    """
    Huffman树节点类,继承自HuffmanNode
    """
    def __init__(self, left, right, weight=None):
        """
        初始化树节点,包含左右子节点和节点权重
        :param left: 左子节点
        :param right: 右子节点
        :param weight: 节点权重,可选
        """
        super().__init__(weight)
        self.left = left
        self.right = right


class HuffmanLeafNode(HuffmanNode):
    """
    Huffman叶子节点类,继承自HuffmanNode
    """
    def __init__(self, char, weight=None):
        """
        初始化叶子节点,包含字符和节点权重
        :param char: 字符
        :param weight: 节点权重,可选
        """
        super().__init__(weight)
        self.char = char


class HuffmanTree:
    """
    Huffman树类,提供编码和解码功能
    """
    @staticmethod
    def create_tree(data: dict):
        """
        根据给定的数据创建Huffman树
        :param data: 包含字符和权重的字典
        :return: 返回Huffman树的根节点
        """
        node = [
            HuffmanLeafNode(key, value) for key, value in data.items()
        ]
        heapify(node)
        while len(node) > 1:
            left = heappop(node)
            right = heappop(node)
            heappush(node, HuffmanTreeNode(left, right, left.weight + right.weight))
        else:
            return heappop(node)

    @staticmethod
    def save_tree_to_file(fp, tree):
        """
        将Huffman树保存到文件中
        :param fp: 文件路径
        :param tree: Huffman树的根节点
        """
        def save_helper(f, tree):
            if isinstance(tree, HuffmanLeafNode):
                f.write('L')
                f.write(f'{tree.char}')
            elif isinstance(tree, HuffmanTreeNode):
                f.write('N')
                save_helper(f, tree.left)
                save_helper(f, tree.right)

        with open(fp, 'w', encoding='utf-8') as f:
            save_helper(f, tree)

    @staticmethod
    def load_tree_from_file(fp):
        """
        从文件中加载Huffman树
        :param fp: 文件路径
        :return: 返回Huffman树的根节点
        """
        def load_helper():

            identifier = f.read(1)

            if identifier == 'L':
                char = f.read(1)
                return HuffmanLeafNode(char)
            elif identifier == 'N':
                left = load_helper()
                right = load_helper()
                return HuffmanTreeNode(left, right)

        with open(fp, 'r', encoding='utf-8') as f:

            return load_helper()

    @staticmethod
    def get_code(root: Union[HuffmanTreeNode, HuffmanLeafNode]):
        """
        获取Huffman编码字典
        :param root: Huffman树的根节点
        :return: 包含字符和对应编码的字典
        """
        if isinstance(root, HuffmanLeafNode):
            return {root.char: ''}
        left_code = HuffmanTree.get_code(root.left)
        right_code = HuffmanTree.get_code(root.right)
        code = {}
        for key, value in left_code.items():
            code[key] = '0' + value
        for key, value in right_code.items():
            code[key] = '1' + value
        return code

    @staticmethod
    def encode(huffmanTree, char: str):
        """
        对字符串进行Huffman编码
        :param huffmanTree: Huffman树的根节点
        :param char: 待编码的字符串
        :return: 编码后的bitarray对象
        """
        encoding_sets = HuffmanTree.get_code(huffmanTree)
        out = bitarray()
        for i in char:
            out.extend(encoding_sets[i])
        return out

    @staticmethod
    def decode(huffmanTree, encoded_data):
        """
        对Huffman编码数据进行解码
        :param huffmanTree: Huffman树的根节点
        :param encoded_data: 编码数据
        :return: 解码后的字符串
        """
        root = huffmanTree
        decoded_characters = []
        i = 0
        n = len(encoded_data)
        while i < n:
            bit = encoded_data[i]
            if isinstance(root, HuffmanLeafNode):
                decoded_characters.append(root.char)
                root = huffmanTree
                continue
            if bit == 0:
                root = root.left
            else:
                root = root.right
            i += 1
        else:
            if isinstance(root, HuffmanLeafNode):
                decoded_characters.append(root.char)

        return ''.join(decoded_characters)

使用的示例如下:


s = "hello world!"
data = Counter(s)

# 构建Huffman树
root = HuffmanTree.create_tree(data)

# 序列化
HuffmanTree.save_tree_to_file('encoding_sets', root)

# 反序列化
root = HuffmanTree.load_tree_from_file('encoding_sets')

# 打印编码集
print(HuffmanTree.get_code(root))

# 编码
e = HuffmanTree.encode(root, s)
print(e)

# 编码结果存为二进制文件
with open('test.bin', 'wb') as f:
    e.tofile(f)

# 解码
d = HuffmanTree.decode(root, ans)
print(d)

现在我们只需要拥有encoding_sets文件和编码结果,就可以进行解码。同时还起到了一定的加密作用,如果没有encoding_sets,即使拿到编码结果,也不容易获得真实的文本。

哈夫曼编码的实践应用

哈夫曼编码不但能够应用于文本数据的压缩,还能够拓展至其他类型的数据压缩领域,例如图像、音频以及视频文件,其核心在于用更短的编码映射原本出现频率高但编码长度大的数据,例如用8bit表示一个像素,我们可以把出现最频繁的压缩为4bit、3bit甚至更低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2075081.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过模板级知识蒸馏进行掩模不变人脸识别

Mask-invariant Face Recognition through Template-level Knowledge Distillation 创新点 1.提出了一种掩模不变人脸识别解决方案&#xff08;MaskInv&#xff09;&#xff0c;该解决方案在训练范式中利用模板级知识蒸馏&#xff0c;旨在生成与相同身份的非蒙面人脸相似的蒙面…

上半年大模型遍地开花,大模型发展中有哪些经验和教训?

前言 过去一年里&#xff0c;大模型遍地开花&#xff0c;我自己也在做大模型训练相关的工作&#xff0c;踩过了很多很多坑&#xff0c;这里分享一些教训&#xff1a;用成熟的分布式训练框架&#xff1a; 多用 DeepSpeed&#xff0c;少用 Pytorch 原生的 torchrun。在节点数量较…

Android settings命令讲解和实战

1&#xff0c;简介 在Android系统中&#xff0c;settings命令用于管理设备设置。这些命令可以与Settings提供者&#xff08;Settings provider&#xff09;交互&#xff0c;后者是一个用于存储和检索系统设置的系统服务。Settings provider在Android系统中可以被看作是一个特殊…

垃圾目标检测数据集

垃圾目标检测数据集。数据集已经标注好&#xff0c;txt标注&#xff0c;YOLO格式&#xff0c;适用于训练YOLO系列目标检测模型&#xff08;YOLO5 YOLO8 YOLO9 YOLO10等&#xff09;数据集已经划分好训练集&#xff08;4526张图&#xff09;验证集&#xff08;1046张图片&#x…

Git 分支操作全解析:创建、切换、合并、删除及冲突解决

“ 在现代软件开发中&#xff0c;高效的版本控制是确保项目成功的关键。Git 提供了强大的分支管理功能&#xff0c;使得开发者能够独立地进行功能开发、修复 bug 和进行紧急修补。本文将深入探讨 Git 分支的基本操作&#xff0c;包括创建、切换、合并和删除分支&#xff0c;同时…

使命同心,六西格玛同行,顶尖人才扎堆来!——张驰咨询

在当今竞争激烈的商业环境中&#xff0c;顶尖人才不仅是企业创新与突破的源泉&#xff0c;更是决定企业成败的关键因素。如何有效吸引并长期留住这些宝贵资源&#xff0c;成为企业家们亟待解决的难题。企业文化、领导风格以及先进的管理方法&#xff0c;如六西格玛&#xff0c;…

两个视频如何合成一个视频?推荐8个视频合并方法

两个视频如何合成一个视频&#xff1f;在数字时代&#xff0c;视频内容的创作和编辑变得越来越普及。无论是在个人项目还是专业制作中&#xff0c;将两个视频合并成一个已成为常见需求。这一操作不仅能提高视频内容的连贯性&#xff0c;还能增强观众的观看体验。下面&#xff0…

大模型火了一年半,AI应用如何实现商业变现?

自ChatGPT走红后&#xff0c;国内AI大模型建设潮起&#xff0c;如今经过一年半的快速发展后&#xff0c;大模型商业化显著提速。自生成式AI席卷各行业以来&#xff0c;市场对AI应用发展的预期高涨&#xff0c;但AI应用似乎陷入“增长难题”&#xff0c;进展不及预期&#xff0c…

Java筑基之路:数组的深入了解学习!

&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d; &#x1f947;博主昵称&#xff1a;小菜元 &#x1f35f;博客主页…

科技温柔拥抱梦乡!康姿百德柔压磁性枕舒适与科技的甜蜜邂逅

解锁未来睡眠新姿势&#xff01;康姿百德柔压磁性枕&#xff0c;科技护航每一夜好梦 在现代家居产品的设计中&#xff0c;科技与舒适性的结合越来越受到人们的关注。康姿百德柔压磁性枕正是一款将科技与舒适结合的产品&#xff0c;为现代生活注入了新的活力。 康姿百德柔压磁性…

【发邮件】 在邮件中添加 (mailto:) 链接的返回电子邮件

&#x1f433;打工人给导师发邮件&#xff0c;注意格式中学到的一个东西&#xff0c;记录一下 发送邮件想达到点击这个邮件就能到收件人的位置&#xff0c;不用跳转。 也就是你点击这个邮件 就能直接给你蹦到发送这个人&#xff0c;然后直接发送 只需要在邮件那个位置 加入超…

语言大模型的分布式训练与高效微调指南

最近语言大模型&#xff08;LLM&#xff09;异常火爆&#xff0c;一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求&#xff0c;出现了许多出色的开源代码库&#xff0c;以HuggingFace生态系统为中心&#xff0c;这些代码库还…

【干货】看看我司消息队列用啥,全网最接地气pulsar教程(含业务解耦demo源码)

前言 &#x1f34a;缘由 消息队列一出手&#xff0c;pulsar就知有没有 &#x1f423;闪亮主角 大家好&#xff0c;我是JavaDog程序狗 今天跟大家分享pulsar&#xff0c;一个分布式的消息发布/订阅传递平台。 本狗以身入局&#xff0c;将pulsar的使用场景&#xff0c;结合实…

【flask框架搭建服务器demo】Python 使用轻量级 Flask 框架搭建 Web 服务器可视化数据库数据demo

本文适合刚入门flask框架用来熟悉项目的开发人员&#xff0c;关于flask框架的组成概念一些用法请参考下面的文章 https://blog.csdn.net/qq_47452807/article/details/122289200 本文主要给出一个可视化sqlite数据库数据的demo&#xff0c;先展示一下效果&#xff1a; 主要的…

前端速通面经八股系列(二)—— HTML篇

HTML高频面经八股目录 1. src和href的区别2. 对HTML语义化的理解3. DOCTYPE(⽂档类型) 的作⽤4. script标签中defer和async的区别5. 常⽤的meta标签有哪些6. HTML5有哪些更新1. 语义化标签2. 媒体标签3. 表单4. 进度条、度量器5.DOM查询操作6. Web存储7. 其他 7. img的srcset属…

Python 图像处理进阶:特征提取与图像分类

特征提取 特征提取是计算机视觉中的一个重要环节&#xff0c;它可以从图像中提取出有助于后续处理的特征&#xff0c;比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。 SIFT&#xff08;尺度不变特征变换&#xff09; SIFT是一种用于检测图像…

Web-ssrfme--redis 未授权访问攻击

目录 1、题目源码 2、测试ssrf 3、发现主机 4、发现服务 5、redis 未授权访问攻击 6&#xff0c;拿flag 1、题目源码 <?php highlight_file(__file__); function curl($url){ $ch curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_HEADER…

用Maven开发Spring Boot 项目

一、初识 Spring Boot Spring Boot框架是一 套开源的后台开发框架&#xff0c; 继承了Spring MVC框架的前辈SSM框架的优秀特性&#xff0c;通过注解大幅减少程序员写配置的工作量。从企业开发角度来看&#xff0c;它提供了自动化配置&#xff0c;内嵌容器和兼容Maven等核心功…

银河麒麟桌面操作系统V10:如何快速将应用固定到任务栏?

银河麒麟桌面操作系统V10&#xff1a;如何快速将应用固定到任务栏&#xff1f; 1、图形界面方法2、命令行方法2.1 固定应用2.2 取消固定 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在银河麒麟V10中&#xff0c;/usr/share/applications…