基于C语言实现文件压缩与解压缩算法

news2024/9/22 5:37:13

在这里插入图片描述

引言

随着互联网的发展,数据传输和存储的需求日益增长,文件压缩技术成为提高数据处理效率的关键技术之一。压缩技术不仅可以减少存储空间的需求,还能加快数据在网络中的传输速度。霍夫曼编码作为一种有效的无损数据压缩算法,广泛应用于各种场景。本文将详细介绍如何使用C语言实现霍夫曼编码算法,并通过具体的代码实例展示其工作原理。

霍夫曼编码简介

霍夫曼编码是由David A. Huffman于1952年提出的,它是一种统计编码方法,用于根据符号出现的概率来创建最优前缀码。霍夫曼编码的主要优点在于它能够有效地减少冗余信息,使得最常见的字符拥有最短的编码,而较少见的字符则使用较长的编码。这种方法保证了编码的唯一性和高效性。

算法实现步骤

实现霍夫曼编码的过程可以分为以下几个步骤:

  1. 计算字符频率:统计每个字符在文本中出现的次数。
  2. 构建霍夫曼树:根据字符频率构建一棵二叉树,其中叶子节点代表字符。
  3. 生成霍夫曼编码:从根节点到每个叶子节点的路径代表该叶子节点对应的字符编码。
  4. 编码与解码:使用生成的编码表对原始数据进行编码,或将编码后的数据进行解码还原成原数据。

C语言实现

在这里插入图片描述

接下来,我们将逐步展示如何在C语言中实现上述步骤。

1. 计算字符频率

首先,我们需要统计给定文本中各个字符的出现次数。这可以通过遍历文本并使用一个数组来记录每个字符的频率来完成。

#include <stdio.h>
#include <string.h>

#define MAX_SYMBOLS 256

// 结构体定义
typedef struct {
    unsigned int freq;
    char symbol;
} SymbolFreq;

// 函数声明
void countFrequency(const char *input, SymbolFreq *freqs);

int main() {
    const char *text = "This is an example text to demonstrate Huffman encoding.";
    SymbolFreq freqs[MAX_SYMBOLS] = {0};

    countFrequency(text, freqs);

    // 打印字符频率
    for (int i = 0; i < MAX_SYMBOLS; ++i) {
        if (freqs[i].freq > 0) {
            printf("Symbol '%c' Frequency: %d\n", freqs[i].symbol, freqs[i].freq);
        }
    }

    return 0;
}

// 计算字符频率
void countFrequency(const char *input, SymbolFreq *freqs) {
    for (int i = 0; input[i]; ++i) {
        freqs[(unsigned char)input[i]].freq++;
    }
}

2. 构建霍夫曼树

霍夫曼树的构建过程是通过创建一个最小堆来实现的。最小堆中的每个元素都是一个节点,包含字符频率和指向左右子树的指针。我们不断合并两个具有最低频率的节点,直到只剩下一个节点为止。

#include <stdlib.h>
#include <assert.h>

// 节点结构体
typedef struct Node {
    unsigned int freq;
    char symbol;
    struct Node *left, *right;
} Node;

// 最小堆结构体
typedef struct MinHeap {
    Node **array;
    size_t size;
    size_t capacity;
} MinHeap;

// 最小堆初始化
void minHeapInit(MinHeap *heap, size_t capacity);
// 将节点添加到最小堆
void minHeapPush(MinHeap *heap, Node *node);
// 从最小堆中删除最小元素
Node *minHeapPop(MinHeap *heap);

// 构建霍夫曼树
void buildHuffmanTree(SymbolFreq *freqs, Node **root);

由于篇幅原因,这里省略了最小堆的具体实现细节。构建霍夫曼树的函数如下:

void buildHuffmanTree(SymbolFreq *freqs, Node **root) {
    MinHeap heap;
    minHeapInit(&heap, MAX_SYMBOLS);

    // 创建并插入单个字符节点
    for (int i = 0; i < MAX_SYMBOLS; ++i) {
        if (freqs[i].freq > 0) {
            Node *node = malloc(sizeof(Node));
            node->freq = freqs[i].freq;
            node->symbol = freqs[i].symbol;
            node->left = NULL;
            node->right = NULL;
            minHeapPush(&heap, node);
        }
    }

    // 合并节点直到只剩下一个
    while (heap.size > 1) {
        Node *left = minHeapPop(&heap);
        Node *right = minHeapPop(&heap);

        Node *top = malloc(sizeof(Node));
        top->freq = left->freq + right->freq;
        top->symbol = '\0';
        top->left = left;
        top->right = right;

        minHeapPush(&heap, top);
    }

    *root = heap.array[0];
}

3. 生成霍夫曼编码表

一旦霍夫曼树构建完成,我们可以从树的根节点开始递归遍历树,为每个叶子节点生成编码。

typedef struct Code {
    char code[MAX_SYMBOLS];
} Code;

// 生成霍夫曼编码
void generateCodes(Node *node, char *code, int index, Code *codes);

编码生成函数如下所示:

void generateCodes(Node *node, char *code, int index, Code *codes) {
    if (node == NULL) return;
    if (!node->left && !node->right) {
        codes[node->symbol].code[index] = '\0';
        return;
    }
    code[index] = '0';
    generateCodes(node->left, code, index + 1, codes);
    code[index] = '1';
    generateCodes(node->right, code, index + 1, codes);
}

4. 文件压缩

有了霍夫曼编码表后,我们就可以开始对文件进行压缩了。压缩过程涉及读取原始文件,查找每个字符对应的编码,并将编码写入新的压缩文件。

// 压缩文件
void compressFile(const char *inputFile, const char *outputFile, Code *codes);

文件压缩的实现如下:

void compressFile(const char *inputFile, const char *outputFile, Code *codes) {
    FILE *in = fopen(inputFile, "r");
    FILE *out = fopen(outputFile, "wb"); // 以二进制模式打开文件

    assert(in && "Failed to open input file.");
    assert(out && "Failed to open output file.");

    char ch;
    while ((ch = fgetc(in)) != EOF) {
        // 假设我们直接输出编码字符串到文件
        fwrite(codes[ch].code, sizeof(char), strlen(codes[ch].code), out);
    }

    fclose(in);
    fclose(out);
}

5. 文件解压缩

解压缩过程则是压缩过程的逆过程。从压缩文件中读取编码,并使用霍夫曼树将其解码回原来的字符。

// 解压文件
void decompressFile(const char *inputFile, const char *outputFile, Node *root);

解压函数的实现如下:

void decompressFile(const char *inputFile, const char *outputFile, Node *root) {
    FILE *in = fopen(inputFile, "rb"); // 以二进制模式打开文件
    FILE *out = fopen(outputFile, "w");

    assert(in && "Failed to open input file.");
    assert(out && "Failed to open output file.");

    char bit;
    Node *current = root;
    while ((bit = fgetc(in)) != EOF) {
        current = (bit == '0') ? current->left : current->right;
        if (!current->left && !current->right) {
            fputc(current->symbol, out);
            current = root;
        }
    }

    fclose(in);
    fclose(out);
}

总结

本文通过详细的步骤和示例代码展示了如何使用C语言实现霍夫曼编码算法。我们从统计字符频率开始,构建了霍夫曼树,并生成了霍夫曼编码表。接着实现了对文件的压缩和解压缩功能。霍夫曼编码虽然简单,但在实际应用中非常有效。对于更复杂的压缩需求,还可以考虑结合其他技术如LZ77/LZ78等来进一步提升压缩比和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2097454.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何为你的 LLM 应用选择最合适的 Embedding 模型

如果你正在构建 2024 年的生成式人工智能&#xff08;GenAI&#xff09;应用&#xff0c;你现在可能已经听过几次 "嵌入&#xff08;embedding&#xff09; "这个词了&#xff0c;而且每周都能看到新的嵌入模型上架。 那么&#xff0c;为什么会有这么多人突然关心起嵌…

ElasticSearch 集群索引和分片的CURD

一、ES集群的索引 背景&#xff1a;Elasticsearch会对所有输入的文本进行处理&#xff0c;建立索引放入内存中&#xff0c;从而提高搜索效率。在这一点上ES优于MYSQL的B树的结构&#xff0c;MYSQL需要将索引放入磁盘&#xff0c;每次读取需要先从磁盘读取索引然后寻找对应的数据…

OpenAI Gym custom environment: Discrete observation space with real values

题意&#xff1a;OpenAI Gym 自定义环境&#xff1a;具有实数值的离散观测空间 问题背景&#xff1a; I would like to create custom openai gym environment that has discrete state space, but with float values. To be more precise, it should be a range of values wi…

翻译软件 Fastrans 开发日志 #2

就过了几天&#xff0c;我的 Fastrans 项目&#xff08; https://github.com/YaoqxCN/Fastrans &#xff09;又更新了两个版本&#xff0c;现在是 v1.1.1。&#xff08;求个 star 谢谢&#xff01;&#xff09; 上次我初步实现了 Fastrans 的翻译功能以及 UI&#xff0c;可以看…

【C++ Primer Plus习题】8.1

问题: 解答: #include <iostream> using namespace std;void print(const char* str) {cout << str << endl; }void print(const char* str,int size) {static int count 0;count;for (int i 0; i < count; i){cout << str << endl;} }int…

机器学习数学公式推导之线性回归

文章目录 线性回归一、最小二乘法1.1 范数的概念1.2 最小二乘法的推导1.3 几何意义 二、噪声为高斯分布的 MLE2.1 LSE&#xff08;最小二乘估计&#xff09;2.2 MLE&#xff08;极大似然估计&#xff09;2.3 LSE与MLE的联系与区别 三、权重先验也为高斯分布的 MAP四、正则化4.1…

APO的接口级拓扑 VS Dynatrace ServiceFlow

在可观测性系统中&#xff0c;几乎所有的产品都会提供拓扑功能。大部分用户在初看这个拓扑之时都会觉得非常有用&#xff0c;但是一旦真实落地使用&#xff0c;就感觉这个拓扑比较鸡肋。这篇文章重点探讨APO团队是如何考虑让用户能够更好的使用拓扑&#xff0c;真正发挥出拓扑的…

OpenCV绘图函数(14)图像上绘制文字的函数putText()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 在图像上绘制指定的文本字符串。 cv::putText 函数在图像上绘制指定的文本字符串。无法使用指定字体渲染的符号会被问号&#xff08;?&#xff…

从理论层面设计简单的电池管理系统(BMS)

前言 最近阅读了《便携式设备的电池电源管理》和《大规模锂离子电池管理系统》这两本书&#xff0c;都是比较容易入门的BMS书籍&#xff0c;书中作者做了很多深层次的思考&#xff0c;所以我摘抄了一些部分&#xff1b;同时结合我个人的项目经验及一些理解&#xff0c;整理成这…

中核武汉首位“数字员工”报到,实在智能提供RPA技术解决方案

近期新员工入职季&#xff0c;中核武汉核电运行技术股份有限公司&#xff08;以下简称“中核武汉”&#xff09;迎来了一位“看不见的新同事”——公司首位数字员工“武小数”。“武小数”基于先进的机器人流程自动化技术&#xff08;RPA&#xff09;诞生&#xff0c;结合OCR图…

c++线程库操作

一、函数介绍 1、构造函数 无参构造函数&#xff1a; thread thd thread(); 有参构造函数&#xff1a; template<class Fn, class... Arg> Fn&#xff1a;可调用对象&#xff08;函数指针&#xff0c;仿函数&#xff0c;lambda表达式&#xff0c;包装器&#xff09…

掌握 ERP 进销存系统源码,实现企业精准管理 带源代码包以及搭建部署教程

系统概述 ERP 进销存系统源码是一套基于先进技术架构开发的企业管理解决方案。它涵盖了企业采购、销售、库存管理等核心业务领域&#xff0c;通过信息化手段实现了数据的实时共享、流程的优化整合以及决策的科学支持。 该系统源码采用了模块化设计理念&#xff0c;各个模块之…

传输层(多路复用与解复用)

目录 1.概述传输层服务 传输服务和协议 传输层 VS 网络层 类比&#xff1a;两个家庭的通信 Internet传输层提供的服务 2.多路复用与解复用 多路复用/解复用 多路复用的工作原理 无连接&#xff08;UDP&#xff09;多路复用 UDP多路复用例子 UDP多路解复用例子 面向连…

【Python报错已解决】ValueError: cannot reindex from a duplicate axis

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引言&#xff1a; 当处理Pandas数据框&#xff08;DataFrame&#xff09;时&#xff0c;你是否遇到过ValueError: cannot reind…

零知识证明-公钥分发方案DH((六)

前言 椭圆曲线配对&#xff0c;是各种加密构造方法(包括 确定性阀值签名、zk-SNARKs以及相似的零知识证明)的关键元素之一。椭圆曲线配对(也叫“双线性映射”)有了30年的应用历史&#xff0c;然而最近这些年才把它应用在密码学领域。配对带来了一种“加密乘法”的形式&#xff…

VLAN原理和配置

VLAN技术可以将一个物理局域网在逻辑上划分成多个广播域&#xff0c;也就是多个VLAN。VLAN技术部署在数据链路层&#xff0c;用于隔离二层流量。同一个VLAN内的主机共享同一个广播域&#xff0c;它们之间可以直接进行二层通信。 VLAN标签长4个字节&#xff0c;直接添加在以太网…

轻松享受远程办公:可道云teamOS,让自由与效率同行

职场生活中&#xff0c;我们常常会因为工作需要而面临出差的情况。在这种情况下&#xff0c;如何能与不在身边的公司同事组员&#xff0c;保持高效协作&#xff0c;就显得尤为重要了。 移动办公新体验 记得有一次&#xff0c;我正在外地参加一个重要的商务会议&#xff0c;突…

佰朔资本:8.87亿人次!全国铁路 暑运发送旅客创历史同期新高

记者1日从我国国家铁路集团有限公司得悉&#xff0c;8月31日&#xff0c;为期62天的铁路暑运圆满结束。7月1日至8月31日&#xff0c;全国铁路累计发送旅客8.87亿人次&#xff0c;同比增长6.7%&#xff0c;日均发送旅客1431.2万人次&#xff0c;创暑运旅客发送量前史新高&#x…

如何恢复图库里的照片?照片恢复有道,最后一招更有效!

在今天&#xff0c;手机里的照片不仅是记忆的载体&#xff0c;更是我们情感的寄托。然而&#xff0c;当我们在查看照片时不小心删除或丢失重要照片的情况时有发生&#xff0c;这可能会让我们感到后悔和焦虑。我们也会想&#xff1a;如何恢复图库里的照片呢&#xff1f;失去的照…

Upscayl 采用开源人工智能技术,可以增强低分辨率图像的效果。

Upscayl 是一款免费开源的基于 AI 神经网络与深度学习的「图片画质提升 / 超分辨率软件」&#xff0c;可以做到“无损放大图片”&#xff0c;让你轻松将任意分辨率的图片、照片、壁纸放大到高清、超清甚至 4K 水平&#xff0c;大幅提升图片细节表现与清晰度&#xff01;效果比起…