霍夫曼树：霍夫曼编码(Huffman Tree:Huffman Coding)

news2026/2/12 19:16:38

预计阅读时间：10分钟

一、简介

霍夫曼树常处理符号编写工作。根据整组数据中符号出现的频率高低，决定如何给符号编码。如果符号出现的频率越高，则给符号的码越短，相反符号的号码越长。

相关术语

路径：从书中一个节点到另一个节点之间的分支构成这两个节点的路径。

路径长度：即路径上有多少个分支。

树的路径长度：从树根到每一个节点的路径长度之和。

带权路径长度：从根节点到叶子节点的路程长度与该节点权值的积。

树的带权路径长度：树中所有带权叶子节点的路径长度之和。

霍夫曼编码就是再霍夫曼树上进行实现的。

从树根开始，从待译电文中逐个取码。若编码为0，就往左走；编码为1，就往右走，一旦到达了叶子节点，就是译出了一个字符；在从根出发，直到电文结束。

T:00 ;:00 A:10 C:110 S:111

参考图1：

电文是{CAS;CAT;SAT;AT}

编码就是11010111011101000011111000011000

电文如果是1101000

译文就是CAT

假设我们要给一个英文单字"FORGET"进行霍夫曼编码。

演算过程

（一）进行编码前，要先创建一个霍夫曼树。

⒈将每个英文字母依照出现频率由小排到大，最小在左，如Fig.1；

⒉每个字母都代表一个终端节点（叶节点），比较F.O.R.G.E.T六个字母中每个字母的出现频率，将最小的两个字母频率相加合成一个新的节点。如Fig.2所示，发现F与O的频率最小，故相加2+3=5；

⒊比较5.R.G.E.T，发现R与G的频率最小，故相加4+4=8；

⒋比较5.8.E.T，发现5与E的频率最小，故相加5+5=10；

⒌比较8.10.T，发现8与T的频率最小，故相加8+7=15；

⒍最后剩10.15，没有可以比较的对象，相加10+15=25。

最后产生的树状图就是霍夫曼树。

（二）进行编码

1.给霍夫曼树的所有左链接'0'与右链接'1'；

2.从树根至树叶依序记录所有字母的编码。

二、代码实现

#include <bits/stdc++.h>
using namespace std;
//霍夫曼树的结构
typedef struct
{
    //叶子结点权值
    unsigned int weight;
    //指向双亲，和孩子结点的指针
    unsigned int parent;
    unsigned int lChild;
    unsigned int rChild;
}Node,*HuffmanTree;
//动态分配数组，存储哈夫曼编码
typedef char *HuffmanCode;
//选择两个parent为0，且weight最小的结点s1和s2的方法实现
//n 为叶子结点的总数，s1和 s2两个指针参数指向要选取出来的两个权值最小的结点
void select(HuffmanTree *huffmanTree,int n,int *s1,int *s2)
{
    //标记i
    int i=0;
    //记录最小权值
    int min;
    //遍历全部结点，找出单节点
    for(i=1; i<=n; i++)
    {
        //如果此结点的父亲没有，那么把结点号赋值给 min，跳出循环
        if((*huffmanTree)[i].parent==0)
        {
            min=i;
            break;
        }
    }
    //继续遍历全部结点，找出权值最小的单节点
    for(i=1; i<=n; i++)
    {
        //如果此结点的父亲为空，则进入 if
        if((*huffmanTree)[i].parent==0)
        {
            //如果此结点的权值比 min 结点的权值小，那么更新 min 结点，否则就是最开始的 min
            if((*huffmanTree)[i].weight<(*huffmanTree)[min].weight)
            {
               min=i;
            }
        }
    }
    //找到了最小权值的结点，s1指向
    *s1=min;
    //遍历全部结点
    for(i=1; i<=n; i++)
    {
        //找出下一个单节点，且没有被 s1指向，那么i 赋值给 min，跳出循环
        if((*huffmanTree)[i].parent==0&&i!=(*s1))
        {
            min=i;
            break;
        }
    }
    //继续遍历全部结点，找到权值最小的那一个
    for(i=1; i<=n; i++)
    {
        if((*huffmanTree)[i].parent==0&&i!=(*s1))
        {
            //如果此结点的权值比 min 结点的权值小，那么更新 min 结点，否则就是最开始的 min
            if((*huffmanTree)[i].weight<(*huffmanTree)[min].weight)
            {
                 min=i;
            }
        }
    }
    //s2指针指向第二个权值最小的叶子结点
    *s2=min;
}
//创建霍夫曼树并求霍夫曼编码的算法如下，w数组存放已知的n个权值
void createHuffmanTree(HuffmanTree *huffmanTree, int w[], int n)
{
    //m为哈夫曼树总共的结点数，n为叶子结点数
    int m=2*n-1;
    //s1和s2为两个当前结点里，要选取的最小权值的结点
    int s1;
    int s2;
    //标记
    int i;
    //创建哈夫曼树的结点所需的空间，m+1，代表其中包含一个头结点
    *huffmanTree=(HuffmanTree)malloc((m+1)*sizeof(Node));
    //1--n号存放叶子结点，初始化叶子结点，结构数组来初始化每个叶子结点，初始的时候看做一个个单个结点的二叉树
    for(i=1; i<=n; i++)
    {
        //其中叶子结点的权值是 w[n]数组来保存
        (*huffmanTree)[i].weight=w[i];
        //初始化叶子结点（单个结点二叉树）的孩子和双亲，单个结点，也就是没有孩子和双亲，==0
        (*huffmanTree)[i].lChild=0;
        (*huffmanTree)[i].parent=0;
        (*huffmanTree)[i].rChild=0;
    }
    //非叶子结点的初始化
    for(i=n+1; i<=m; i++)
    {
        (*huffmanTree)[i].weight=0;
        (*huffmanTree)[i].lChild=0;
        (*huffmanTree)[i].parent=0;
        (*huffmanTree)[i].rChild=0;
    }
    printf("\n HuffmanTree: \n");
    //创建非叶子结点，建哈夫曼树
    for(i=n+1; i<=m; i++)
    {
        //在(*huffmanTree)[1]~(*huffmanTree)[i-1]的范围内选择两个parent为0
        //且weight最小的结点，其序号分别赋值给s1、s2
        select(huffmanTree,i-1,&s1,&s2);
        //选出的两个权值最小的叶子结点，组成一个新的二叉树，根为 i 结点
        (*huffmanTree)[s1].parent=i;
        (*huffmanTree)[s2].parent=i;
        (*huffmanTree)[i].lChild=s1;
        (*huffmanTree)[i].rChild=s2;
        //新的结点i的权值
        (*huffmanTree)[i].weight=(*huffmanTree)[s1].weight + (*huffmanTree)[s2].weight;
        printf("%d (%d, %d)\n",(*huffmanTree)[i].weight,(*huffmanTree)[s1].weight,(*huffmanTree)[s2].weight);
    }   
    printf("\n");
}
//哈夫曼树建立完毕，从 n 个叶子结点到根，逆向求每个叶子结点对应的哈夫曼编码
void creatHuffmanCode(HuffmanTree *huffmanTree, HuffmanCode *huffmanCode, int n)
{
    //指示biaoji
    int i;
    //编码的起始指针
    int start;
    //指向当前结点的父节点
    int p;
    //遍历 n 个叶子结点的指示标记 c
    unsigned int c;
    //分配n个编码的头指针
    huffmanCode=(HuffmanCode *)malloc((n+1) * sizeof(char *));
    //分配求当前编码的工作空间
    char *cd = (char *)malloc(n * sizeof(char));
    //从右向左逐位存放编码，首先存放编码结束符
    cd[n-1] = '\0';
    //求n个叶子结点对应的哈夫曼编码
    for(i = 1; i <= n; i++)
    {
        //初始化编码起始指针
        start = n - 1;
        //从叶子到根结点求编码
        for(c = i, p = (*huffmanTree)[i].parent; p != 0; c = p, p = (*huffmanTree)[p].parent)
        {
            if( (*huffmanTree)[p].lChild == c)
            {
                //从右到左的顺序编码入数组内
                 cd[--start] = '0';  //左分支标0
            }
            else
            {
                cd[--start] = '1';  //右分支标1
            }
        }// end of for
        //为第i个编码分配空间
        huffmanCode[i] = (char *)malloc((n - start) * sizeof(char));
        strcpy(huffmanCode[i], &cd[start]);
    }
    free(cd);
    //打印编码序列
    for(i=1; i<=n; i++)
    {
         printf("HuffmanCode of %3d is %s\n", (*huffmanTree)[i].weight, huffmanCode[i]);
    }
    printf("\n");
}
int main()
{
    HuffmanTree HT;
    HuffmanCode HC;
    int *w,i,n,wei,m;
    printf("\nn = " );
    scanf("%d",&n);
    w=(int *)malloc((n+1)*sizeof(int));
    printf("\ninput the %d element's weight:\n",n);
    for(i=1; i<=n; i++)
    {
        printf("%d: ",i);
        fflush(stdin);
        scanf("%d",&wei);
        w[i]=wei;
    }
    createHuffmanTree(&HT, w, n);
    creatHuffmanCode(&HT,&HC,n);
    return 0;
}

参考文献：

【C++】霍夫曼树与编码（原理详细&代码注释）_米莱虾的博客-CSDN博客哈夫曼树（最优二叉树）❥分享大一所做笔记❥知识点解析WPL：树的所有叶结点的带权路径长度之和，称为树的带权路径长度表示为WPL不带权值的话，完全（满）二叉树的路径长度最小最优二叉树 != 最佳判定树权值相等或不存在的话，最优二叉树就是完全二叉树代码（注释详细）#include <bits/stdc++.h>using namespace std;//haffman 树的结构ty...https://blog.csdn.net/Luoxiaobaia/article/details/122460555以上就是本文的全部内容啦！感谢阅读！