Trie树/字典树的原理及实现[C/C++]

news2025/1/11 17:45:29

文章目录

  • 前言
    • 引例:Google经典面试题
    • 字典树的原理与实现
      • 定义
      • 字典树的结构
      • 字典树的操作
        • 字符串插入
        • 字符串查询
      • 字典树的实现
        • 字符集数组法
          • 节点类结构设计
            • 节点的接口
            • 字符映射
            • 节点类的代码实现
          • 字典树类结构设计
            • 字典树接口实现
        • 字符集映射法(适用性广)
          • 节点类结构设计
            • 节点类的代码实现
          • 字典树类结构设计

前言

我们学习过很多字符串查询的算法,暴搜,KMP、BM、RK等字符串匹配算法,这些都是在文本中去查找我们的模式串。我们在搜索引擎的输入栏中输入时,常常仅输入了前缀,下面就给我们列出了几个含有此前缀的搜索项,这难道也是我们的字符串匹配算法吗?通过对字典树Trie的学习,相信会对此有所理解。

引例:Google经典面试题

经典面试题:搜索提示(自动补全)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何根据用户输入的关键字,从我们的语料库中提取出一些用户可能想要的关键字呈现给用户呢?

用一棵字典树去存储一些语料库,根据用户输入的前缀去给出我们相应的字符串。

字典树的原理与实现

定义

字典树,又称trie树,是一种树形的数据结构。可以用作词频统计,利用字符串的公共前缀来减少查询时间。一般用来查找某个字符串S是否在一个字符串集合中。

字典树的结构

假如我们用字典树存储了如下单词集合:to,a,tea,ted,test,ice

那么对应的字典树如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于上图:

  • 每个节点都有对应下标,便于访问
  • 下标从0开始,root用0标识
  • 节点不存储字符,边存储字符
  • 黄色节点代表有字符串该节点处结束

字典树的操作

字典树一般提供两种操作,插入和删除,都只需要遍历一遍字符串即可。

字符串插入

字符串的插入就是对字符串的遍历。

插入算法实现如下:

  • 定义当前结点为字典树根结点root, 遍历给定字符串s;
  • 对于字符串第i个字符s[i],查询当前结点是否有s[i] 这个子结点;
    • 如果不存在,则创建一个新结点;
    • 如果存在,不作处理;
  • 更新当前结点为原当前结点的i号子结点;
  • 遍历完毕字符串s后在当前结点打上一个标记,标识结尾结点;

以前面的例子为例,如下动画展示了字符串插入过程:

在这里插入图片描述

初始只有一个root节点,第一个插入字符串是“to”,root就扩展成了如下单链结构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

插入“a”,root由于没有’a’子节点的存在,所以又创建了’a’

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

插入“tea”,由于有“t“这一公共前缀的存在,所以我们只需要创建额外的’e’,‘a’

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于“ted”和“test”则类似

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

插入“ice”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如此,就完成了我们Trie的构造,假设字符串长度为m,一共插入n次,每次插入时间复杂度为O(m).总的时间复杂度就是O(nm)

字符串查询

字符串的查询也是对字符串的遍历。

查询算法实现如下:

  • 定义当前结点cur为字典树根结点root, 遍历给定字符串s;
  • 对于字符串第i个字符s[i],查询当前结点是否有s[i]这个子结点;
    • 如果不存在,则返回false;
    • 如果存在,不作处理;
  • 更新当前结点为原当前结点的i号子结点;
  • 遍历完毕字符串s后,对当前结点cur判断是否存在结尾标记,存在则返回true,否则返回
    false;

我们仍以前面的字典树为例,进行“test”的查询,先从root寻找‘t’,到达节点1,再在节点1寻找‘e’,到达节点4,再在节点4寻找’s‘,到达节点7,再在节点7寻找’t‘,到达节点8,至此字符串遍历结束,而8号节点有结束标记,所以”test“在字典树中

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是如果我们查询”tes“,我们发现到7号节点结束,但是7号节点没有结束标志,所以”tes“不在字典树中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

字典树的实现

对于我们的字符有时会是大小写字母,有时会是数字,有时二者兼用,但对于不同的情况我们可以选择更为适合的Trie实现方式,这里我们介绍两种:字符集数组法和字符集映射法。

字符集数组法

每个结点保存一个长度固定为字符集大小(例如26)的数组,以字符为下标,保存指向的结点下标(不存指针是因为64位平台下指针为8字节,而int只有4字节),空间复杂度为O(结点数*字符集大小),查询的时间复杂度为O(单词长度)
适用于较小字符集,或者单词短、分布稠密的字典

对于字典树,我们要设计两个类:节点类和字典树类。

节点类结构设计

对于节点类,我们要存储三个信息:结尾标记、词频统计、子节点数组。

这里对于子节点数组特殊说明,子节点数组可以直接存储子节点的地址,这是较为简单且直观的实现方法

但是这里我把所有创建的节点都放在了字典树类里面的一个数组里,这样我们可以用在节点中存储子节点下标的方式来完成对子节点的间接索引,因为64位平台上int为4字节,而指针为8字节,这样节省空间。

代码定义如下:

template <class HashFunc>//字符下标映射,后面再讲
struct TrieNode
{
    TrieNode();//构造函数
    
    bool isexist(int idx);//子节点查询
    bool isword();//当前节点是否是单词结尾
    
    void addnode(int idx, int node_idx);//增加子节点,子节点下标为node_idx
    int getNode(int idx);//获取子节点的下标

    void setword();//设置为单词结尾
    void addcnt();//增加词频
    
    bool _isword;//单词结尾标记
    int _cnt;//词频
    vector<int> _nodes;//子节点数组
};
  1. _isword即单词结尾标记,bool类型变量,完成一个字符串的插入后,在对应的末尾节点标记为true。
  2. 记从根节点到当前节点的字符串为s,则_cnt就是字典树中以s为前缀的字符串数目
  3. _nodes即一段连续数组,存储了每个子节点的下标
节点的接口
接口名称接口描述
isexist判断idx对应字符是否在子节点中
isword判断当前节点是否为单词结尾
addnode增加idx对应字符的子节点
getnode得到idx对应字符的子节点指针
setword设置当前节点为单词结尾
字符映射

字符都有对应的ASCII值,显然不能直接用来作为下标,通常都要进行转换,我们选择把对应的映射方式封装成仿函数,然后把仿函数的选择作为我们的模板参数,这样就实现了泛化。

小写字母下标映射

typedef struct HashLower // 小写字母映射
{
    int operator()(char ch)
    {
        return ch - 'a';
    }
    static const int _capacity;
} Lower;

大写字母下标映射

typedef struct HashUpper // 大写字母映射
{
    int operator()(char ch)
    {
        return ch - 'A';
    }
    static const int _capacity;
} Upper;

大小写混合字母下标映射

typedef struct Hash_U_L // 大小写字母混合映射
{
    int operator()(char ch)
    {
        if (ch >= 'a' && ch <= 'z')
            return ch - 'a';
        return ch - 'A' + 26;
    }
    static const int _capacity;
} U_L;

数字字符下标映射

typedef struct HashDigit // 数字字符映射
{
    int operator()(char ch)
    {
        return ch ^ 48;
    }
    static const int _capacity;
} Digit;

映射容量的设置
我们发现几个仿函数内都存放了_capacity这样一个静态整型常量,这是出于大小写字母各有26个,而大小写混合字母一共有52个,数字字符只有10个,所以不同的字符选择对应了不同的容量,而在不同的仿函数内通过设置静态变量存储容量可以很好的解决此问题,类方法的可维护性也很强。

const int HashLower::_capacity = 26;
const int HashUpper::_capacity = 26;
const int Hash_U_L::_capacity = 52;
const int HashDigit::_capacity = 10;
节点类的代码实现
template <class HashFunc>
struct TrieNode
{
    TrieNode() : _isword(false), _cnt(0), _nodes(HashFunc::_capacity, -1)
    {
    }

    ~TrieNode()
    {
    }
    bool isexist(int idx)
    {
        return _nodes[idx] != -1;
    }
    bool isword()
    {
        return _isword;
    }
    void addnode(int idx, int node_idx)
    {
        _nodes[idx] = node_idx;
    }
    int getNode(int idx)
    {
        return _nodes[idx];
    }
    void setword()
    {
        _isword = true;
    }
    void addcnt()
    {
        _cnt++;
    }
    bool _isword;
    int _cnt;
    vector<int> _nodes;
};
字典树类结构设计
template <class HashFunc>
class Trie
{
private:
    HashFunc hash_id;//采用的字符映射
    typedef TrieNode<HashFunc> Node;

public:
    Trie() : _root(1, Node())//初始化根节点
    {
    }

    void insert(const string &str);//插入字符串
    bool search(const string &str);//字符串查询
    
    Node *root();//对根节点封装
    Node *to_Node(int node_idx);//获取下标为node_idx的节点
    Node *genNode(int curidx);//产生新结点,返回curidx下标的节点地址

private:
    vector<Node> _root;
};
接口接口描述
insert插入字符串
search字符串查询
root对根节点封装
to_Node获取下标为node_idx的节点
genNode产生新结点,返回curidx下标的节点地址
字典树接口实现

插入

前面已经进行过插入算法描述,直接看代码。

遍历字符串,子节点不存在对应字符就创建节点,当前节点移动到子节点,增加词频

这里解释下为什么cur在每次创建节点后都要重新定位,因为vector是一个动态增容的容器,底层用的是T*去存储,每次增容都会析构原有元素,再重新创建,导致我们的cur可能失效,所以要重定位。(其实可以直接用Node*代替vector,注意增容就行了,这里我强迫症,喜欢用vector,其实不太好)

  void insert(const string &str)
    {
        int idx, curidx = 0;
        Node *cur = root();
        for (auto ch : str)
        {
            idx = hash_id(ch);
            if (!cur->isexist(idx))
            {
                cur = genNode(curidx);
                cur->addnode(idx, _root.size() - 1);
            }
            curidx = cur->getNode(idx);
            cur = to_Node(curidx);
            cur->addcnt();
        }
        cur->setword();
    }

查询

遍历字符串,判断存不存在即可

    bool search(const string &str)
    {
        int idx;
        Node *cur = root();
        for (auto ch : str)
        {
            idx = hash_id(ch);
            if (!cur->isexist(idx))
            {
                return false;
            }
            cur = to_Node(cur->getNode(idx));
        }
        return cur->isword();
    }

其他简单接口直接给出

    Node *root()
    {
        return &_root[0];
    }
    Node *to_Node(int node_idx)
    {
        return &_root[node_idx];
    }
    Node *genNode(int curidx)
    {
        _root.emplace_back(Node());
        return &_root[curidx];
    }
字符集映射法(适用性广)

前面的字符集数组法,虽然也进行了泛化处理,但是适用性还是有些局限,把每个结点上的字符集数组改为一个映射(unordered_map),空间复杂度为O(文本字符总数),查询的时间复杂度为O(单词长度),但常数稍大一些,适用性更广

节点类结构设计
struct TrieNode
{
    TrieNode();//构造函数
    
    bool isexist(int idx);//子节点查询
    bool isword();//当前节点是否是单词结尾
    
    void addnode(int idx, int node_idx);//增加子节点,子节点下标为node_idx
    int getNode(int idx);//获取子节点的下标

    void setword();//设置为单词结尾
    void addcnt();//增加词频
    
    bool _isword;//单词结尾标记
    int _cnt;//词频
    unordered_map<char, int> _nodes;//子节点映射
};

_nodes从数变为了映射,这样就不需要HashFunc来对字符下标进行映射了,也不需要单独处理容量

节点类的代码实现

由于代码基本和前面如出一辙所以直接给出代码

    struct TrieNode
    {
        TrieNode() : _isword(false), _cnt(0)
        {
        }

        ~TrieNode()
        {
        }
        bool isexist(char ch)
        {
            return _nodes.count(ch);
        }
        bool isword()
        {
            return _isword;
        }
        void addnode(char ch, int node_idx)
        {
            _nodes[ch] = node_idx;
        }
        int getNode(char ch)
        {
            return _nodes[ch];
        }
        void setword()
        {
            _isword = true;
        }
        void addcnt()
        {
            _cnt++;
        }
        bool _isword;
        int _cnt;
        unordered_map<char, int> _nodes;
    };
字典树类结构设计

同样的,字典树类只是删去了映射仿函数而已

class Trie
    {
    private:
        typedef TrieNode Node;

    public:
        Trie() : _root(1, Node())
        {
        }

        void insert(const string &str)
        {
            int idx, curidx = 0;
            Node *cur = root();
            for (auto ch : str)
            {
                if (!cur->isexist(ch))
                {
                    cur = genNode(curidx);
                    cur->addnode(ch, _root.size() - 1);
                }
                curidx = cur->getNode(ch);
                cur = to_Node(curidx);
                cur->addcnt();
            }
            cur->setword();
        }
        bool search(const string &str)
        {
            int idx;
            Node *cur = root();
            for (auto ch : str)
            {
                if (!cur->isexist(ch))
                {
                    return false;
                }
                cur = to_Node(cur->getNode(ch));
            }
            return cur->isword();
        }
        Node *root()
        {
            return &_root[0];
        }
        Node *to_Node(int node_idx)
        {
            return &_root[node_idx];
        }
        Node *genNode(int curidx)
        {
            _root.emplace_back(Node());
            return &_root[curidx];
        }

    private:
        vector<Node> _root;
    };

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1128211.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

idea使用Alibaba Cloud Toolkit实现自动部署

在日常开发过程中&#xff0c;经常会使用到jenkins进行项目部署&#xff0c;但对一些小项目来说&#xff0c;这就过于复杂&#xff0c;就可以使用Alibaba Cloud Toolkit插件配合shell脚本进行项目的远程部署工作。 一、下载Alibaba Cloud Toolkit插件 二、服务器安装nohup 1.…

数据分享 I 地级市人口和土地使用面积基本情况

数据地址&#xff1a; 地级市人口和土地使用面积基本情况https://www.xcitybox.com/datamarketview/#/Productpage?id394 基本信息. 数据名称: 地级市人口和土地使用面积基本情况 数据格式: ShpExcel 数据时间: 2021年 数据几何类型: 面 数据坐标系: WGS84坐标系 数据…

手把手实现简易版vue(二)组件类解析

1、构造器 constructor(propsArgus {}) {const {data () > {},methods {},watch {},computed {}, // 待实现props {}, // 待实现created () > {}, // created钩子函数mounted () > {}, // mounted钩子函数destroyed () > {} // destroyed钩子函数} props…

MySQL云数据库5.5导入到自建MySQL数据库5.7

有一个MySQL云数据库&#xff0c;版本比较老&#xff0c;是5.5. 需要在线下搭建一个测试环境&#xff0c;所以需要将数据还原到一个自建MySQL数据库内。 5.5已经很难找到了&#xff0c;所以安装了一个5.7. 云数据库设置的备份&#xff0c;使用的是全复制文件方法。 还原数据…

电源效率测试标准你知道多少?纳米软件带您了解

电源效率是衡量电源能源利用率和电源质量的重要指标&#xff0c;是电源模块测试的一个重要测试项目。对于电源效率各个国家都有自己的标准&#xff0c;以此来判断能量转换效率&#xff0c;促进提升能源利用率。 什么是电源效率标准? 电源效率标准是衡量电源能量转换率的指标&a…

Spark-Core

Spark简介 Spark-Core核心算子 Spark-Core 文章目录 一、RDD 编程1、RDD序列化1.2 Kryo序列化框架 2、RDD依赖关系2.1 查看血缘关系2.2 查看依赖关系2.3 窄依赖2.4 宽依赖2.5 Stage任务划分 3、RDD 持久化3.1 Cache缓存3.2 CheckPoint检查点3.3 缓存和检查点区别3.4 检查点存储…

天锐绿盾加密软件——企业数据透明加密、防泄露系统

天锐绿盾是一种企业级数据透明加密、防泄密系统&#xff0c;旨在保护企业的核心数据&#xff0c;防止数据泄露和恶意攻击。它采用内核级透明加密技术&#xff0c;可以在不影响员工正常工作的前提下&#xff0c;对需要保护的数据进行加密操作。 PC访问地址&#xff1a; https:/…

基于springboot基于会员制医疗预约服务管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot基于会员制医疗预约服务管理系统演示 摘要 会员制医疗预约服务管理信息系统是针对会员制医疗预约服务管理方面必不可少的一个部分。在会员制医疗预约服务管理的整个过程中&#xff0c;会员制医疗预约服务管理系统担负着最重要的角色。为满足如今日益复杂的管理需…

公司新品上市,如何做好新品发布会宣传

公司新品上市不仅展现了公司的生命力与活力&#xff0c;还代表了公司与时俱进的创新力&#xff0c;积极听取用户反馈的服务精神&#xff0c;而公司新品上市时都会举办新品发布会&#xff0c;今天媒介盒子就来和大家分享&#xff0c;公司如何做好新品发布会的宣传。 一、 撰写活…

2023年中国潜水电机行业现状及前景分析[图]

潜水电机是一种特殊设计的电动机&#xff0c;通常用于水下应用。它们被设计成能够在液体环境中工作&#xff0c;通常是在水中或其他液体中&#xff0c;而且能够在潜水的情况下继续正常运行。潜水电机通常具有防水性能和耐腐蚀性&#xff0c;以适应恶劣的水下环境。 潜水电机行…

Java实现连接SQL Server解决方案及代码

下面展示了连接SQL Server数据库的整个流程&#xff1a; 加载数据库驱动建立数据库连接执行SQL语句处理结果关闭连接 在连接之前&#xff0c;前提是确保数据库成功的下载&#xff0c;创建&#xff0c;配置好账号密码。 运行成功的代码&#xff1a; import java.sql.*;publi…

点集合的三角剖分

点集合的三角剖分是指如何将一些离散的点集合组合成不均匀的三角形网格&#xff0c;使得每个点成为三角网中三角面的顶点。这个算法的用处很多&#xff0c;一个典型的意义在于可以通过一堆离散点构建的TIN实现对整个构网区域的线性控制&#xff0c;比如用带高程的离散点构建的T…

Windows网络监视工具

对于任何规模的企业来说&#xff0c;网络管理在信息技术中都起着至关重要的作用。管理、监控和密切关注网络基础设施对任何组织都至关重要。在Windows网络中&#xff0c;桌面&#xff0c;服务器&#xff0c;虚拟服务器和虚拟机&#xff08;如Hyper-V&#xff09;在Windows操作系…

医院电力系统智能能效监控平台的应用

0引言 随着社会和科学技术的发展&#xff0c;配电系统的智能化已经成为一种发展趋势。医院建设电力智能监控平台&#xff0c;可对供电系统进行集中管理和调度、实时控制和数据采集&#xff0c;监控供电系统设备的运行情况&#xff0c;及时掌握和处理供电系统的各种事故、报警事…

Day07 Stream流递归Map集合Collections可变参数

Stream 也叫Stream流&#xff0c;是Jdk8开始新增的一套API (java.util.stream.*)&#xff0c;可以用于操作集合或者数组的数据。 Stream流大量的结合了Lambda的语法风格来编程&#xff0c;提供了一种更加强大&#xff0c;更加简单的方式操作 public class Demo1 {public stati…

【机器学习合集】标准化与池化合集 ->(个人学习记录笔记)

文章目录 标准化与池化1. 标准化/归一化1.1 归一化归一化的作用 1.2 标准化批标准化方法 Batch Normailzation标准化方法的对比自动学习标准化方法 2. 池化2.1 池化的作用2.2 常见的池化方法2.3 池化方法的差异2.4 池化的必要性 标准化与池化 1. 标准化/归一化 1.1 归一化 归…

django建站过程(3)定义模型与管理页

定义模型与管理页 定义模型[models.py]迁移模型向管理注册模型[admin.py]注册模型使用Admin.site.register(模型名)修改Django后台管理的名称定义管理列表页面应用名称修改管理列表添加查询功能 django shell交互式shell会话 认证和授权 定义模型[models.py] 模仿博客形式&…

kali查看wifi破解密码,实测有效

首先需要安装kali系统 这个系统是安装在虚拟机上的 还需要一个无线网卡(最好是kali系统免驱的 否则是无法识别的) 有着两个工具就可以pojie密码了 kali官网:Kali Linux | Penetration Testing and Ethical Hacking Linux Distribution 下载这里大家去比站上或者博客都可以…

某雀服务器崩溃,引发数据安全性讨论,应该选择私有化部署吗?

随着云计算技术的飞速发展&#xff0c;越来越多的企业和个人选择将数据存储于云端。然而&#xff0c;云服务的稳定性和数据安全性问题也成为了用户关注的焦点。昨天下午&#xff0c;语雀服务器崩溃事件引起了广泛关注。这一事件再次凸显了私有化的重要性。又一批人群开始考虑将…