哈希——字符串哈希

news2024/9/24 14:19:50

回顾/本期梗概

        上期我们学习了图论基础(空降链接),本期我们将学习哈希中的字符串哈希。


1、什么是哈希

        哈希算法是:通过哈希函数讲字符串、较大的数等转换为能够用变量表示的或者是直接能作为数组下标的数,通过哈希算法转换到的值,称之为哈希值。哈希值可以实现快速查找和匹配。

        比如:用数组下标计数法,统计一个字符串中,每种字母出现的次数就是一个简单的哈希,将,每个字母都映射为了对应的ascii码。


2、如何构造哈希

        原理:将字符串中的每一个字母都看作是一个数字(例:从a-z,视为1-26);将字符串视为是一个b进制的数。(注意,不能映射为0,因为如果a为0,那么a、aa、aaa的值将都视为0)

        比 如 : 可 将 字 符 串 s =  " a b c d "  视 为 2 6 进 制 的 整 数 , 则 可 以 计 算 出 :hash(s)=1*26^{3}+5*26^{2}+3*26^{1}+4*26^{0}。如果字符串很长。h(s)很容易超出long long 的范畴,为防止溢出,我们取一个固定的值 h 用hash(s)%h,使得结果在long long 范围内。

        选取两个合适的互质常熟b和h(b<h)其中h要尽可能的大一点,为了降低冲突(不同字符串计算到一个哈希值)的概率。

        一般来说:b取131或13331,h取2^{64},最终产生的哈希值的冲突的概率极低。

        假设字符串C=c1c2c3...cm,定义哈希值;

        H(C)=(c_{1}*b^{m-1}+c_{2}*b^{m-2}+...+c_{a}*b^{0})mod h


3、滚动哈希优化

        如果针对一个很长的字符串,判断其中两个长度为 len 子串是否相同如果采用O(len)的时间复杂度计算出对应的子串 hash ,那和直接取出子串比较的时间复杂度并无差异,因此我们需要使用滚动哈希优化的技巧,可以在O(1)的时间复杂度下取出子串的 hash

        (1)滚动计算到前缀哈希h(k)

        设:h(k)的字符串 C 前 k 个字符构成的子串的哈希值,(先不考虑取模);

        h(k+1)=h(k)*b+c_{k+1};

        类比10进制理解该公式,比如10进制的12345,取出前3个数是123,如果要取出前4个数,可以使用:123*10(进制)+4(C_{k+1})=1234的方法取出。

        (2)利用前缀哈希H(k)计算区间哈希值

        设:

        H(R)=c_{1}*b^{R-1}+...+c_{L-1}*b^{R-L-1}+b^{r-l-+1}

        H(L-1)=c_{1}*b^{l-2}+...+c_{L-1}*b^0

        H(L,R)=H(R)-H(L-1)*b^{R-L+1}

        因此,求L~R之间的哈希值:H(R)-H(L-1)*b^{r-l+1}

        由上述公式可知,只需要预处理出b^m,就可以在O(1)的时间内求得任意子串的哈希值

        (3)时间复杂度

        综上,如果在一个长度为 的字符串中,任意取长度为 的子串进行匹配,时间复杂度为O(n+m)


!!!

​​​​​​​!!!

​​​​​​​制​​​​​​​!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2160569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营Day13 | 递归遍历、迭代遍历、层序遍历

目录 递归遍历和迭代遍历&#xff1a; 144.二叉树的前序遍历 94.二叉树的中序遍历 145.二叉树的后序遍历 层序遍历&#xff1a; 102.二叉树的层序遍历 107.二叉树的层序遍历Ⅱ 199.二叉树的右视图 637.二叉树的层平均值 429.N叉树的层序遍历 515.在每个树行中找最大…

计算机组成体系与组成结构错题解析【软考】

目录 前言进制转换码制补码 CPU的组成输入/输出技术中断相关概念输入/输出技术的三种方式比较周期相关知识 主存编址计算流水线技术层次化存储体系可靠性 前言 本文专门用来记录本人在做软考中有关计算机上组成体系与组成结构的错题&#xff0c;我始终认为教学相长是最快提高的…

0-1开发自己的obsidian plugin DAY 2

今天上午解决了三个问题 1. typescript长得丑/一片飘红/格式检查太严格 在vscode的settings里搜索下面这个然后false掉&#xff1a; "typescript.validate.enable": false 就不会一片飘红了&#xff08;其他下载第三方插件如TSLint和typescript hero的方法都不好使&…

众数信科 AI智能体政务服务解决方案——寻知智能审查系统

政务服务解决方案 寻知智能审查方案 融合检察院起诉文书审查要求 能智能识别文书格式、内容缺失等错误 标记出不符合数百项监督提示点的内容 给出法律依据&#xff0c;正确率95% 3分钟助检察官完成起诉书审查 众数信科AI智能体 产品亮点 分析、理解行业知识和校验规则 A…

828华为云征文 | 云服务器Flexus X实例,基于宝塔搭建Typecho博客平台

828华为云征文 | 云服务器Flexus X实例&#xff0c;基于宝塔搭建Typecho博客平台 宝塔面板配置 华为云 Flexus X 实例购买 Flexus云服务器X实例-华为云 (huaweicloud.com) 1、下载宝塔面板&#xff0c;大约需要1~2分钟左右 yum install -y wget && wget -O install.sh…

NVIDIA发布端到端自动驾驶框架Hydra-MDP

自动驾驶是目前人工智能领域的一个主要分支&#xff0c;目前特斯拉的FSD确实是为数不多的大模型框架。与其说特斯拉是一个造车公司&#xff0c;不如说是一个人工智能大数据公司。特斯拉每天靠行驶在道路上的汽车搜集的道路数据不胜其数&#xff0c;而拥有海量的数据是人工智能领…

【MWORKS专业工具箱系列教程】控制系列工具箱第三期:控制系统连接与化简

本工具箱教程以控制系统模型创建、分析与设计流程为主线&#xff0c;通过大量示例介绍MWORKS控制系统工具箱的功能和具体使用。共计10篇文章&#xff0c;上一篇主要介绍了控制系统模型转换。 同元软控&#xff1a;【MWORKS专业工具箱系列教程】控制系列工具箱第二期&#xff1…

脚本注入网页:XSS

跨站脚本攻击&#xff08;Cross-Site Scripting&#xff0c;简称 XSS&#xff09;是一种常见的网络安全漏洞。它是指攻击者在网页中注入恶意脚本代码&#xff0c;当用户访问该网页时&#xff0c;恶意脚本会在用户的浏览器中执行&#xff0c;从而导致一系列安全问题。这些问题可…

深入浅出热门AI大模型,新手到专家的必备指南《实战AI大模型》

今天&#xff0c;人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣&#xff0c;它不仅成为技术发展的核心驱动力&#xff0c;更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习&#xff0c;通过不断刷新的表现力已引领并定义了一场科技革命。大型深…

CTF夺旗赛经验总结及落地实践,零基础入门到精通,收藏这一篇就够了

文章来源&#xff1a;绿盟科技博客。 中国是科技人才资源最多的国家之一&#xff0c;但也是人才流失比较严重的国家。世界各国已经把加强人才建设作为抢占网络空间制高点的战略举措。在此背景下&#xff0c;国内外各类CTF比赛越来越多&#xff0c;那么怎样一方面才能准备好比赛…

MySQL之基本查询(一)(insert || select)

目录 一、表的增删查改 二、表的增加insert 三、表的读取select where 条件子句 结果排序 筛选分页结果 一、表的增删查改 我们平时在使用数据库的时候&#xff0c;最重要的就是需要对数据库进行各种操作。而我们对数据库的操作一般来说也就是四个操作&#xff0c;CRUD :…

鸿萌数据恢复:NAND 内存协议,SDR 与 DDR 之间的区别

天津鸿萌科贸发展有限公司从事数据安全服务二十余年&#xff0c;致力于为各领域客户提供专业的数据恢复、数据备份解决方案与服务&#xff0c;并针对企业面临的数据安全风险&#xff0c;提供专业的相关数据安全培训。 从事 NAND 数据恢复的人都知道&#xff0c;读取 NAND 需要使…

企业有了ELT就不需要ETL了?别被忽悠了

最近几年,ELT(Extract, Load, Transform)这个词在数据圈里挺火。有些人甚至说,有了ELT,ETL(Extract, Transform, Load)就该退出历史舞台了。作为一个干了十多年ETL的老兵,我觉得有必要说道说道。 先说说这两个概念。ETL是先把数据抽取出来,经过处理转换后再加载到目标系统。EL…

人工智能代表——无人驾驶:萝卜快跑

人工智能如何改变我们的出行&#xff1a;以“萝卜快跑”无人驾驶为例 随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;正以前所未有的方式渗透并改变着我们的日常生活&#xff0c;其中出行方式的变革尤为显著。在众多AI驱动的出行创新中&#xff0c;“萝卜…

OpenMV学习第一步安装IDE_2024.09.20

用360浏览器访问星瞳科技官网&#xff0c;一直提示访问不了。后面换了IE浏览器就可以访问。第一个坑。

2. 程序结构

在本章中&#xff0c;我们将开始做一些真正称得上编程的事情。我们将扩展对 JavaScript 语言的掌握&#xff0c;不再局限于目前所见的名词和句子片段&#xff0c;而是能够表达有意义的散文。 表达式和语句 在第 1 章中&#xff0c;我们创建了值&#xff0c;并应用运算符来获取…

【Python报错已解决】NameError: name ‘F‘ is not defined

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 专栏介绍 在软件开发和日常使用中&#xff0c;BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

《百家姓》中排名第八却是中国人口第一大姓-王姓

王姓在《百家姓》中虽然排名第八&#xff0c;但根据近年来的统计数据和实际人口分布&#xff0c;王姓已成为中国第一大姓。以下是对王姓作为“百家姓之首”的详细解析&#xff1a; 一、人口数量与分布 人口数量&#xff1a;截至当前时间&#xff08;2024年&#xff09;&#x…

打破网络安全域限制:跨区域文件传输的创新解决方案

随着经济的快速发展&#xff0c;很多企业在异地都会建立分支机构&#xff0c;比如跨国企业在国外建设分公司&#xff0c;金融机构全国各地都有多级分支机构和网点&#xff0c;集团型企业会设立多家子公司等等。 跨网络安全域文件交换&#xff0c;是大型企业会存在的跨区域文件传…

项目记录点

MES项目点 一、项目局域网访问地址创建 host: 0.0.0.0,二、select下拉表单内容 1、默认值设置为undefined&#xff0c;placeholder才生效 <a-col :sm"24" :md"12" :xl"6"><a-form-itemname"opeCodeList":rules"[{requ…