【大数据算法】时间亚线性算法之:串相等判定算法。

news2025/1/12 6:05:18

串相等判定算法

  • 1、引言
  • 2、串相等判定算法
    • 2.1 定义
    • 2.2 核心原理
    • 2.3 应用场景
    • 2.4 算法公式
      • 2.4.1 Rabin-Karp算法
      • 2.4.2 哈希函数
    • 2.5 代码示例
  • 3、总结

1、引言

小屌丝:鱼哥, 啥是串相等判定算法啊
小鱼:这个… en…en…
小屌丝:咋了,这个问题难住你了? 不能吧
小鱼:难住了,难住了, 我现在饿的迷糊了。
小屌丝:我~ 这个真是的。 这时间赶的。
小鱼:要不,先去吃个饭?
小屌丝:行行行,
小鱼:你这是不高兴啊,不乐意啊
小屌丝:没没没, 我这不是笑着吗
在这里插入图片描述
小鱼:行,你笑就行,那咱就走?
小屌丝:行啊,走吧。
小鱼:吃得差不多了,泡个澡去?
小屌丝:鱼哥,你这又…
小鱼:泡泡澡,顺便说说串相等判定算法。
小屌丝:行啊~ ~

2、串相等判定算法

2.1 定义

  • 时间亚线性串相等判定算法:指那些执行时间复杂度低于O(n)的字符串相等性判定算法。
  • 这类算法通过预处理或者特定的数据结构,在一定条件下实现比线性时间更快的性能。

2.2 核心原理

常见的时间亚线性的字符串相等判定算法主要有基于哈希的算法和基于树的数据结构算法。这些算法的核心思路通常包括:

  • 哈希算法:利用字符串的哈希值进行比较。哈希值的计算复杂度通常是 O ( 1 ) O(1) O(1),因此利用哈希值进行比较可以显著减少整体比较时间。
  • Trie树:用Trie树来存储大规模字符串集合,通过树的结构加速查询和比较操作。
  • Rabin-Karp算法:这种算法使用滚动哈希技术,在滑动窗口的情况下计算哈希值,使得字符串比较的平均复杂度低于 O ( n ) O(n) O(n)

2.3 应用场景

串相等判定算法在多个领域有广泛应用,包括但不限于:

  • 网络安全:防止字典攻击和暴力破解,快速确认用户输入的口令是否在已知的口令集内。
  • 文本搜索:高效匹配大规模文本中的关键字,如搜索引擎中的匹配操作。
  • 基因序列匹配:在生物信息学中,快速比较和匹配DNA或RNA序列。
  • 数据去重:去除大规模数据集中的重复字符串。

2.4 算法公式

2.4.1 Rabin-Karp算法

以Rabin-Karp算法为例,公式如下:

计算模式字符串的哈希值: ( Hash ( P ) ) ( \text{Hash}(P) ) (Hash(P))
计算文本中每个滑动窗口的哈希值,并与模式字符串的哈希值进行比较:
[ Hash ( T [ i : i + m ] ) = ( d × ( Hash ( T [ i : i + m − 1 ] ) − T [ i ] × h ) + T [ i + m ] ) m o d    q ] [ \text{Hash}(T[i:i+m]) = (d \times (\text{Hash}(T[i:i+m-1]) - T[i] \times h) + T[i+m]) \mod q ] [Hash(T[i:i+m])=(d×(Hash(T[i:i+m1])T[i]×h)+T[i+m])modq]
其中:

  • ( d ) ( d ) (d) 是基数(如256)
  • ( q ) ( q ) (q) 是一个大的质数
  • ( h ) ( h ) (h) ( d ) ( d ) (d) ( m − 1 ) ( m-1 ) (m1) 次幂

2.4.2 哈希函数

以哈希函数 ,假设哈希函数 H H H,字符串 s s s的哈希值 H ( s ) H(s) H(s)可以表示为:
[ H ( s ) = ∑ i = 0 ∣ s ∣ − 1 s [ i ] × p i m o d    M ] [ H(s) = \sum_{i=0}^{|s|-1} s[i] \times p^i \mod M ] [H(s)=i=0s1s[i]×pimodM]
其中,

  • ( p ) ( p ) (p) 是一个质数,通常选择31或61,
  • ( M ) ( M ) (M) 是一个大的质数,通常选择 ( 1 0 9 + 7 ) ( 10^9+7 ) (109+7) 以减少哈希冲突。

2.5 代码示例

我们以 Rabin-Karp算法为例,使用Python实现:

# -*- coding:utf-8 -*-
# @Time   : 2024-08-12
# @Author : Carl_DJ

def rabin_karp(text, pattern):
    """Rabin-Karp算法实现字符串相等判定"""
    d = 256  # 基数
    q = 101  # 一个大质数
    n = len(text)
    m = len(pattern)
    h = 1
    p_hash = 0  # 模式字符串的哈希值
    t_hash = 0  # 当前文本窗口的哈希值

    # 计算 h = d^(m-1) % q
    for i in range(m-1):
        h = (h * d) % q
    
    # 计算模式字符串的哈希值和文本前m个字符的哈希值
    for i in range(m):
        p_hash = (d * p_hash + ord(pattern[i])) % q
        t_hash = (d * t_hash + ord(text[i])) % q

    # 滑动窗口检验
    for i in range(n - m + 1):
        if p_hash == t_hash:
            if text[i:i+m] == pattern:
                return True
        
        if i < n - m:
            t_hash = (d * (t_hash - ord(text[i]) * h) + ord(text[i + m])) % q

            # 处理t_hash可能为负值的情况
            if t_hash < 0:
                t_hash += q

    return False

# 示例数据
text = "abcdefg"
pattern = "cde"
result = rabin_karp(text, pattern)
print(f"模式字符串'{pattern}'是否出现在文本中: {result}")

在这里插入图片描述

3、总结

时间亚线性的串相等判定算法在大量涉及字符串比较和匹配的应用场景中表现出色。

通过引入哈希函数或树形数据结构,算法显著优化了时间复杂度,从而提高了处理效率。

然而,这些算法也有其适用的范围和前提条件,例如哈希冲突、预处理时间和额外的存储空间等。

因此,在实际应用中,需要根据具体的需求和数据特性来选择合适的算法,以达到最佳效果。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 企业认证金牌面试官
  • 多个名企认证&特邀讲师等
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)评测一等奖获得者

关注小鱼,学习【大数据算法】领域最新最全的领域知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2094007.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ai免费生成ppt软件有哪些?我推荐秒出PPT

现在市面上的ai生成PPT软件非常的多。有收费的&#xff0c;也有不收费的&#xff0c;生成的效果也各不相同。要选择一个性价比高的确实难度不小。 我在使用了不少的产品之后&#xff0c;说一说我的心得。 首先就是&#xff0c;大部分免费的ai生成ppt产品并不好用。我怕不排除…

解决Selenium已安装,在pycharm导入时报错

搭建设selenium环境时&#xff0c;selenium已安装&#xff0c;但是在pycharm中使用“from selenium import webdriver”语句时红线报错 解决方案&#xff1a; 1.file->settings进入设置 2.点击加号&#xff0c;搜索‘selenium’安装 3&#xff0c;等待安装完成&#xff0…

windows 上安装 Anaconda

下载 立即下载 |蟒蛇 (anaconda.com) 安装

Nginx: 高可用和与虚拟路由冗余协议VRRP原理以及KeepAlived软件架构

Nginx 服务的高可用 1 &#xff09;服务可用 假定是这样一个最传统的一个CS模式的一个客户服务器模式 这里有用户和一台服务器服务器可能是mysql, 也可能是webserver, 或其他服务器 想实现服务可用的一个三要素 1.1 ) server 需要公网的ip地址以及申请一个域名1.2 ) 需要服务软…

MIG IP核详解

1.MIG IP核简介 MIG(Memory Interface Generators) IP 核是Xilinx公司针对DDR存储器开发的 IP&#xff0c;里面集成存储器控制模块&#xff0c;实现DDR读写操作的控制流程&#xff0c;下图是7系列的 MIG IP 核结构框图。MIG IP 核对外分出了两组接口。左侧是用户接口&#xff…

自制实战吃鸡手柄原理

在前面的讨论中&#xff0c;通过类似物理点击的方式来实现了声控触发射击键的点击 【Arduino】自制声控点击器&#xff08;吼叫吃鸡助手&#xff09;_辅助机械臂物理物理键盘点击器神器-CSDN博客 为了更有实战效果&#xff0c;我们可以把玩具枪改造为一个手柄&#xff0c;这样…

2024年Java最新面试题总结(三年经验)

目录 第一章、基础技术栈1.1&#xff09;集合&#xff0c;string等基础问题1、arraylist &#xff0c;linkedlist的区别&#xff0c;为啥集合有的快有的慢2、字符串倒叙输出2.1、字符串常用方法2.2、字符串号拼接的底层原理3、讲一下Java的集合框架4、定义线程安全的map&#x…

进制数基础知识 与 位运算(基础版)

目录 1. 计算机常用进制类别 2. 10进制转各种进制&#xff08;取余倒置法&#xff09; 3. 二进制转8进制、16进制 3.1 二进制转8进制 3.2 二进制转16进制 4. 原码、反码、补码 5. 整型提升 与 算术转换 5.1 整型提升 5.2 算术转换 6. 移位操作符 6.1 左移操作符( &l…

【spring】学习笔记2:sample、boot功能和组件设计

Spring自带了一个强大的Web框架,名为Spring MVC。Spring MVC的核心 是控制器(controller)的理念。控制器是处理请求并以某种方式进行信息 响应的类。在面向浏览器的应用中,控制器会填充可选的数据模型并将请求 传递给一个视图,以便于生成返回给浏览器的HTML。在pom.xml文件…

前端开发——熟悉WebSocket(包含示例)

最近在开发中需要调用第三方API&#xff0c;现在大家的API基本上都是使用WebSocket来进行的&#xff0c;前端也必须来学一手了 什么是WebSocket 参考&#xff1a;https://blog.csdn.net/L2043524156/article/details/139271715 有如下四个好处&#xff1a; 双向通信&#x…

C# .Net 条码批量自动打印框架 基于Bartender 10.1 V1.0

调用Bartender打印模板&#xff0c;批量打印条码。 需要有一定的C#开发能力。 非常适合工厂中从ERP拿取信息后&#xff0c;批量打印出货条码。 提供全部源代码&#xff0c;毫无保留。 Winform程序&#xff0c;使用了依赖注入(微软DI)&#xff0c;数据库访问的ORM为Dapper。…

位图 —— 哈希思想的产物

目录 1.学习位图的前置知识 计算机中数据存储的单位 C中数据类型的大小 2.位图的讲解 位图的引出 位图的使用 位图的实现 位图完整代码 3.位图的总结 位图的优缺点 优点 缺点 1.学习位图的前置知识 计算机中数据存储的单位 想要学习位图&#xff0c;首先要明白什…

在Windows10系统快速启用telnet功能

打开Windows控制面板 → 程序 → 启用或关闭Windows功能 勾选Telnet客户端 然后确定 启用后windowR 打开运行&#xff0c;输入cmd回车 使用telnet命令回车 可以直接使用telnet命令&#xff08;如果提示telnet是外部命令需要重启电脑&#xff09; 输入 ?/help 可查看帮助 到…

排序算法:

冒泡排序&#xff1a; 从列表的第一个数字开始进行比较&#xff0c;判断该数和下一个数之间的大小关系&#xff0c;如果该数比右边的数大&#xff0c;则交换位置&#xff1b;否则不变。一般一轮可以确定最大的数字&#xff0c;在列表的最后一位。 代码&#xff1a; 注意&…

开源 AI 智能名片 S2B2C 商城小程序在现代商业中的创新与启示

摘要&#xff1a;本文通过分析一种以 9.9 元裙子为代表的独特商业模式&#xff0c;探讨了其背后的现金流、产品和渠道组合策略&#xff0c;以及开源 AI 智能名片 S2B2C 商城小程序在其中可能发挥的作用和带来的启示。 一、引言 在当今竞争激烈的商业环境中&#xff0c;企业不断…

Redis数据结构与连接

1 基本的数据结构 1.1 string string的实现有多种 int&#xff1a;字符串长度小于等于20且能转成整数raw&#xff1a;字符串长度大于44embstr&#xff1a;字符串长度小于等于44 字符串长度小于1M 时&#xff0c;加倍扩容&#xff1b;超过 1M 每次只多扩1M&#xff1b;字符串…

【如何在Mac电脑和示波器之间共享文件】

如何在Mac电脑和示波器&#xff08;Tektronix OSC&#xff09;之间共享文件 Tektronix Lan&#xff1a; Mac Lan&#xff1a; 按下Utility,開始設定&#xff1b; 按下Utility Page,選至I/O&#xff1b; Network Configuration選至Manual,再Set IP Adresses Manually&am…

tailwindcss

什么是Tailwind CSS Tailwind CSS 是一个可定制化的 CSS 框架&#xff0c;最大的特点是功能类优先&#xff0c;和我们知道的bootstrap&#xff0c;element ui&#xff0c;antd&#xff0c;veui等框架一样。将一些CSS样式封装好&#xff0c;用来加速我们开发的一个工具。 简单…

精选算法编程题

一、有序数组的平方 给你一个按 非递减顺序 排序的整数数组 nums&#xff0c;返回 每个数字的平方 组成的新数组&#xff0c;要求也按 非递减顺序 排序。 示例 1&#xff1a; 输入&#xff1a;nums [-4,-1,0,3,10]输出&#xff1a;[0,1,9,16,100]解释&#xff1a;平方后&am…

JAVAEE初阶第二节——多线程基础(中)

系列文章目录 JAVAEE初阶第二节——多线程基础(中) 多线程基础(中) 多线程带来的的风险-线程安全 (重点)synchronized 关键字volatile 关键字wait 和 notify 文章目录 系列文章目录JAVAEE初阶第二节——多线程基础(中) 多线程基础(中)一.多线程带来的的风险-线程安全 (重点)1…