【大数据算法】时间亚线性算法之：串相等判定算法。

news2026/2/14 2:32:06

串相等判定算法

1、引言
2、串相等判定算法
- 2.1 定义
- 2.2 核心原理
- 2.3 应用场景
- 2.4 算法公式
- - 2.4.1 Rabin-Karp算法
  - 2.4.2 哈希函数
- 2.5 代码示例
3、总结

1、引言

小屌丝：鱼哥，啥是串相等判定算法啊
小鱼：这个… en…en…
小屌丝：咋了，这个问题难住你了？不能吧
小鱼：难住了，难住了，我现在饿的迷糊了。
小屌丝：我~ 这个真是的。这时间赶的。
小鱼：要不，先去吃个饭？
小屌丝：行行行，
小鱼：你这是不高兴啊，不乐意啊
小屌丝：没没没，我这不是笑着吗
在这里插入图片描述
小鱼：行，你笑就行，那咱就走？
小屌丝：行啊，走吧。
小鱼：吃得差不多了，泡个澡去？
小屌丝：鱼哥，你这又…
小鱼：泡泡澡，顺便说说串相等判定算法。
小屌丝：行啊~ ~

2、串相等判定算法

2.1 定义

时间亚线性串相等判定算法：指那些执行时间复杂度低于O(n)的字符串相等性判定算法。
这类算法通过预处理或者特定的数据结构，在一定条件下实现比线性时间更快的性能。

2.2 核心原理

常见的时间亚线性的字符串相等判定算法主要有基于哈希的算法和基于树的数据结构算法。这些算法的核心思路通常包括：

哈希算法：利用字符串的哈希值进行比较。哈希值的计算复杂度通常是 $O (1)$ ，因此利用哈希值进行比较可以显著减少整体比较时间。
Trie树：用Trie树来存储大规模字符串集合，通过树的结构加速查询和比较操作。
Rabin-Karp算法：这种算法使用滚动哈希技术，在滑动窗口的情况下计算哈希值，使得字符串比较的平均复杂度低于 $O (n)$ 。

2.3 应用场景

串相等判定算法在多个领域有广泛应用，包括但不限于：

网络安全：防止字典攻击和暴力破解，快速确认用户输入的口令是否在已知的口令集内。
文本搜索：高效匹配大规模文本中的关键字，如搜索引擎中的匹配操作。
基因序列匹配：在生物信息学中，快速比较和匹配DNA或RNA序列。
数据去重：去除大规模数据集中的重复字符串。

2.4 算法公式

2.4.1 Rabin-Karp算法

以Rabin-Karp算法为例，公式如下：

计算模式字符串的哈希值： $\text{Hash}(P) )$
计算文本中每个滑动窗口的哈希值，并与模式字符串的哈希值进行比较：
$\text{Hash}(T[i:i+m]) = (d \times (\text{Hash}(T[i:i+m-1]) - T[i] \times h) + T[i+m]) \mod q ]$
其中：

$(d)$ 是基数（如256）
$(q)$ 是一个大的质数
$(h)$ 是 $(d)$ 的 $(m - 1)$ 次幂

2.4.2 哈希函数

以哈希函数，假设哈希函数 $H$ ，字符串 $s$ 的哈希值 $H (s)$ 可以表示为：
$\sum_{i=0}^{|s|-1} s[i] \times p^i \mod M ]$
其中，

$(p)$ 是一个质数，通常选择31或61，
$(M)$ 是一个大的质数，通常选择 $10^9+7 )$ 以减少哈希冲突。

2.5 代码示例

我们以 Rabin-Karp算法为例，使用Python实现：

# -*- coding:utf-8 -*-
# @Time   : 2024-08-12
# @Author : Carl_DJ

def rabin_karp(text, pattern):
    """Rabin-Karp算法实现字符串相等判定"""
    d = 256  # 基数
    q = 101  # 一个大质数
    n = len(text)
    m = len(pattern)
    h = 1
    p_hash = 0  # 模式字符串的哈希值
    t_hash = 0  # 当前文本窗口的哈希值

    # 计算 h = d^(m-1) % q
    for i in range(m-1):
        h = (h * d) % q
    
    # 计算模式字符串的哈希值和文本前m个字符的哈希值
    for i in range(m):
        p_hash = (d * p_hash + ord(pattern[i])) % q
        t_hash = (d * t_hash + ord(text[i])) % q

    # 滑动窗口检验
    for i in range(n - m + 1):
        if p_hash == t_hash:
            if text[i:i+m] == pattern:
                return True
        
        if i < n - m:
            t_hash = (d * (t_hash - ord(text[i]) * h) + ord(text[i + m])) % q

            # 处理t_hash可能为负值的情况
            if t_hash < 0:
                t_hash += q

    return False

# 示例数据
text = "abcdefg"
pattern = "cde"
result = rabin_karp(text, pattern)
print(f"模式字符串'{pattern}'是否出现在文本中: {result}")