16.算法之字符串匹配算法

news2024/7/6 19:34:48

前言

字符串匹配是我们在程序开发中经常遇见的功能,比如sql语句中的like,java中的indexof,都是用来判断一个字符串是否包含另外一个字符串的。那么,这些关键字,方法,底层算法是怎么实现的么?本节,我们来探究一下,字符串匹配常见的算法。

1. 暴力匹配算法(BF)

1.1 算法思想

暴力匹配,顾名思义,就是逐个匹配主串和子串的字符,如果不一致,主串下标后移,重新比较,直到主串末尾,或者匹配到完整的子串。

1.2 代码验证

package org.wanlong.stringMatch;

/**
 * @author wanlong
 * @version 1.0
 * @description: 暴力匹配算法
 * @date 2023/6/8 9:51
 */
public class BF {

    public static boolean isMatch(String main, String sub) {
		//截取到子串前,后面没必要比较,因为长度都不够子串
		char[] subChars = sub.toCharArray();
        for (int i = 0; i < main.length() - sub.length(); i++) {
            //子串匹配
            String substring = main.substring(i, i + sub.length());
            char[] chars = substring.toCharArray();
            //是否完全匹配标志
            boolean flag = true;
            for (int j = 0; j < chars.length; j++) {
                if (chars[j] != subChars[j]) {
                    flag = false;
                    break;
                }
            }
            if (flag) {
                return true;
            }
        }

        return false;
    }
}

1.3 测试

@Test
public void testBF(){
    String str1="abcdefg";
    String str2="aabc";
    System.out.println(BF.isMatch(str1, str2));
}

运行结果:
false

1.4 时间复杂度

O(n*m)

1.5 应用场景

BF算法实现简单,易懂,在一些比较短的字符串匹配中,是可以使用的,但是当字符串长度较长时,性能会急剧下降。

2. RK算法

2.1 算法思想

RK 算法的全称叫 Rabin-Karp 算法,是由它的两位发明者 Rabin 和 Karp 的名字来命名的。我们知道,每次检查主串与子串是否匹配,需要依次比对每个字符,所以 BF 算法的时间复杂度就比较高,是O(n*m)。我们对朴素的字符串匹配算法稍加改造,引入哈希算法,时间复杂度立刻就会降低。

RK 算法的思路是这样的:我们通过哈希算法对主串中的 n-m+1 个子串分别求哈希值,然后逐个与模式串的哈希值比较大小。如果某个子串的哈希值与模式串相等,那就说明对应的子串和模式串匹配了(这里先不考虑哈希冲突的问题)。因为哈希值是一个数字,数字之间比较是否相等是非常快速的,所以模式串和子串比较的效率就提高了。

可以设计一个hash算法:

将字符串转化成整数,利用K进制的方式。
数字0-910进制
123的拆解
100+20+3=123

假设我们字符串包含 大小写字母和09 十个数字,则可以设计如下:
小写字母a-z:26进制
大小写字母a-Z:52进制
十个数字0-9:62进制

以只是小写字母的26进制为例:

字符串“abc”转化成hash值的算法是:
a的ASCII码是97
b的ASCII码是98
c的ASCII码是99
97 \* 26^2+98 \* 26^1 +99\*26^0 =  65572+2548+99=68219
字符串 abc 转化成hash值是 68219,如果觉得计算太麻烦也可以从97开始,即ASCII-97字符串“abc”转化成hash值的算法是:(97-97)*262+(98-97)* 261 +(99-97)* 260+26+2=28

2.2 代码验证

package org.wanlong.stringMatch;

/**
 * @author wanlong
 * @version 1.0
 * @description: RK算法
 * @date 2023/6/8 20:04
 */
public class RK {

    public static boolean isMatch(String main, String sub) {

        //算出子串的hash值
        int hash_sub = strToHash(sub);
        for (int i = 0; i <= (main.length() - sub.length()); i++) {
            // 主串截串后与子串的hash值比较
            if (hash_sub == strToHash(main.substring(i, i + sub.length()))) {
                return true;
            }
        }


        return false;
    }

    /**
     * 支持 a-z 二十六进制
     * 获得字符串的hash值
     *
     * @param src
     * @return
     */
    public static int strToHash(String src) {
        int hash = 0;
        for (int i = 0; i < src.length(); i++) {
            hash *= 26;
            hash += src.charAt(i) - 97;
        }
        return hash;
    }

}

2.3 测试验证

@Test
public void testRK(){
    String str1="abcdefg";
    String str2="aabc";
    System.out.println(RK.isMatch(str1, str2));
}

2.4 适用场景

2.4.1 时间复杂度

RK 算法的的时间复杂度为O(m+n)
m:为匹配串长度
n:为主串长度

2.4.2 应用

适用于匹配串类型不多的情况,比如:字母、数字或字母加数字的组合 62 (大小写字母+数字)

3. BM算法

BF 算法性能会退化的比较严重,而 RK 算法需要用到哈希算法,而设计一个可以应对各种类型字符的哈希算法并不简单。BM(Boyer-Moore)算法。它是一种非常高效的字符串匹配算法,滑动算法

3.1 算法思想

在这里插入图片描述
如上图,在上面的例子里,主串中的 c,在模式串中是不存在的。所以,模式串向后滑动的时候,只要 c 与模式串有重合,肯定无法匹配。所以,我们可以一次性把模式串往后多滑动几位,把模式串移动到 c 的后面。

BM 算法,本质上其实就是在寻找这种规律。借助这种规律,在模式串与主串匹配的过程中,当模式串和主串某个字符不匹配的时候,能够跳过一些肯定不会匹配的情况,将模式串往后多滑动位。

3.2 算法原理

BM算法包含两部分,分别是坏字符规则好后缀规则

3.2.1 坏字符规则

BM 算法的匹配顺序比较特别,它是按照模式串下标从大到小的顺序,倒着匹配的。

在这里插入图片描述
我们从模式串的末尾往前倒着匹配,当我们发现某个字符没法匹配的时候。我们把这个没有匹配的字符叫作坏字符(主串中的字符)。
在这里插入图片描述
字符 c 与模式串中的任何字符都不可能匹配。这个时候,我们可以将模式串直接往后滑动三位,将模式串滑动到 c 后面的位置,再从模式串的末尾字符开始比较。
在这里插入图片描述
坏字符 a 在模式串中是存在的,模式串中下标是 0 的位置也是字符 a。这种情况下,我们可以将模式串往后滑动两位,让两个 a 上下对齐,然后再从模式串的末尾字符开始,重新匹配。
在这里插入图片描述
当发生不匹配的时候,我们把坏字符对应的模式串中的字符下标记作 si如果坏字符在模式串中存在,我们把这个坏字符在模式串中的下标记作 xi。如果不存在,我们把 xi 记作 -1。那模式串往后移动的位数就等于 。(下标,都是字符在模式串的下标
在这里插入图片描述
那么,按照如上规律可得:

  1. 第一次移动3位
    c在模式串中不存在,所以xi = -1,移动位数 n =2-(-1)=3
  2. 第二次移动2位
    a在模式串中存在,所以xi = 0,移动位数n =2-0=2

3.2.2 好后缀规则

在这里插入图片描述
我们把已经匹配的我们拿它在模式串中查找,如果找到了另一个跟{u}相匹配的子串{u*},那我们就将模式串滑动到子串{u*}与主串中{u}对齐的位置。
在这里插入图片描述
如果在模式串中找不到另一个等于{u}的子串,我们就直接将模式串,滑动到主串中{u}的后面,因为之前的任何一次往后滑动,都没有匹配主串中{u}的情况
在这里插入图片描述
但是有种 过度滑动 情况要考虑,如下图所示:
在这里插入图片描述
模式串滑动到前缀与主串中{u}的后缀有部分重合的时候并且重合的部分相等的时候,就有可能会存在完全匹配的情况。
以上面的模式串为例,模式串的前缀c与主串u的后缀 c 相等,此时不能过度滑动。

所以,针对这种情况,我们不仅要看 好后缀 在模式串中,是否有另一个匹配的子串,我们还要考察好后缀后缀子串(c),是否存在跟模式串的前缀子串(c)匹配的。

如何选择坏字符和好后缀?

其实仔细思考,不管是好后缀,还是坏字符,都是为了让我们尽最大可能的避免重复进行字符比较匹配,从而降低时间复杂度。我们可以分别计算好后缀和坏字符往后滑动的位数,然后取两个数中最大的,作为模式串往后滑动的位数。

如果我们拿坏字符,在模式串中顺序遍历查找,这样就会比较低效。可以采用散列表,我们可以用一个256数组,来记录每个字符在模式串中的位置,数组下标可以直接对应字符的ASCII码值,数组的值为字符在模式串中的位置,没有的记为-1

这里散列表的作用是:根据字符的ascll 码,能直接计算到他在模式串中最后一次出现的位置,我们知道,哈希表查询的时间复杂度是O(1)。

如下图所示:

bc[97]=a
bc[98]=b
bc[100]=d
有重复的字母以后面的位置为准。
在这里插入图片描述

3.3 代码验证


package org.wanlong.stringMatch;

/**
 * @author wanlong
 * @version 1.0
 * @description: BM算法验证
 * @date 2023/6/12 10:31
 */
public class BM {

    // 哈希表长度
    private static final int SIZE = 256;


    /**
     * @Description: 构建坏字符哈希表
     * @Author: wanlong
     * @Date: 2023/6/15 14:17
     * @param b: 模式串
     * @param m: 模式串长度
     * @param dc: 哈希表
     * @return void
     **/
    private static void generateBC(char[] b, int m, int[] dc) {
        for (int i = 0; i < SIZE; ++i) {
            // 初始化 dc 模式串中没有的字符值都是-1
            dc[i] = -1;
        }
        //将模式串中的字符希写入到字典中
        for (int i = 0; i < m; ++i) {
            int ascii = (int) b[i]; // 计算 b[i] 的 ASCII 值
            dc[ascii] = i;
        }
    }

    /**
     * @Description: 坏字符规则
     * @Author: wanlong
     * @Date: 2023/6/15 14:14
     * @param a: 主串
     * @param b: 模式串
     * @return boolean
     **/
    public static boolean bad(char[] a, char[] b) {
        //主串长度
        int n = a.length;
        //模式串长度
        int m = b.length;
        //创建字典
        int[] bc = new int[SIZE];
        // 构建坏字符哈希表,记录模式串中每个字符最后出现的位置
        generateBC(b, m, bc);
        // i表示主串与模式串对齐的第一个字符
        int i = 0;
        while (i <= n - m) {
            int j;
            for (j = m - 1; j >= 0; --j) {
                // 模式串从后往前匹配
                //i+j : 不匹配的位置
                if (a[i + j] != b[j])
                    // 坏字符对应模式串中的下标是j
                    break;
            }
            if (j < 0) {
                // 匹配成功,i是主串与模式串第一个匹配的字符的位置
                return true;
            }
            // 这里等同于将模式串往后滑动j-bc[(int)a[i+j]]位
            // si:j
            // xi:bc[(int)a[i+j]]
            i = i + (j - bc[(int) a[i + j]]);
        }
        return false;
    }
}

3.4 测试验证

@Test
public void testBM(){
    String str1="abcabcabc";
    String str2="ab";
    System.out.println(BM.bad(str1.toCharArray(), str2.toCharArray()));
}

3.5 时间复杂度

BM算法的时间复杂度是O(N/M)
n:主串长度
m:模式串长度

3.6 适用场景

BM算法比较高效,在实际开发中,特别是一些文本编辑器中,用于实现查找字符串功能。

4. 字典树

4.1 算法思想

Trie 树,也叫“字典树”。它是一个树形结构。它是一种专门处理字符串匹配的数据结构,用来解决在一组字符串集合中快速查找某个字符串的问题。
比如:有 6 个字符串,它们分别是:how,hi,her,hello,so,see,我们可以将这六个字符串组成
Trie树结构。
Trie 树的本质,就是利用字符串之间的公共前缀,将重复的前缀合并在一起。

在这里插入图片描述
其中,根节点不包含任何信息。每个节点表示一个字符串中的字符,从根节点到红色节点的一条路径表
示一个字符串(红色节点为叶子节点)
在这里插入图片描述
在这里插入图片描述
Trie 树是一个多叉树
我们通过一个下标与字符一一映射的数组,来存储子节点的指针

假设我们的字符串中只有从 a 到 z 这 26 个小写字母,我们在数组中下标为 0 的位置,存储指向子节点a 的指针,下标为 1 的位置存储指向子节点 b 的指针,以此类推,下标为 25 的位置,存储的是指向的子节点 z 的指针。如果某个字符的子节点不存在,我们就在对应的下标的位置存储 null。
在这里插入图片描述
当我们在 Trie 树中查找字符串的时候,我们就可以通过字符的 ASCII 码减去“a”的 ASCII 码,迅速找到
匹配的子节点的指针。比如,d 的 ASCII 码减去 a 的 ASCII 码就是 3,那子节点 d 的指针就存储在数组
中下标为 3 的位置中

如果要在一组字符串中,频繁地查询某些字符串,用 Trie 树会非常高效。构建 Trie 树的过程,需要扫描所有的字符串,时间复杂度是 O(n)(n 表示所有字符串的长度和)。但是一旦构建成功之后,后续的查询操作会非常高效。每次查询时,如果要查询的字符串长度是 k,那我们只需要比对大约 k 个节点,就能完成查询操作。跟原本那组字符串的长度和个数没有任何关系。所以说,构建好 Trie 树后,在其中查找字符串的时间复杂度是 O(k),k 表示要查找的字符串的长度。

4.2 代码验证

4.2.1 定义树节点类

package org.wanlong.stringMatch;

public class TrieNode {
    public char data;
    public TrieNode[] children = new TrieNode[26];
    //是否叶子节点标识
    public boolean isEndingChar = false;

    public TrieNode(char data) {
        this.data = data;
    }
}

4.2.2 定义字典树类

package org.wanlong.stringMatch;

/**
 * @author wanlong
 * @version 1.0
 * @description: 字典树
 * @date 2023/6/15 10:34
 */
public class Trie {

    private TrieNode root = new TrieNode('/'); // 存储无意义字符

    // 往Trie树中插入一个字符串
    public void insert(char[] text) {
        TrieNode p = root;
        for (int i = 0; i < text.length; ++i) {
            int index = text[i] - 97;
            if (p.children[index] == null) {
                TrieNode newNode = new TrieNode(text[i]);
                p.children[index] = newNode;
            }
            p = p.children[index];
        }
        //叶子节点打标签
        p.isEndingChar = true;
    }

    // 在Trie树中查找一个字符串
    public boolean find(char[] pattern) {
        TrieNode p = root;
        for (int i = 0; i < pattern.length; ++i) {
            int index = pattern[i] - 97;
            if (p.children[index] == null) {
                return false; // 不存在pattern
            }
            p = p.children[index];
        }
        if (!p.isEndingChar)
            // 不能完全匹配,只是前缀
            return false; 
        else
            // 找到pattern
            return true; 
    }

}

4.3 测试验证

@Test
public void testTrie(){
    Trie trie=new Trie();
    trie.insert("hello".toCharArray());
    trie.insert("her".toCharArray());
    trie.insert("hi".toCharArray());
    trie.insert("how".toCharArray());
    trie.insert("see".toCharArray());
    trie.insert("so".toCharArray());
    System.out.println(trie.find("how".toCharArray()));
}

4.4 时间复杂度

如果要在一组字符串中,频繁地查询某些字符串,用 Trie 树会非常高效构建 Trie 树的过程,需要扫描所有的字符串,时间复杂度是 O(n)(n 表示所有字符串的长度和)。但是一旦构建成功之后,后续的查询操作会非常高效。每次查询时,如果要查询的字符串长度是 k,那我们只需要比对大约 k 个节点,就能完成查询操作。跟原本那组字符串的长度和个数没有任何关系。所以说,构建好 Trie 树后,在其中查找字符串的时间复杂度是 O(k),k 表示要查找的字符串的长度。

4.5 适用场景

利用 Trie 树,实现搜索关键词的提示功能。

我们假设关键词库由用户的热门搜索关键词组成。我们将这个词库构建成一个 Trie 树。当用户输入其中某个单词的时候,把这个词作为一个前缀子串在 Trie 树中匹配。为了讲解方便,我们假设词库里只有hello、her、hi、how、so、see 这 6 个关键词。当用户输入了字母 h 的时候,我们就把以 h 为前缀的hello、her、hi、how 展示在搜索提示框内。当用户继续键入字母 e 的时候,我们就把以 he 为前缀的hello、her 展示在搜索提示框内。这就是搜索关键词提示的最基本的算法原理。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/649551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32_智慧农业环境测控系统(附代码)

前段时间进行了说STM32的学习&#xff0c;现在把学习成果共享出来&#xff0c;仅供参考。 实验目标:对环境温度湿度以及光照值进行检测(传感器)和控制&#xff08;按键&#xff09;。 硬件资源&#xff1a;STM32开发板、DHT11温湿度传感器和光敏传感器。 #include "st…

uview-ui表单使用总结

官网地址&#xff1a;https://v1.uviewui.com 表单校验的规则注意点&#xff1a; uView自带验证规则 常用的手机号身份证之类的都可以直接用内置校验规则地址 使用方法&#xff1a; this.$u.test.mobile(val)如果是动态配置的表单&#xff0c;使用v-for循环&#xff0c;校验规…

贪心算法原理和案例

目录 ​编辑 贪心算法简介 什么时候使用贪心算法 贪心算法缺陷 贪心算法应用 贪心算法JAVA代码实现 贪心算法简介 贪心算法&#xff08;又称贪婪算法&#xff09;Greedy Algorithm 是一种不断做出局部最优解的选择&#xff0c;最终期望得到全局最优解的算法。 简单地说&am…

SpringCloud Ribbon初步应用(十)

Ribbon是客户端负载均衡&#xff0c;所以肯定集成再消费端&#xff0c;也就是consumer端 修改microservice-student-consumer-80 引入依赖&#xff0c;pom.xml 加入 ribbon相关依赖 <dependency> <groupId>org.springframework.cloud</groupId> &…

淦、我的服务器又被攻击了

「作者简介」&#xff1a;CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」&#xff1a;对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 最近老是有粉丝问我&#xff0c;被黑客攻击了&#xff0c;一定要拔网线吗&#xff1f;还有…

Python进阶语法之三元表达式详解

Python进阶语法之三元表达式详解 Python的三元表达式&#xff08;Ternary Expressions&#xff09;是一种简洁高效的编写条件逻辑的方式。与许多其他编程语言一样&#xff0c;Python也提供了三元表达式&#xff0c;可以在一行代码中写出一个if-else条件语句。在这篇博文中&…

Webpack+Babel手把手带你搭建开发环境(内附配置文件)

先简单介绍一下Webpack和Babel Webpack webpack工作就是打包&#xff0c;只要你安装的插件就可以打包一切&#xff0c;并且会自动解析依赖项&#xff0c;是前端的热门工具。Babel Ecmascript的代码一直在更新 但是浏览器的兼容却没有根上&#xff0c;babel就实现了利用服务端n…

【数据分享】1929-2022年全球站点的逐月平均能见度(Shp\Excel\12000个站点)

气象数据是在各项研究中都经常使用的数据&#xff0c;气象指标包括气温、风速、降水、能见度等指标&#xff0c;说到常用的能见度数据&#xff0c;最详细的能见度数据是具体到气象监测站点的能见度数据&#xff01; 有关气象指标的监测站点数据&#xff0c;之前我们分享过1929…

Jmeter分布式压力测试

目录 1、场景 2、原理 3、注意事项 4、slave配置 5、master配置 6、脚本执行 注意&#xff1a; 1、场景 在做性能测试时&#xff0c;单台机器进行压测可能达不到预期结果。主要原因是单台机器压到一定程度会出现瓶颈。也有可能单机网卡跟不上造成结果偏差较大。 例如4C…

Pytest教程__跳过用例的执行(7)

pytest跳过用例执行的用法与unittest跳过用例大致相同。 pytest跳过用例的方法如下&#xff1a; pytest.mark.skip(reason)&#xff1a;无条件用例。reason是跳过原因&#xff0c;下同。pytest.mark.skipIf(condition, reason)&#xff1a;condition为True时跳过用例。 pyte…

一文了解清楚前景无限的高性能计算工程师工作内容,原来和码农区别这么大 ...

随着我国对科研基建的重视以及超算互联网的部署工作正式开展&#xff0c;越来越多的人关注到了一块蓝海的就业宝藏——高性能计算工程师。当今一位高性能计算工程师人才可谓抢手至极&#xff0c;尽管年薪高涨&#xff0c;但是依然供不应求。这是未来30年都比较需要的工程技术人…

java基础(多线程)-wait/notify

一、wait/notify的原理 Owner线程发现条件不满足&#xff0c;调用wait方法&#xff0c;即可进入WaitSet变为WAITING状态 BLOCKED和WAITING的线程都处于阻塞状态&#xff0c;不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll…

大话设计模式之——单例模式

单例&#xff08;Singleton&#xff09; Intent 确保一个类只有一个实例&#xff0c;并提供该实例的全局访问点。 Class Diagram 使用一个私有构造函数、一个私有静态变量以及一个公有静态函数来实现。 私有构造函数保证了不能通过构造函数来创建对象实例&#xff0c;只能…

Selenium+Unittest自动化测试框架实战详解

目录 前言 项目框架 首先管理时间 !/usr/bin/env python3 -- coding:utf-8 -- 配置文件 conf.py config.ini 读取配置文件 记录操作日志 简单理解POM模型 管理页面元素 封装Selenium基类 创建页面对象 熟悉unittest测试框架 编写测试用例 执行用例 生成测试报…

存储圈秘史,细说“配额管理”的那些事儿

江湖乱战 分布式存储圈管理者“配额管理”出手划天下 各方数据混战之际 管理员划分空间应接不暇 不可避免的产生资源划分不合理等问题 各路“配额管理”豪杰陆续上线&#xff0c;力求结束纷争一统江湖 职场人所熟知的办公软件“共享盘”冲锋在前 共享盘可支持多人实时上…

在Blender中制作一艘海船

今天瑞云小编给大家带了由作者Menno Snoek的Blender教程&#xff0c;一名自学成才的 3D 艺术家&#xff0c;现在已经使用 Blender 大约 2 年了&#xff0c;接下来跟着云渲染小编看下Express Shipping&#xff08;海船&#xff09;背后的工作流程。 介绍 嘿&#xff01;我叫 M…

高分子PEG:Maleimide-PEG5K-NOTA,NOTA-聚乙二醇马来酰亚胺,规格特点介绍

NOTA-PEG5000-Mal&#xff0c;Maleimide-PEG5K-NOTA&#xff0c;NOTA-聚乙二醇马来酰亚胺&#xff0c;MV5000产品结构式&#xff1a; 产品规格&#xff1a; 1.CAS号&#xff1a;N/A 2.包装规格&#xff1a;1g、5g、10g&#xff0c;包装灵活&#xff0c;有100mg包装也有500mg 1…

技术新动向 | 谷歌云大举扩展安全 AI 生态系统

【本文由 Cloud Ace 整理发布&#xff0c; Cloud Ace 是谷歌云全球战略合作伙伴&#xff0c;拥有 300 多名工程师&#xff0c;也是谷歌最高级别合作伙伴&#xff0c;多次获得 Google Cloud 合作伙伴奖。作为谷歌托管服务商&#xff0c;我们提供谷歌云、谷歌地图、谷歌办公套件…

Linux:IP地址和主机名

1、IP地址&#xff1a;每个联网的电脑都会有一个地址&#xff0c;用于和其他计算机进行通讯 IP地址目前有两个版本&#xff0c;IPv4和IPv6&#xff0c;目前最常用的是IPv4版本&#xff1b;IPv4版本的地址格式为a:b:c:d&#xff0c;a、b、c、d代表了0-255的数字 Linux中&#xf…

基于SSM的电影院购票系统开源啦

大家好&#xff0c;今天给大家带来一款SSM的电影院售票系统&#xff0c;非常不错的一个项目&#xff0c;学习javaweb编程必备。 下载地址在文末 1.SpringMVC Spring MVC属于SpringFrameWork的后续产品&#xff0c;已经融合在Spring Web Flow 里面。Spring 框架提供了构建 Web …