为什么JDK中String类的indexof不使用KMP或者Boyer-Moore等时间复杂度低的算法编辑器

news2025/1/11 2:13:18

indexOf底层使用的方法是典型的BF算法。

1、KMP算法

由来

外国人: Knuth,Morris和Pratt发明了这个算法,然后取它三个的首字母进行了命名。所以叫做KMP。

KMP真的很难理解,建议多看几遍 B站代码随想录,文章也的再好

用处

时间复杂度O(n)

主要应用在 字符串匹配中

最长公共前后缀

将字符串拆分成以首字符开始的各个子串,然后依次判断,下标 n与下标 length - n - 1的元素是否相等,若有 m个连续相等的字符,则最长公共前缀为 m

例如字符串:AABAAF的公共前后缀长度如下图所示,红色代表不相同,蓝色代表元素相同

知道了公共前缀, 相应的可以利用我们获取到的公共前缀表来找到当字符不匹配的时候指针应该移动的位置,如下图所示:

下图来自于 代码随想录

核心:next数组

next数组就是用来存储公共前缀的个数的, 例如上面的例子,他的next数组结果就应该是

int[] next = {0,1,0,1,2,0}
复制代码

思路分析

  • 前置条件, 字符串 s,前缀数组 int[] next
  • 设置一个整数 j代表最长公共前后缀的个数
  • 首先是初始化,我们的 next数组第一个元素肯定是 0
  • 然后去 for循环我们的字符串,这里需要注意的是我们的for循环是从下标 1开始的
  • 判断 j必须大于 0不然的话在回溯过程中会发生 越界的情况,还要判断元素是否相等
    • 若不相等则 j回溯到上一个 next数组下标
    • 这里需要注意的是要用 while循环,因为可能会一直进行回溯操作
  • 当 s.charAt(j) == s.charAt(i)时,代表最长前后缀元素个数 +1,所以 j++
  • 最后将 j的值赋给数组 next[i]

代码展示

public static int KMP(String s, String p) {
    int slen = s.length();
    int plen = p.length();
    char[] str = s.toCharArray();
    char[] ptr = p.toCharArray();
    int[] next = new int[plen];
    cal_next(ptr, next);
    int k = -1;
    for (int i = 0; i < slen; i++) {
        while (k > -1 && ptr[k + 1] != str[i])  //ptr和str不匹配,且k>-1(表示ptr和str有部分匹配)
            k = next[k];                //往前回溯
        if (ptr[k + 1] == str[i])
            k ++;
        if (k == plen - 1) {            //说明k移动到ptr的最末端
            return i - plen + 1;        //返回相应的位置
        }
    }
    return -1;
}

public static void cal_next(char[] str, int[] next) {
    int len = str.length;
    next[0] = -1;         //next[0]初始化为-1,-1表示不存在相同的最大前缀和最大后缀
    int k = -1;           //k初始化为-1
    
    //如果下一个不同,那么k就变成next[k],注意next[k]
    for (int q = 1; q <= len - 1; q++) {
        while (k > -1 && str[k + 1] != str[q]) { //是小于k的,无论k取任何值。
            k = next[k];                         //往前回溯
        }
        if (str[k + 1] == str[q]) {              //如果相同,k++
            k ++;
        }
        next[q] = k;      //这个是把算的k的值(就是相同的最大前缀和最大后缀长)赋给next[q]
}

public static void main(String[] args) {
    long start = System.currentTimeMillis();
    String full = "BBC ABCDAB ABCDABCDABDE";
    String par = "ABCDABD";
    int res = KMP(full,par);
    //int res = full.indexOf(par);
    System.out.println(res+","+(System.currentTimeMillis() - start)+"ms");
}

2、BF与RK算法

2.1 BF算法

BF算法就是Brute Force,暴力匹配算法,也成为朴素匹配算法,主串的大小是sourceSize,模式串的大小是targetSize,因为我们要在主串中查找模式串,所以sourceZize > targetSize,所以从主串下标为0开始,连续查找targetSize个字符,再从下标为1开始后,一直到,下标为sourceSize - targetSize ,举个简单的例子在ABCDEFG中查找EF:

上图依次表示从i为0,到i为4时的依次比较,从图中我们也可以看出,BF算法是比较耗时的,因为比较的次数较多,但是实际比较的时候主串和模式串都不会太长,所以这种比较的方法更容易使用。

现在我们回过头看看indexOf的下半部分源码,我相信其实不用解释了。

2.2 RK算法

        RK算法其实就是对BF算法的升级,还是以上面的图为例,在ABCDEFG中查找EF的时候,比如下标为0的时候,我们去比较A和E的值,不相等就不继续往下比较了,但是比如我们现在查找CDF是否在主串中存在,我们要从C已知比较大E发现第三位不相等,这样当模式串前一部分等于主串,只有最后一位不相等的时候,比较的次数太多了,效率比较低,所以我们可以采用哈希计算来比较,哈希计算 后面我会补充一篇。

        我们要将模式串和sourceSize - targetSize + 1 个字符串相比,我们可以先将sourceSize - targetSize + 1个模式串进行哈希计算。与哈希计算后的模式串相比较,如果相等则存在,对于哈希冲突在一般实现中概率比较低,不放心的话我们可以在哈希值相等时候再比较一次原字符串确保准确,哈希的冲突概率也和哈希算法的本身设计有关。这样的话,我们首先计算AB的哈希值 与 模式串的相比较,然后计算BC的哈希值与模式串相比较,直到比较出相等的返回下标即可。

3、String.index源码

使用的测试代码如下所示

String haystack = "mississippi", needle = "issip";
int i1 = haystack.indexOf(needle);

对应的源码方法重载跳转如下所示:
  • 先进入 indexOf(String str)方法
  • 跳转进入 indexOf(String str, int fromIndex)
    • 这个时候 fromIndex == 0
  • 跳转进入 inexOf(char[] source, int sourceOffset, int sourceCount,            char[] target, int targetOffset, int targetCount,            int fromIndex)
    • value表示 haystack元素的 char数组
    • value.length表示 haystack的长度
    • str.value表示 needle元素的 char数组
    • str.value.length表示 needle的长度
  • 接下来我们看 indexOf方法的具体实现

String.indexOf()方法详解

因为我没有下载 java8源码,所以直接在这里进行注释标注了

// source:       当前字符串元素
// sourceOffset: 偏移量
// sourceCount: 当前字符串长度
// target:      目标字符串
// targetOffset:目标字符串偏移量
// targetCount: 目标字符串长度
// fromIndex:   索引位置
static int indexOf(char[] source, int sourceOffset, int sourceCount,
        char[] target, int targetOffset, int targetCount,
        int fromIndex) {
    if (fromIndex >= sourceCount) {
        return (targetCount == 0 ? sourceCount : -1);
    }
    if (fromIndex < 0) {
        fromIndex = 0;
    }
    // 如果目标字符串的长度为 0则直接返回 索引位置 (我们这里因为之前方法重载 fromIndex为 0 所以返回 0)
    if (targetCount == 0) {
        return fromIndex;
    }
    // 获取目标 首字符
    char first = target[targetOffset];
    // 我们这里就是 源字符串长度 - 目标字符串长度, sourceOffset == 0
    int max = sourceOffset + (sourceCount - targetCount);
    // 循环,i == 0
    // 加入循环到了 max的索引位置还没有找到和 目标字符串首字符相等的元素,则源字符串中肯定不包含目标字符串
    for (int i = sourceOffset + fromIndex; i <= max; i++) {
        // 搜索首字符所在位置
        if (source[i] != first) {
            while (++i <= max && source[i] != first);
        }
        // 找到了首字符,判断其余字符位置是否相等
        if (i <= max) {
            int j = i + 1;
            // 根据目标字符串的长度截取源字符串从下标 i开始相同长度的字符串
            int end = j + targetCount - 1;
            // 遍历判断
            for (int k = targetOffset + 1; j < end && source[j]
                    == target[k]; j++, k++);
            // 如果到最后一个元素都相同,则代表源字符串内包含目标字符串
            if (j == end) {
                // 这里就直接返回了 i 因为源字符串偏移量为 0
                return i - sourceOffset;
            }
        }
    }
    return -1;
}

时间复杂度O(n*m)

4、为什么Java String.indexOf ()没有使用更加“高效”的字符串搜索算法

为什么Java String indexOf 没有使用更加“高效”的算法

参考:

java - Why does String.indexOf() not use KMP? - Stack Overflow

       原来JDK的编写者们认为大多数情况下,字符串都不长,使用原始实现可能代价更低。

       因为KMP和Boyer-Moore算法都需要预先计算处理来获得辅助数组,需要一定的时间和空间,这可能在短字符串查找中相比较原始实现耗费更大的代价。在短字符串测试过程中,使用indexOf方法时要比KMP算法要快一点。KMP算法对与超长字符串子匹配速度上是优于IndexOf的。

      因为KMP算法需要预先计算处理来获得辅助数组,需要一定的时间和空间,这可能在短字符串查找中相比较原始实现耗费更大的代价。

      而且一般大字符串查找时,程序员们也会使用其它特定的数据结构,查找起来更简单。这有点类似于排除特定情况下的快速排序了。不同环境选择不同算法。

5、总结起来有两点:

  • ① 高效的算法BM和KMP都是需要空间作为代价的,特别是BM,任何一个字符串都需要至少64K内存,考虑到L1 Cache大小,cost更不可知。
  • ② JDK应该默认了不会使用Java String.indexOf查找过大的字符串,对于轻量级(通常不超过几十个字符),及时暴力用时也非常短。这也提示,Java String.indexOf的客户端程序员应该对于自己使用的API有所了解,如果要进行过大的字符串查找,应该自己设计算法(取出两个字符串的value[],然后实现BM或KMP)或调用第三方工具专门处理。

6、参考

java - Why does String.indexOf() not use KMP? - Stack Overflow

efficiency - Why does Java's String class not implement a more efficient indexOf()? - Software Engineering Stack Exchange

从 KMP算法到 Java的 String.indexOf(String str)方法-阿里云开发者社区

字符串匹配算法从indexOf函数讲起 - 腾讯云开发者社区-腾讯云

字符串匹配算法总结 (分析及Java实现)_数据中国的博客-CSDN博客

KMP算法——字符串快速匹配_AAMahone的博客-CSDN博客 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/170303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【蓝桥杯备赛系列 | 真题 | 简单题】2014年第五届真题-分糖果

&#x1f935;‍♂️ 个人主页: 计算机魔术师 &#x1f468;‍&#x1f4bb; 作者简介&#xff1a;CSDN内容合伙人&#xff0c;全栈领域优质创作者。 蓝桥杯竞赛专栏 | 简单题系列 &#xff08;一&#xff09; 作者&#xff1a; 计算机魔术师 版本&#xff1a; 1.0 &#xff08…

【博客597】iptables如何借助连续内存块通过xt_table结构管理流量规则

iptables如何借助连续内存块通过xt_table结构管理流量规则 1、iptables 分为两部分&#xff1a; 用户空间的 iptables 命令向用户提供访问内核 iptables 模块的管理界面。内核空间的 iptables 模块在内存中维护规则表&#xff0c;实现表的创建及注册。 2、iptables如何管理众…

第十二章 数据库设计

前言 本文章为看视频所写。 视频链接&#xff1a;168. 14.1 数据库设计前言_哔哩哔哩_bilibili 目录 前言 章节提要 一、数据库设计过程 二、E-R模型 三、答题技巧 四、案例分析 1、案例1 二、案例2 章节提要 一、数据库设计过程 ER模型&#xff1a;是实体联系模型&#x…

第一章 数据结构绪论

数据结构&#xff1a;是相互之间存在一种或多种特定关系的数据元素的集合。数据结构是一门研究非数值计算的程序设计问题中的操作对象&#xff0c;以及它们之间关系和操作等相关问题的学科。程序设计数据结构算法数据&#xff1a;是描述客观事物的符号&#xff0c;是计算机中可…

2.2、进程的状态与转换

整体框架 1、三种基本状态 进程是程序的一次执行。在这个执行过程中&#xff0c;有时进程正在被 CPU 处理&#xff0c;有时又需要等待 CPU 服务&#xff0c; 可见进程的状态是会有各种变化。 为了方便对各个进程的管理&#xff0c;操作系统需要将进程合理地划分为几种状态 ①…

随机梯度下降法的数学基础

梯度是微积分中的基本概念&#xff0c;也是机器学习解优化问题经常使用的数学工具&#xff08;梯度下降算法&#xff09;。因此&#xff0c;有必要从头理解梯度的来源和意义。本文从导数开始讲起&#xff0c;讲述了导数、偏导数、方向导数和梯度的定义、意义和数学公式&#xf…

SpringBoot-自动配置-切换内置web服务器

SpringBoot-自动配置-切换内置web服务器 介绍 SpringBoot的web环境中默认使用tomcat作为内置服务器其实SpringBoot提供了4种内置服务器供我们选择分别为&#xff1a;Jetty&#xff0c;Netty&#xff0c;Tomcat&#xff0c;Undertow我们可以很方便的进行切换 实例演示 在pom文件…

简单了解操作系统、进程内存管理

目录 前言&#xff1a; 一、操作系统&#xff1a; 操作系统的定位&#xff1a; 应用程序&#xff1a; 系统调用&#xff1a; 操作系统内核&#xff1a; 驱动程序&#xff1a; 硬件设备&#xff1a; 二、进程&#xff1a; 什么是进程&#xff1f; 进程的描述与组…

自定义类型,结构体、枚举、联合(C语言)

目录 结构体 结构体的基础知识&#xff1a; 结构体的声明&#xff1a; 特殊声明&#xff1a; 结构体的自引用 结构体变量的定义和初始化 结构体内存对齐&#xff1a; 修改默认对齐数&#xff1a; 结构体传参 结构体的柔型数组 柔型数组的书写 柔性数组的特点 柔性数组的使用 柔…

【Java寒假打卡】JavaWeb-Tomcat

【Java寒假打卡】JavaWeb-Tomcat服务器Tomcat下载和安装Tomcat的目录结构基本使用控制台乱码的问题IDEA集成TomcatJavaWeb项目的目录结构Tomcat-idea发布项目Tomcat-WAR包发布项目Tomcat配置文件的介绍Tomcat配置虚拟目录Tomcat配置虚拟主机服务器 Tomcat下载和安装 将下载好的…

干货 | 数据安全和个人信息保护审计的方法研究

以下内容整理自清华大学《数智安全与标准化》课程大作业期末报告同学的汇报内容。第一部分&#xff1a;概述我们的研究核心是个人信息保护合规审计&#xff0c;具体指个人信息处理活动是否遵守我国相关法律法规的监督性审计。在个保法出台后&#xff0c;我国形成了以内部审计为…

我用ChatGPT写神经网络:一字不改,结果竟很好用

自从去年底推出以来&#xff0c;对话式 AI 模型 ChatGPT 火遍了整个社区。 ChatGPT 的确是一个了不起的工具&#xff0c;就像一个「潘多拉魔盒」。一旦找到正确的打开方式&#xff0c;你或许会发现&#xff0c;自己再也离不开它了。 作为一个全能选手&#xff0c;人们给 Chat…

Fedora 38发布Budgie与Sway定制版

导读两款新的 Fedora 定制版将在 Fedora 38 发布时首次亮相。我们期待着它们在 Fedora 37 时出现&#xff0c;但在 Fedora 38 中终于来了&#xff01; 早在 2022 年 5 月&#xff0c;Budgie 项目的主要开发者 Joshua Strobl ​​宣布​​&#xff0c;Budgie 已被提交到 Fedora…

第五届字节跳动青训营 前端进阶学习笔记(四)TypeScript入门

文章目录前言TypeScript概要1.什么是TypeScript2.TypeScript基本语法基础数据类型对象类型函数类型函数重载数组类型补充类型泛型约束和泛型默认参数类型别名和类型断言高级类型1.联合类型2.交叉类型3.类型守卫类型谓词总结前言 课程重点&#xff1a; TypeScript概要TypeScri…

Kubernets核心介绍及实战

1、资源创建方式 命令行YAML 2、Namespace 名称空间用来隔离资源 “namespace"通常被翻译为「命名空间」&#xff0c;听起来好像比较抽象&#xff0c;其实重点是在这个"space”。它和描述进程的虚拟地址空间的address space一样&#xff0c;都是提供一种独占的视角…

linux引导和启动程序

1.BIOS/Bootloader: 一上电&#xff0c;硬件强制让cpu的cs:ip寄存器指向bios程序的位置&#xff0c;从bios程序开始执行&#xff0c;由pc机的BIOS &#xff08;0xFFFFO是BIOs存储的总线地址&#xff09;把bootsect从某个固定的地址拿到了内存中的某个固定地址&#xff08;0x90…

SpringAMQP快速入门

介绍Spring AMQP 项目将核心 Spring 概念应用于基于 AMQP 的消息传递解决方案的开发它提供了一个“模板”作为发送和接收消息的高级抽象它还通过“侦听器容器”为消息驱动的 POJO 提供支持这些库促进了 AMQP 资源的管理&#xff0c;同时促进了依赖注入和声明性配置的使用包含两…

纷享销客华为云CXO思享会华东系列活动成功举办!

3天&#xff0c;3座城市&#xff0c;5家标杆企业&#xff0c;11位不同领域的专家&#xff0c;超百位企业家云集。1月10日-13日&#xff0c;纷享销客与华为云联合举办的“数字创新 高效增长”CXO思享会华东系列活动成功举办。全国各地超百名企业家齐聚华东参与本次思享会&#x…

kubeasz安装kubernetes1.25.5

kubeasz安装k8s 1 配置 kubeasz安装kubernetes&#xff0c;只需要做好网通配置&#xff0c;做好ssh免密通信配置即可 1.1 环境介绍 OS&#xff1a;CentOS Linux release 8.5.2111 机器: IPhostname10.104.10.201k8s-master10.104.10.202k8s-node 所有机器&#xff0c;都将…

3-4存储系统-虚拟存储器(CO)

文章目录一.页式存储1.页式存储系统2.逻辑地址到物理地址的转换3.页表4.快表TLB二.虚拟存储器&#xff08;一&#xff09;页式虚拟存储器&#xff08;二&#xff09;段式虚拟存储器&#xff08;三&#xff09;段页式虚拟存储器一.页式存储 1.页式存储系统 为提高主存的空间利…