从源码出发剖解正则表达式

news2024/11/16 2:43:16

✨✨hello,愿意点进来的小伙伴们,你们好呐!
🐻🐻系列专栏:【JavaSE】
🐲🐲本篇内容:详解正则表达式
🐯🐯作者简介:一名现大二的三非编程小白,日复一日,仍需努力。

 

  • 基本语法:
    • 语法入门:
    • 字符匹配符
    • 选择匹配符
    • 限定符
    • 定位符
    • 分组符
  • 正则表达式底层:
    • 分组元字符:
    • 反向引用:
  • 常用类:
  • String类中的使用
    • 替换
    • 判断
    • 分割

正则表达式是一种程序员用来处理文本的利器

🍑🍑🍑正则表达式就是用某种模式去进行字符串匹配的一个公式,这个公式虽然看起来很起来,但是只要我们使用熟练后绝对是最靓的仔,用很古怪的公式,很高效的处理文本

接下来我来给大家介绍一下正则表达式的基本语法:

基本语法:

语法入门:

🛵🛵🛵下面我来写一个简单的正则表达式的模式匹配格式,带大家入门

public class Regexp_ {
    public static void main(String[] args) {

        //假设得到了以下文本
        String content = "";
        
		//我们写一个公式来进行模式匹配 -- 这个就是我们来进行模式匹配的正则表达式
		String regStr = "([0-9]+)|([a-zA-Z]+)";
		
        //先创建一个模式对象
        //就是依照这个公式来进行匹配的模式
        Pattern pattern = Pattern.compile(regStr);

        //创建匹配器对象
        Matcher matcher = pattern.matcher(content);

        //循环匹配
        //匹配器 按照模式 到content文本中去匹配,找到就返回true,否则就返回false
        while (matcher.find()) {
            //匹配内容 放到 group(0)
            System.out.println("找到 : " + matcher.group(0));
        }
    }
}

正则表达式有很多元字符供你使用,如果想灵活的使用正则表达式的话,下面的元字符都必须了解清楚:

在我们使用正则表达式的去检索某些特殊字符的时候,需要用到转义符号 ,否则就无法检索,然后在Java的正则表达式中使用 \\ 来表示 \

元字符可以分为六种

在这里插入图片描述
下面我来给大家介绍一下这些元字符的使用方法

将采取介绍与代码实例来更清楚的理解

字符匹配符

在这里插入图片描述
在这里插入图片描述

public class test {
    public static void main(String[] args) {

        String content = "abc";
        //String regStr = "[abc]";//寻找[abc]中其中之一
        /*
        找到 = a
        找到 = b
        找到 = c
         */

        //String regStr = "[^ab]";//[^ab]找到非ab的元素
        /*
        找到 = c
         */

        //String regStr = "[a-z]";// - 连接a与z 匹配a-z的任意一个字符
        /*
        找到 = a
        找到 = b
        找到 = c
         */

        //String regStr = "a.c";//. -- 除了\n的其他的字符 匹配以a开头,c结尾,中间任意一个字符
        /*
        找到 = abc
         */
        
        //String regStr = "\\d";//匹配单个数字字符 , 

        //String regStr = "\\D";//匹配非数字字符 == [^0-9]

        //String regStr = "\\w";//匹配单个[0-9a-zA-Z]的字符

        //String regStr = "\\W";//匹配单个[^0-9a-zA-Z]的字符

        String regStr = "";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);

        while(matcher.find()) {
            System.out.println("找到 = " + matcher.group(0));
        }
    }
}

选择匹配符

在这里插入图片描述

public class test2 {
    public static void main(String[] args) {
        String content = "abc";
        String regStr = "[a|b]";//匹配a或者b的其中一个
        /*
        找到 = a
        找到 = b
         */
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);

        while(matcher.find()) {
            System.out.println("找到 = " + matcher.group(0));
        }
    }
}

限定符

在这里插入图片描述
在这里插入图片描述

public class test3 {
    public static void main(String[] args) {
        String content = "abc";
        //String regStr = "(ab)*";//匹配是否有(ab)字符串出现次数至少0次
        /*
        找到 = ab
        找到 =
        找到 =
        //后面两个都是找到(ab)出现0次
         */

        //String regStr = "(ab)+";//匹配(ab)出现至少一次
        /*
        找到 = ab
         */

        //String regStr = "(a?ab)";//开头是否有a都会匹配到,后面接ab
        /*
       找到 = ab
        */

        //String regStr = "[abcde]{2}";//[abcde]中任意两个字符,从content字符串头开始匹配
        /*
        找到 = ab
         */

        //String regStr = "[abcde]{2,}";//{2,} 最少有两个字符匹配
        /*
        找到 = abc
        //因为正则表达式默认情况下是贪婪匹配的,只会往多了去匹配
         */

        String regStr = "[abcde]{1,2}";//字符串中最少有一个字符匹配,最多有两个字符匹配
        /*
        //也是遵循贪婪匹配
        找到 = ab
        找到 = c
         */
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);

        while (matcher.find()) {
            System.out.println("找到 = " + matcher.group(0));
        }
    }
}

定位符

在这里插入图片描述

public class test4 {
    public static void main(String[] args) {
        String content = "00sds111";
        //String regStr = "^[0-9]+[a-z]*";//匹配至少以一个数字字符开头,后面接任意个小写字母字符
        /*
        找到 = 00sds
         */

        //String regStr = "^[0-9]+[a-z]*[0-9]+$";//匹配以最少一个数字字符,最少一个数字字符结尾,中间有最少0个小写字母字符
        /*
        找到 = 00sds
         */

        //String regStr = "[a-z]*111\\b";//匹配以111为右边界的第一个字符(空格也算边界),左边接最少0个小写字母字符
        /*
        找到 = sds111
         */

        String regStr = "00\\B[a-z]*";//匹配以00为左边界的第一个字符,右边最少接0个1小写字母
        /*
        到 = 00sds
         */
        
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);

        while (matcher.find()) {
            System.out.println("找到 = " + matcher.group(0));
        }
    }
}

分组符

在这里插入图片描述
在这里插入图片描述

在解释分组匹配符之前我先来介绍一下正则表达式的底层实现

正则表达式底层:

我们来通过源码来了解正则表达式的底层是什么样子的

public class RegTheory2 {
    public static void main(String[] args) {
        String content = "123abc789";
        String regStr = "\\d{3}";

        //创建模式对象
        //说明寻找规则
        Pattern pattern = Pattern.compile(regStr);

        //匹配器
        //创建一个匹配器,按照 正则规则去匹配content这个字符串
        Matcher matcher = pattern.matcher(content);

        //matcher.find() 去循环匹配是否有该规则的字符串,返回true或者false
        while (matcher.find()) {
            //matcher.group(0)
            System.out.println("找到 = " + matcher.group(0));
        }
    }
}

我们通过Pattern类中的静态方法compile来创建一个正则表达式规则的模式匹配
然后通过这个模式去调用matcher方法来返回一个匹配器对象.
我们会发现打印的group()方法,中其实是使用字符串截取,其中涉及到group[]数组
在这里插入图片描述

然后group[]数组是Matcher中的一个属性,是为什么会截取中的是取group[]数组中的值呢,然后还有group * 2 / group * 2 + 1 这个算法
接下来我们来对代码调试找出原因

在这里插入图片描述

🍨🍨🍨🍕调试代码
在这里插入图片描述

代码继续往下走

在这里插入图片描述

我们在matcher对象的groups数组中发现下标0与1都被赋值,分别是0或者3,那么是怎么回事呢?

其实就是按照当前的匹配模式在字符串中1匹配到的字符串的 [开始下标与结束下标+1],
在这里插入图片描述
然后在group方法中,传入的group值为0,所以最后截取达到就是groups数组中下标为0或者1的值,对应的就是原本要匹配的字符串的下标
在这里插入图片描述

在第一次匹配查找底层就是如此,那么循环第二次第三次会是怎么样的呢?

🌮🌮🌮
我们会发现在matcher对象中还有一个last与oldlast,且值是我们刚刚匹配到的字符串的结尾下标,其实这个值就是让我们使用于下一个匹配的开始下标! ! !
在这里插入图片描述

我们继续走源码,看看究竟会发生什么?

继续走源码,依旧找到的是匹配的字符串的开始下标和结束下标+1,再一次证明了我们刚刚的结论是正确的
在这里插入图片描述

那这个时候我们就会有疑问了,这个数组为什么只有前两个下标存储了内容,那其他的内存是来干什么的呢?其实就和我们上面还没有介绍的分组操作符有关了

接下来我们再来看看是怎么回事

分组元字符:

public class RegTheory2 {
    public static void main(String[] args) {
        String content = "123456789";
        String regStr = "(\\d{3})(\\d{3})(\\d{3})";

        //创建模式对象
        //说明寻找规则
        Pattern pattern = Pattern.compile(regStr);

        //匹配器
        //创建一个匹配器,按照 正则规则去匹配content这个字符串
        Matcher matcher = pattern.matcher(content);

        //matcher.find() 去循环匹配是否有该规则的字符串,返回true或者false
        while (matcher.find()) {
            //matcher.group(0)
            System.out.println("找到 = " + matcher.group(0));
        }
    }
}

继续调试我们发现groups[]数组中会有更多的空间使用到了
分组的第一组下标的就是在groups[]数组中下标为2,3的数,以此类推
在这里插入图片描述

那么分组后,我们想取第一组的值,就调用Matcher类中的group()方法,传入1
在这里插入图片描述

传入1计算后,就会发现与groups[]中存储第一组字符串的下标是对应的
在这里插入图片描述
在这里插入图片描述

🛫🛫🛫总结:对应正则表达式匹配来说,是通过原本的字符串下标截取来体现出我们匹配的结果的(我们称为结果下标),那么结果下标的存储都是在Matcher类中的groups[]数组中的,groups[]数组中的前两个空间存储的就是匹配到的整个字符串的开始结束下标,那么后面的每两个空间存储的就是在匹配规则中的每一个分组的字符串的开始结束下标.存储下标完,通过group()方法返回,该方法返回的就是字符串截取,然后通过方法的算法得出,group(0)返回的就是整个匹配的字符串,然后group(1)返回的就是第一个分组匹配到的字符串,以此类推

⛴⛴⛴🚓🚓🚓然后我们可以通过给分组命名
在这里插入图片描述

public class RegTheory2 {
    public static void main(String[] args) {
        String content = "123456789";
        String regStr = "(?<a>\\d{3})(?<b>\\d{3})(?<c>\\d{3})";

        //创建模式对象
        //说明寻找规则
        Pattern pattern = Pattern.compile(regStr);

        //匹配器
        //创建一个匹配器,按照 正则规则去匹配content这个字符串
        Matcher matcher = pattern.matcher(content);

        //matcher.find() 去循环匹配是否有该规则的字符串,返回true或者false
        while (matcher.find()) {
            //matcher.group(0)
            System.out.println("找到 = " + matcher.group(0));
            System.out.println("找到 = " + matcher.group("a"));
            System.out.println("找到 = " + matcher.group("b"));
            System.out.println("找到 = " + matcher.group("c"));
        }
    }
}

在这里插入图片描述

在这里插入图片描述

这些则是不捕获的匹配表达式,这些表达式使用后,在group[]数组中是不在捕获到分组的下标了

反向引用:

我们对应分组的圆括号内被捕获后,这个分组还可以被继续引用,称为反向引用,这个引用可以在正则表达式内部,也可以在外部,内部反向引用–\分组号,外部反向引用$分组号

内部引用

public class RegTheory2 {
    public static void main(String[] args) {
        String content = "1122";
        String regStr = "(\\d)\\1";

        //创建模式对象
        //说明寻找规则
        Pattern pattern = Pattern.compile(regStr);

        //匹配器
        //创建一个匹配器,按照 正则规则去匹配content这个字符串
        Matcher matcher = pattern.matcher(content);

        //matcher.find() 去循环匹配是否有该规则的字符串,返回true或者false
        while (matcher.find()) {
            //matcher.group(0)
            System.out.println("找到 = " + matcher.group(0));

        }
    }
}

匹配两个一样的字符就可以使用到反向引用
在这里插入图片描述
"结巴程序"化为不结巴就可以使用反向引用中的外部引用来化解:

public class RegTheory2 {
    public static void main(String[] args) {
        String content = "我....我要....学学学学....编程 java!";
        String regStr = "\\.";

        //创建模式对象
        //说明寻找规则
        Pattern pattern = Pattern.compile(regStr);

        //匹配器
        //创建一个匹配器,按照 正则规则去匹配content这个字符串
        Matcher matcher = pattern.matcher(content);

        //Matcher 中的replaceAll方法是一个替换所有方法,将字符串原本根据正则表达式匹配到的值替换为传入的字符串参数;
        //1.去掉...
        content = matcher.replaceAll("");

        //2.去掉重复的字
        //使用(.)\\1+ 匹配到重复的字
        //然后使用反向引用$1 来替换
        regStr = "(.)\\1+";
        pattern = Pattern.compile(regStr);
        matcher = pattern.matcher(content);
        
        content = matcher.replaceAll("$1");
        //content = Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");

        System.out.println(content);
    }
}

在这里插入图片描述

常用类:

在java.util.regex中主要包括 Pattern 类, Matcher 类 和 PatternSyntaxException 异常类

Pattern类

Pattern对象是一个正则表达式的对象.Pattern类没有公共的构造方法,所以无法直接创建,只能通过类中的静态方法来返回一个Pattern对象,该方法可以传入一个正则表达式来作为参数

   String regStr = "(?<a>\\d{3})(?<b>\\d{3})(?<c>\\d{3})";
    //创建模式对象
    //说明寻找规则
    Pattern pattern = Pattern.compile(regStr);

在这里插入图片描述

Matcher类

Metcher 对象是对要来进行匹配的字符串的解析和匹配的引擎,与Pattern类一样,Matcher类也没有公共的构造方法,想获取该类对象,只能通过Pattern对象的matcher方法来获取

    //匹配器
     //创建一个匹配器,按照 正则规则去匹配content这个字符串
     Matcher matcher = pattern.matcher(content);

在这里插入图片描述

PatternSyntaxException 异常类

该类就是来检查正则表达式公式中的语法错误,是一个非强制异常类.

String类中的使用

正则表达式作为处理字符串文本的利器,在Java中的String理所应当要用正则表达式对应的方法啦

替换

将原本的JDK1.3/1.4 替换为JDK

public class test6 {
    public static void main(String[] args) {
        String content = "2000年 5月,JDK1.3、JDK1.4和 J2SE1.3相继发布,几周后其"
                +"获得了 Apple公司 Mac OS X的工业标准的支持。2001年 9月 24日,J2EE1.3发" +"布。" +"2002年 2月 26日,J2SE1.4发布。自此 Java的计算能力有了大幅提升";

        content = content.replaceAll("JDK1\\.3|JDK1\\.4", "JDK");

        System.out.println(content);
    }
}

这样子节省了创建模式,创建匹配器对象的操作,很方便的使用到正则表达式

判断

public class test6 {
    public static void main(String[] args) {
        String content = "13888889999";

        if (content.matches("1(38|39)\\d{8}")) {
            System.out.println("验证成功");
        } else {
            System.out.println("验证失败");
        }

        System.out.println(content);
    }
}

我们往String类的matches方法深入解剖下去
在这里插入图片描述
最终还是调用Pattern的matches()方法
在这里插入图片描述

分割

往split方法中也可以传入正则表达式来继续字符串的分割匹配

public class test6 {
    public static void main(String[] args) {
        //要求按照 #或者 -或者 ~或者数字来分割
        String content = "hello#abc-jack12smith~北京";

        String[] split = content.split("#|-|~|\\d+");

        for (String s :
                split) {
            System.out.println(s);
        }
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/73515.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[ MySQL ] 使用Navicat进行MySQL数据库备份 / 还原(备份.nb3文件方式)

本文主要讲解如何用Navicat&#xff08;Navicat Premium &#xff0c;或者Navicat for mysql&#xff09;进行MySQL备份和恢复数据库。 本文主要大纲为&#xff1a;使用Navicat备份工具方式进行备份和还原&#xff0c;其中包括还原自身数据库和还原到其他目标库。 文章目录一、…

Jenkins 中 shell 脚本执行失败却不自行退出

Jenkins 中 执行 shell 脚本时&#xff0c;有时候 shell 执行失败了&#xff0c;或者判断结果是错误的&#xff0c;但是 Jenkins 执行完成后确提示成功 success 。 此时&#xff0c;可以通过条件判断来解决这个问题&#xff0c;让 Jenkins 强制退出并提示执行失败 failed 。 …

Tensorflow笔记

Tensorflow笔记基础概念计算图Eager Execution&#xff08;即刻执行&#xff09;eager模式下计算梯度基本使用tf.app加载flag&#xff08;tf.app.flags&#xff09;启动( tf.app.run )基础概念 计算图 Tensor&#xff08;张量&#xff09;&#xff0c;在Tensorflow中可以理解…

畅聊两小时后谈谈chatGPT体验感受

文章目录背景注册聊天实录基于自然语言的SQL翻译shell解析k8s回答其他类型我的问题为何这么接近人类的回答&#xff1f;回答是离线的吗&#xff1f;背景 最近几周不管是T还是微信公众号&#xff0c;大家都在疯玩这个东西。 我姑且将这个应用叫小C吧。我和小C愉快的聊了几个小…

ComponentOne Studio Enterprise 2022

ComponentOne Studio Enterprise 2022 添加了Microsoft.NET 7支持。 FlexGrid for.NET MAUI预览版-您现在可以使用以前使用的相同.NET数据网格&#xff0c;只是它是为MAUI本机开发的&#xff0c;因此您不必学习多种移动开发平台。 WinForms 2022 v3中的新功能 增强的.NET 6控件…

Android系统属性文件浅析

Android的属性文件是Android系统攻防中重要的一环,属性中的一些只读字段(以ro开头)通常会被当作大厂的指纹而加入检测,于是如何mock和检测mock成了安全中举足轻重的知识。属性的检测有几种方案: 通过java标准接口的Build类读取通过shell的getprop [属性key]的方式读取通过sh…

Python作业题:函数和代码复用

本次练习题涉及到的知识点&#xff1a; Python中函数的定义和使用传入函数的参数个数不固定的使用语法lambda函数的使用语法Python异常处理的相关语法 1.关于函数的描述&#xff0c;错误的选项是&#xff08;A&#xff09;。 解析&#xff1a;Python使用保留字def定义一个函…

聚类算法OPTICS的理解及实现

前言 前面给大家介绍到了聚类算法中比较经典的 DBSCAN 算法&#xff0c;对于数据量小而且相对比较密集、密度相似的数据集来说&#xff0c;是比较合适的。那么接下来给大家介绍它的改进版 OPTICS (Ordering points to identify the clustering structure)&#xff0c;针对 DBS…

4年外包终上岸,我只能说这类公司以后能不去就不去

我大学学的是计算机专业&#xff0c;毕业的时候&#xff0c;对于找工作比较迷茫&#xff0c;也不知道当时怎么想的&#xff0c;一头就扎进了一家外包公司&#xff0c;一干就是4年。现在终于跳槽到了互联网公司了&#xff0c;我想说的是&#xff0c;但凡有点机会&#xff0c;千万…

vue使用axios+element上传文件

引言 springboot后端接口类型&#xff1a;post&#xff0c;其它接口信息如下图 后端接口的实现 代码示例 post 请求头改成’Content-Type’: ‘multipart/form-data’用new FormData() 方式去传对象数据 axios封装请求 import request from /utils/request export function up…

线性表-顺序表

线性表 线性表是最基本、最简单、也是最常用的一种数据结构。一个线性表是n个具有相同特性的数据元素的有限序列。 前驱元素&#xff1a;若A元素在B元素的前面&#xff0c;则称A为B的前驱元素后继元素&#xff1a;若B元素在A元素的后面&#xff0c;则称B为A的后继元素 线性表…

将gitee上的项目拉取到本地

gitee&#xff1a;中国最大的开源代码共享社区 目录 一、安装git 二、拉取项目 1、首先在gitee上找到自己想要学习的项目 2、在本地新建一个文件夹&#xff08;用来存放你从gitee上拉下来的项目&#xff09; 3、输入命令 4、选择下载的分支代码&#xff08;我这里是mas…

【web课程设计】基于html鲜花商城项目的设计与实现

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

windows下使用免安装(.zip)MariaDB数据库

1. 下载 https://downloads.mariadb.org/ 2. 解压 3. 配置 cmd 进入bin目录 命令行输入&#xff1a;./mysqld.exe --install MariaDB 输出&#xff1a; 至此 安装成功 接下来进行data配置和初始化 4. 初始化 提示&#xff1a;非必要 如果直接执行服务启动命令&#xff1…

TF3-MongoDB基础

TF3-MongoDB基础课程介绍1、通用设置1.1 需求分析1.1.1 需求分析1.1.2 数据库表1.1.3 搭建提供者环境实体类mapper接口api接口api服务实现类1.2 查询通用设置1.2.1 接口文档1.2.2 代码实现vo对象SettingsControllerSettingServiceQuestionApiSettingApi1.2 陌生人问题1.2.1 接口…

STM32单片机软件模拟I2C读取AM2320温湿度传感器数据

STM32单片机使用软件模拟IIC读取AM2320温湿度传感器的数据并显示在0.96寸OLED屏上。 我用的单片机是STM32F103C8T6&#xff0c;程序用的是ST标准库写的。 STM32使用硬件I2C读取SHTC3温湿度传感器&#xff1a;https://blog.zeruns.tech/archives/692.html STM32单片机读取AHT1…

力扣242.有效的字母异位词(Java语言,排序法、散列表法)

题目描述&#xff1a; 给定两个字符串 s 和 t &#xff0c;编写一个函数来判断 t 是否是 s 的字母异位词。 注意&#xff1a;若 s 和 t 中每个字符出现的次数都相同&#xff0c;则称 s 和 t 互为字母异位词。 解题思路&#xff1a; 思路1&#xff1a;排序法 根据题目意思…

[附源码]Python计算机毕业设计SSM基于微信的基层党建信息系统(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

容量测试解决了什么问题?

前面几篇性能测试知识科普系列的文章&#xff0c;介绍了性能测试中的核心术语和指标、常用测试策略、压测工具选型、性能需求分析、测试能力分层、新手学习路径以及监控分析工具相关的内容&#xff0c;这些知识可以说是性能测试最基本的能力&#xff0c;也是日常工作中需要经常…

三大宇宙速度

文章目录第一宇宙速度&#xff1a;7.9km/s第二宇宙速度&#xff1a;11.2km/s第三宇宙速度&#xff1a;16.7km/s光年太阳系第一宇宙速度&#xff1a;7.9km/s 1.第一宇宙速度(环地飞行速度)&#xff1a;航空器绕地球飞行&#xff0c;成为地球卫星的最低速度。 2.提出者牛顿。基于…