如何掌握 Java 正则表达式 的基本语法及在 Java 中的应用

news2024/10/5 21:15:15

正则表达式是一种用于匹配字符串的模式,在许多编程语言中广泛使用。Java 正则表达式提供了强大的文本处理能力,能够对字符串进行查找、替换、分割等操作。

一、正则表达式的基本语法

正则表达式由普通字符和特殊字符组成。普通字符包括字母、数字和标点符号,而特殊字符(也称为元字符)则具有特殊意义,用于构建复杂的匹配模式。

1.1 普通字符

普通字符匹配自身。例如,正则表达式 abc 匹配字符串 "abc"

1.2 元字符

元字符是正则表达式的核心部分,用于定义复杂的匹配模式。常见的元字符包括:

  • .:匹配任意一个字符(除换行符)。
  • ^:匹配字符串的开始。
  • $:匹配字符串的结束。
  • *:匹配前一个字符零次或多次。
  • +:匹配前一个字符一次或多次。
  • ?:匹配前一个字符零次或一次。
  • []:定义字符类,匹配其中任意一个字符。
  • |:表示“或”操作。
  • ():用于分组和捕获。
  • {}:用于限定重复次数。

1.3 转义字符

有些字符在正则表达式中有特殊意义,如果要匹配这些字符本身,需要使用反斜杠 \ 进行转义。例如,要匹配字符 .,应使用 \.

1.4 字符类

字符类用于定义一个字符集合,匹配其中任意一个字符。常用的字符类包括:

  • [abc]:匹配字符 abc
  • [a-z]:匹配任意一个小写字母。
  • [A-Z]:匹配任意一个大写字母。
  • [0-9]:匹配任意一个数字。
  • [^abc]:匹配除 abc 之外的任意一个字符。

1.5 预定义字符类

预定义字符类是一些常用字符类的简写形式,包括:

  • \d:匹配一个数字,等价于 [0-9]
  • \D:匹配一个非数字字符,等价于 [^0-9]
  • \w:匹配一个单词字符(字母、数字或下划线),等价于 [a-zA-Z0-9_]
  • \W:匹配一个非单词字符,等价于 [^a-zA-Z0-9_]
  • \s:匹配一个空白字符(空格、制表符、换行符等),等价于 [ \t\n\x0B\f\r]
  • \S:匹配一个非空白字符,等价于 [^ \t\n\x0B\f\r]

1.6 边界匹配符

边界匹配符用于匹配字符串中的边界位置,包括:

  • \b:匹配一个单词边界。
  • \B:匹配一个非单词边界。

1.7 限定符

限定符用于指定前一个字符或子模式的重复次数,包括:

  • *:匹配前一个字符零次或多次。
  • +:匹配前一个字符一次或多次。
  • ?:匹配前一个字符零次或一次。
  • {n}:匹配前一个字符恰好 n 次。
  • {n,}:匹配前一个字符至少 n 次。
  • {n,m}:匹配前一个字符至少 n 次,至多 m 次。

1.8 捕获组和非捕获组

捕获组用于将匹配的子模式存储起来,以便在后续操作中引用。非捕获组用于对子模式进行分组,但不存储匹配结果。

  • ():捕获组。
  • (?:):非捕获组。

1.9 零宽断言

零宽断言用于指定某个位置必须满足的条件,包括:

  • (?=):正向先行断言。
  • (?!:负向先行断言。
  • (?<=):正向后行断言。
  • (?<!:负向后行断言。

二、Java 中的正则表达式 API

Java 提供了 java.util.regex 包来支持正则表达式处理,其中最重要的类是 PatternMatcher

2.1 Pattern

Pattern 类表示一个正则表达式的编译表示。常用的方法包括:

  • compile(String regex):编译给定的正则表达式。
  • matcher(CharSequence input):创建一个匹配器对象。

2.2 Matcher

Matcher 类用于对输入字符串进行模式匹配操作。常用的方法包括:

  • matches():整个字符串是否与正则表达式匹配。
  • find():是否找到与正则表达式匹配的子字符串。
  • group():返回前一次匹配的子字符串。
  • replaceAll(String replacement):替换所有匹配的子字符串。
  • replaceFirst(String replacement):替换第一个匹配的子字符串。
  • lookingAt():是否从字符串的开头开始匹配。

三、Java 正则表达式的常见用法

3.1 字符串匹配

3.1.1 完全匹配

要判断字符串是否完全匹配某个正则表达式,可以使用 PatternMatcher 类:

String regex = "\\d+";
String input = "12345";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
boolean isMatch = matcher.matches();
System.out.println("完全匹配: " + isMatch);
3.1.2 子字符串匹配

要判断字符串中是否包含某个正则表达式匹配的子字符串,可以使用 find 方法:

String regex = "\\d+";
String input = "hello 12345 world";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
boolean found = matcher.find();
System.out.println("包含子字符串匹配: " + found);

3.2 字符串替换

正则表达式可以用于替换字符串中的匹配部分。replaceAllreplaceFirst 方法用于替换所有匹配的子字符串或第一个匹配的子字符串:

String regex = "\\d+";
String input = "hello 12345 world";
String replacement = "number";
String result = input.replaceAll(regex, replacement);
System.out.println("替换结果: " + result);

3.3 字符串分割

正则表达式可以用于根据模式分割字符串。String 类提供了 split 方法:

String regex = "\\s+";
String input = "hello   world   java";
String[] parts = input.split(regex);
System.out.println("分割结果: " + Arrays.toString(parts));

3.4 捕获组

捕获组用于将匹配的子模式存储起来,以便在后续操作中引用。可以使用 group 方法获取捕获组的内容:

String regex = "(\\d{3})-(\\d{2})-(\\d{4})";
String input = "123-45-6789";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
if (matcher.matches()) {
    String part1 = matcher.group(1);
    String part2 = matcher.group(2);
    String part3 = matcher.group(3);
    System.out.println("捕获组: " + part1 + ", " + part2 + ", " + part3);
}

3.5 零宽断言

零宽断言用于指定某个位置必须满足的条件,但不包括在匹配结果中。以下示例展示了正向先行断言:

String regex = "foo(?=bar)";
String input = "foobar";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
while (matcher.find()) {
    System.out.println("零宽断言匹配: " + matcher.group());
}

四、Java 正则表达式高级应用

4.1 动态构建正则表达式

有时我们需要根据不同的输入动态构建正则表达式。可以使用 StringBuilder 来拼接正则表达式:

String basePattern = "\\d";
int minDigits = 2;
int maxDigits = 4;
StringBuilder regex = new StringBuilder(basePattern);
regex.append("{").append(minDigits).append(",").append(maxDigits).append("}");
Pattern pattern = Pattern.compile(regex.toString());
String input = "123";
Matcher matcher = pattern.matcher(input);
boolean isMatch = matcher.matches();
System.out.println("动态构建正则表达式匹配: " + isMatch);

4.2 正则表达式中的嵌套组

嵌套组用于在一个捕获组内再嵌套另一个捕获组,以下示例展示了嵌套组的用法:

String regex = "(\\d{2})((\\d{2}))";
String input = "1234";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
if (matcher.matches()) {
    String outerGroup = matcher.group(1);
    String nestedGroup = matcher.group(2);
    String innermostGroup = matcher.group(3);
    System.out.println("外部组: " + outerGroup + ", 嵌套组: " + nestedGroup + ", 最内部组: " + innermostGroup);
}

4.3 分组命名和引用

Java 7 引入了分组命名功能,可以给捕获组命名,并通过名字引用:

String regex = "(?<areaCode>\\d{3})-(?<prefix>\\d{3})-(?<lineNumber>\\d{4})";
String input = "123-456-7890";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);
if (matcher.matches()) {
    String areaCode = matcher.group("areaCode");
    String prefix = matcher.group("prefix");
    String lineNumber = matcher.group("lineNumber");
    System.out.println("命名捕获组: " + areaCode + ", " + prefix + ", " + lineNumber);
}

4.4 正则表达式的性能优化

在处理大型文本或复杂模式时,正则表达式的性能可能成为瓶颈。以下是一些性能优化建议:

  • 避免回溯:尽量避免使用可能导致大量回溯的模式,如重复的捕获组。
  • 预编译正则表达式:将正则表达式编译为 Pattern 对象,并重用该对象,而不是每次都重新编译。
  • 使用非捕获组:在不需要捕获匹配内容时,使用非捕获组 (?:) 代替捕获组 ()

4.5 正则表达式调试

调试正则表达式可能比较困难,可以使用在线工具(如 regex101)或集成开发环境(IDE)中的正则表达式调试功能来帮助理解和测试正则表达式。

掌握正则表达式可以大大提高文本处理的效率和灵活性,Java 提供的正则表达式 API 使得在程序中使用正则表达式变得简单高效。

黑马程序员免费预约咨询

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1796504.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第二十七章HTML.CSS综合案例(二)

3.菜单栏 效果图如下&#xff1a; 代码图如下&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><…

cnPuTTY 0.81.0.1-JK—PuTTY 0.81中文JK补丁版的简单说明~~

原始补丁网站的链接&#xff1a;PuTTY for win32 storing configuration into file2. 6. 2024 - Update: this modified PuTTY is now based on PuTTY 0.81 (version 0.23.0) 本次官方正式发布的补丁与上一版本的补丁相同&#xff0c;无明显变化。关于JK补丁的信息也可以参考&…

[洛谷] 刷题栈 队列

目录 1.后缀表达式 2.表达式括号匹配 3.表达式求值 4.表达式的转换 5.机器翻译 1.后缀表达式 后缀表达式 - 洛谷 #include<iostream> #include<cstdio> using namespace std;int stk[100]; // 用于存储操作数的栈 int index 0; // 栈顶索引int main() {c…

docker构建java项目镜像

资料参考 参考自黑马教程&#xff1a;10.Docker基础-自定义镜像_哔哩哔哩_bilibili 初步准备 打包好java项目jar包&#xff0c;和Dockerfile文件一起放到指定目录下&#xff0c;后续操作都是在该目录下操作&#xff0c; 我这边是&#xff1a;/usr/local/src/train-ticket/ …

IDEA破解后的配置

以下所有操作都要求进入全局setting而不是某一个项目的setting 进入全局Setting File→close project 进入欢迎页面 低版本 然后点击Setting 关闭自动更新 不关闭有可能会破解失败 Appearance & Behavior->System Settings->Updates下取消Automatically chec…

【网络编程开发】6.UDP通信

6.UDP通信 UDP实现框架 send 函数 原型&#xff1a; #include <sys/socket.h> ssize_t send(int sockfd, const void *buf, size_t len, int flags);功能&#xff1a; send 函数的主要功能是向指定的套接字发送数据。 参数&#xff1a; sockfd&#xff1a;一个有效的套…

【Linux】进程(7):地址空间

大家好&#xff0c;我是苏貝&#xff0c;本篇博客带大家了解Linux进程&#xff08;7&#xff09;&#xff1a;地址空间&#xff0c;如果你觉得我写的还不错的话&#xff0c;可以给我一个赞&#x1f44d;吗&#xff0c;感谢❤️ 目录 &#xff08;A&#xff09; 直接看代码&…

Leetcode3169. 无需开会的工作日

Every day a Leetcode 题目来源&#xff1a;3169. 无需开会的工作日 解法1&#xff1a;排序 遍历 按 LeetCode56.合并区间 的做法&#xff0c;把 meetings 数组中所有重叠的区间合并起来&#xff0c;再统计其中无需开会的工作日个数。 代码&#xff1a; /** lc appleetco…

学习笔记——路由网络基础——缺省(默认)路由

3、缺省(默认)路由 1、定义 缺省路由(默认路由)&#xff1a;是目的地址和掩码都为全0的特殊路由。全0代表任意网络。缺省路由在路由表中的形式为&#xff1a;0.0.0.0/0缺省路由也被叫默认路由。缺省路由优先级比直连路由低 缺省路由是一种特殊的路由&#xff0c;当报文没有在…

cv2.imwrite路径中存在中文时出现乱码问题

cv2.imwrite(path, img) 在写入包含中文的路径的时候&#xff0c;保存的文件名称为乱码。 解决办法&#xff1a; cv2.imwrite(path,image)将上面的代码修改为以下代码&#xff0c;可以避免出现中文乱码。 cv2.imencode(.jpg, image)[1].tofile(path)

嵌入式Linux系统编程 — 2.2 标准I/O库:检查或复位状态

目录 1 检查或复位状态简介 2 feof()函数 2.1 feof()函数简介 2.2 示例程序 3 ferror()函数 4 clearerr()函数 4.1 clearerr()函数简介 4.2 示例程序 1 检查或复位状态简介 调用 fread() 函数读取数据时&#xff0c;如果返回值小于参数 nmemb 所指定的值&#xff0c;这…

python常见数据分析函数

apply DataFrame.apply(func, axis0, broadcastFalse, rawFalse, reduceNone, args(), **kwds) 第一个参数是函数 可以在Series或DataFrame上执行一个函数 支持对行、列或单个值进行处理 import numpy as np import pandas as pdf lambda x: x.max()-x.min()df pd.DataFrame(…

【数据结构】详解堆的基本结构及其实现

文章目录 前言1.堆的相关概念1.1堆的概念1.2堆的分类1.2.1小根堆1.2.2大根堆 1.3堆的特点堆的实用场景 2.堆的实现2.1初始化2.2插入2.3堆的向上调整2.4删除2.5堆的向下调整2.6判空2.7获取堆顶元素2.8销毁 3.堆排序3.1实现3.2堆排序的时间复杂度问题 前言 在上一篇文章中&#…

【数据库】SQL零基础入门学习

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

如何通过 4 种方式备份和恢复Android联系人

毫无疑问&#xff0c;联系人是Android手机上存储的最重要的信息之一。为了保护这些重要数据&#xff0c;明智的做法是对Android手机进行联系人备份。如果您的手机发生任何情况导致数据丢失&#xff0c;例如被盗、系统崩溃或物理损坏&#xff0c;您可以再次将备份中的联系人恢复…

Typecho:简约而强大的开源PHP博客平台

Typecho&#xff1a;让博客写作回归本质- 精选真开源&#xff0c;释放新价值。 概览 Typecho是一个开源的PHP博客平台&#xff0c;以其简洁的界面和强大的功能&#xff0c;为博客作者提供了一个高效、易于管理的写作环境。它是一个轻量级、高性能的解决方案&#xff0c;适用于…

主流数据库的大数据插入对比(mssql[sql server]、oracle、postgresql、mysql、sqlite)

首先申明&#xff0c;做这个对比不代表数据库性能&#xff0c;纯属好奇。勿喷&#xff0c;感谢。 测试连续11次插入数据库&#xff0c;每次100万行数据。 测试环境&#xff1a;单机测试&#xff0c;就是所有数据库都装在本机上。操作系统:windows server 2016&#xff0c;使用…

【YOLOV8】1.开发环境搭建

Yolo8出来一段时间了,包含了目标检测、实例分割、人体姿态预测、旋转目标检测、图像分类等功能,所以想花点时间总结记录一下这几个功能的使用方法和自定义数据集需要注意的一些问题,本篇是第一篇,开发环境的配置。 YOLO(You Only Look Once)是一种流行的物体检测和图像分割…

工控主板分类详解

1.ATX系列 尺寸305*244mm;接口扩展丰富,更多的内存和PCIE插槽; 进一步略小的有MATX,尺寸244*244cm;扩展插槽缩减,但兼容ATX接口,依旧是按照ATX标准 2.ITX系列 尺寸170*170mm;相较于ATX主板更加迷你,功能接口也少一些; 常用于小型计算机或者嵌入式系统 高能计算机推…

【Pycharm】功能介绍

1.Code Reformat Code 格式化代码&#xff0c;可以帮助我们去自动调整空格等&#xff0c;根据python语法规范自动调整 2.Settings 1.创建py文件默认填充模版 3.读写py文件编码格式一致性 顶部代码指定的编码方式作用&#xff1a; 可以保证python2/3解释器在读取文件的时候按…