正则表达式反向引用的综合应用魔法:从重复文本到简洁表达的蜕变

news2025/4/22 0:22:43

“我....我要....学学学学....编程 java!”
—— 这类“重复唠叨”的文本是否让你在清洗数据时头疼不已?
本文将带你一步步掌握正则表达式中的反向引用技术,并结合 Java 实现一个中文文本去重与清洗的实用工具
结合经典的结巴实例。如何高效地将这样的文本规范化为"我要编程 java!"呢?这正是正则表达式反向引用大显身手的地方。

 

一、正则表达式基础回顾

1. 捕获组(Capturing Group)

括号 () 会把匹配到的内容保存为“捕获组”,可以在替换或后续匹配中通过编号引用,例如 $1 表示第一个捕获组。

2. 反向引用(Backreference)

反向引用指在正则表达式内部或替换字符串中引用前面捕获的组

  • 匹配时\\1 表示匹配和第一个捕获组相同的内容;

  • 替换时$1 表示用第一个捕获组的内容来替换。

问题分析与第一步处理

我们先看原始代码处理的第一步:

String content = "我....我要....学学学学....编程 java!";
// 1. 去掉所有的.
Pattern pattern = Pattern.compile("\\.");
Matcher matcher = pattern.matcher(content);
content = matcher.replaceAll("");

这一步使用简单的正则表达式\\.匹配所有点号,并用空字符串替换它们。处理后得到:

我我要学学学学编程 java!

技术难点:识别并处理重复字符

接下来的才是真正的挑战——如何处理重复的汉字。这里我们需要解决两个关键技术点:

  1. 如何识别连续重复的字符

  2. 如何引用匹配到的内容进行替换

正则表达式分组与反向引用

核心代码展示了解决方案:

pattern = Pattern.compile("(.)\\1+"); // 分组的捕获内容记录到$1
matcher = pattern.matcher(content);

这个正则表达式(.)\\1+分解来看:

  • (.):匹配任意单个字符并捕获到第一个分组

  • \\1+:引用第一个分组匹配的内容,并要求至少重复一次

这里的\\1就是反向引用(backreference),它引用正则表达式中第一个括号捕获的内容。这种机制允许我们匹配重复的模式而不需要预先知道具体是什么字符。

代码执行过程解析

让我们通过调试视角观察匹配过程:

while (matcher.find()) {
    System.out.println(matcher.group(0));
}

这展示了正则表达式如何找到:

  1. 连续的两个"我"

  2. 连续的四个"学"

替换过程

关键替换代码:

String s = matcher.replaceAll("$1");
System.out.println(s);

这里$1同样是反向引用,但在替换字符串中使用,表示"用第一个分组匹配的内容替换整个匹配"。因此:

  • "我我" → "我"

  • "学学学学" → "学"

最终输出:

技术深度:反向引用的工作原理

反向引用的实现基于正则引擎的以下机制:

  1. 捕获组记忆:当(.)匹配一个字符时,引擎会记住这个具体字符

  2. 引用机制\1$1在不同上下文(模式匹配/替换)中引用同一捕获组

  3. 动态匹配:引用的内容是动态的,取决于实际匹配时捕获组捕获的内容

这种机制使得正则表达式能够处理模式重复而内容未知的情况,大大增强了表达能力。

性能与优化考虑

在实际应用中,我们还需要考虑:

  1. 分步处理:如示例中先处理点号再处理重复字符,分步正则通常比复杂单次正则更高效

  2. 预编译模式:对于频繁使用的正则,Pattern.compile()应该只执行一次

  3. Unicode支持(.)能匹配大多数Unicode字符,但某些复杂字符可能需要特殊处理

扩展应用场景

反向引用的应用远不止于此,还包括:

  1. HTML标签匹配:匹配成对的开放和闭合标签

  2. 重复单词检测:如"the the"中的重复单词

  3. 简单模板引擎:替换文本中的变量引用

 

完整代码

public class RegExpCleanRepeat {
    public static void main(String[] args) {
        String content = "我....我要....学学学学....编程 java!";

        // Step 1: 去掉所有的英文句点.
        content = content.replaceAll("\\.", "");

        // Step 2: 使用反向引用去除重复字
        content = content.replaceAll("(.)\\1+", "$1");

        System.out.println("清洗后内容: " + content);
    }
}

 简化版:

 //3.使用一条语句去掉重复的字我我要学学学学编程java!
 content=Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");

结论

通过这个案例,我们看到了正则表达式反向引用如何优雅地解决文本去重问题。这种技术的核心价值在于:

  1. 模式抽象能力:不需要知道具体重复什么字符,只需描述重复模式

  2. 代码简洁性:几行正则可以替代复杂的循环和状态判断

  3. 表达力强大:能够处理各种复杂的文本模式匹配场景

掌握反向引用这一特性,能够显著提升开发者处理文本问题的效率和质量,是正则表达式进阶应用的重要里程碑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2339749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FFmpeg+Nginx+VLC打造M3U8直播

一、视频直播的技术原理和架构方案 直播模型一般包括三个模块:主播方、服务器端和播放端 主播放创造视频,加美颜、水印、特效、采集后推送给直播服务器 播放端: 直播服务器端:收集主播端的视频推流,将其放大后推送给…

Windows串口通信

Windows串口通信相比较Android串口通信,在开发上面相对方便一些。原理都是一样,需要仔细阅读厂商设备的串口通信协议。结合串口调试助手进行测试,测试通过后,编写代码实现。 比如近期就接触到了一款天平,其最大测量值为100g,测量精度0.001g。 拿到手之后我就先阅读串口通…

【开源项目】Excel手撕AI算法深入理解(三):时序(RNN、mamba、Long Short Term Memory (LSTM)、xLSTM)

项目源码地址:https://github.com/ImagineAILab/ai-by-hand-excel.git 一、RNN 1. RNN 的核心思想 RNN 的设计初衷是处理序列数据(如时间序列、文本、语音),其核心特点是: 隐藏状态(Hidden State&#xff…

构建专业金融图表系统的高效路径——QtitanChart在金融行业的应用价值

QtitanChart是一个C 库,它代表一组控件,这些控件使您可以快速轻松地为应用程序提供漂亮而丰富的图表。QtitanChart在Qt.C 上实现,并且支持所有主要的桌面操作系统 - Windows、Linux和Mac OSX。要将QtitanChart添加到您的程序中,只…

多模态大语言模型arxiv论文略读(二十六)

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models ➡️ 论文标题:Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models ➡️ 论文作者:Xinpeng Ding,…

Java虚拟机(JVM)平台无关?相关?

计算机的概念模型 计算机实际上就是实现了一个图灵机模型。即,输入参数,根据程序计算,输出结果。图灵机模型如图。 Tape是输入数据,Program是针对这些数据进行计算的程序,中间横着的方块表示的是机器的状态。 目前使…

cloudstudio学习笔记之openwebui

代码获取 git clone 参考资料 openwebui官网 https://docs.openwebui.com/getting-started/advanced-topics/development 后端启动 cd backend pip install -r requirements.txt -U sh dev.sh后端启动成功后的界面 在cloudstudio提供的vscode弹出的提示中打开浏览器并在末…

7.QT-常用控件-QWidget|font|toolTip|focusPolicy|styleSheet(C++)

font API说明font()获取当前widget的字体信息.返回QFont对象.setFont(const QFont& font)设置当前widget的字体信息. 属性说明family字体家族.⽐如"楷体",“宋体”,"微软雅⿊"等.pointSize字体⼤⼩weight字体粗细.以数值⽅式表⽰粗细程度取值范围为[…

机器学习核心算法全解析:从基础到进阶的 18 大算法模型

在机器学习领域,算法模型是解决实际问题的核心工具。 不同的算法适用于不同的数据场景和任务需求,理解它们的原理与应用是掌握机器学习的关键。 以下将详细解析 18 个核心算法模型,涵盖监督学习、无监督学习、集成学习和深度学习等多个领域…

线性代数 | 知识点整理 Ref 1

注:本文为 “线性代数 | 知识点整理” 相关文章合辑。 因 csdn 篇幅合并超限分篇连载,本篇为 Ref 1。 略作重排,未整理去重。 图片清晰度限于引文原状。 如有内容异常,请看原文。 线性代数知识汇总 Arrow 于 2016-11-27 16:27:5…

【深度学习入门_NLP自然语言处理】序章

本部分开始深度学习第二大部分NLP章节学习,找了好多资料,终于明确NLP的学习目标了,介于工作之余学习综合考量,还是决定以视频学习为主后期自主实践为主吧。 分享一个总图,其实在定位的时候很迷茫,单各章节…

蓝桥杯 二进制问题 刷题笔记

8.二进制问题 - 蓝桥云课 存入N的二进制每一位作为基准数组 算出方案数 从高位往低位用dfs枚举每一位是放1还是放0 #include<iostream> #include<vector> #define ll long long using namespace std;ll dp[65][65]; ll num; ll k; vector<ll> vec;ll cal(l…

mapbox基础,加载视频到地图

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️raster 栅格图层 api二、🍀加载视频到…

RNN - 循环神经网络(实现)

写在前面 在RNN - 循环神经网络&#xff08;概念介绍&#xff09;中&#xff0c;介绍了一下 RNN 的相关概念&#xff0c;下面就基于概念对 RNN 进行两种实现。从零开始实现和简洁实现。 从 0 开始实现 首先导入必要的环境&#xff0c;使用 H.G.Wells 的时光机器数据集上训练…

【unity游戏开发入门到精通——UGUI】RectTransform矩形变换组件

注意&#xff1a;考虑到UGUI的内容比较多&#xff0c;我将UGUI的内容分开&#xff0c;并全部整合放在【unity游戏开发——UGUI】专栏里&#xff0c;感兴趣的小伙伴可以前往逐一查看学习。 文章目录 一、RectTransform组件介绍二、RectTransform组件参数1、Pivot 轴心点2、Ancho…

C语言复习笔记--字符函数和字符串函数(上)

在编程的过程中&#xff0c;我们经常要处理字符和字符串&#xff0c;为了⽅便操作字符和字符串&#xff0c;C语⾔标准库中提供了 ⼀系列库函数&#xff0c;接下来我们就学习⼀下这些函数。 首先来看下字符函数. 字符分类函数 C语⾔中有⼀系列的函数是专⻔做字符分类的&#xf…

Apipost,前端后端测试都在用的接口设计调试工具

大家好&#xff0c;我是袁庭新。给大家介绍一个后端、前端、测试都在用的接口测试工具——Apipost。Apipost主要分为5个大模块&#xff0c;贯穿一个API从设计到测试完成上线的研发全周期。 1.Apipost介绍 Apipost官方地址&#xff1a;https://www.apipost.cn。如下图所示。 A…

十倍开发效率 - IDEA 插件之RestfulBox - API

提高效率不是为了完成更多的任务&#xff0c;而是有充足的时间摸鱼。 快速体验 RestfulBox - API 是 IDEA 的插件&#xff0c;适合本地测试接口&#xff0c;完全不需要对项目进行任何以来。 接口管理&#xff1a;支持接口扫描、浏览、搜索、跳转、导入和导出。支持接口请求&a…

2025 年网络安全的挑战与机遇

2024 年是网络安全领域风云变幻的一年。从备受瞩目的勒索软件攻击所带来的影响&#xff0c;到人工智能工具日益商品化&#xff0c;挑战不断增加。 关键基础设施的漏洞变得极为明显&#xff0c;身份盗窃次数也达到了前所未有的程度。然而&#xff0c;在这一片混乱之中&#xff…

IP数据报

IP数据报组成 IP数据报&#xff08;IP Datagram&#xff09;是网络中传输数据的基本单位。 IP数据报头部 版本&#xff08;Version&#xff09; 4bit 告诉我们使用的是哪种IP协议。IPv4版本是“4”&#xff0c;IPv6版本是“6”。 头部长度&#xff08;IHL&#xff0c;Intern…