正则表达式 - 电话号码

news2024/10/3 3:25:24

        正则表达式是描述一组字符串特征的模式,用来匹配特定的字符串。

一、需求

        写一个正则表达式匹配电话号码,并且括号、连字符或点号都是可选的。假定合规数据只包含以下15种匹配模式之一:

  1. xxxxxxx             8277019
  2. xxx.xxxx            827.7019
  3. xxx-xxxx            827-7019
  4. xxxxxxxxxx        7078277019
  5. xxxxxx.xxxx       707827.7019
  6. xxxxxx-xxxx       707827-7019
  7. xxx.xxxxxxx       707.8277019
  8. xxx.xxx.xxxx      707.827.7019
  9. xxx.xxx-xxxx      707.827-7019
  10. xxx-xxxxxxx       707-8277019
  11. xxx-xxx.xxxx      707-827.7019
  12. xxx-xxx-xxxx      707-827-7019
  13. (xxx)xxxxxxx      (707)8277019
  14. (xxx)xxx.xxxx     (707)827.7019
  15. (xxx)xxx-xxxx     (707)827-7019

二、实现

1. 创建表并生成测试数据

create table t_regexp (a text);

insert into t_regexp values
-- 合规数据
('8277019'),
('827.7019'),
('827-7019'),
('7078277019'),
('707827.7019'),
('707827-7019'),
('707.8277019'),
('707.827.7019'),
('707.827-7019'),
('707-8277019'),
('707-827.7019'),
('707-827-7019'),
('(707)8277019'),
('(707)827.7019'),
('(707)827-7019'),
-- 噪声数据
('a277019'),
('abc827-7019'),
('8a2b7c-7019'),
('.827-7019'),
('70711-827-7019'),
('(707)-827-7019'),
('(707).827-7019'),
('707-827-701912'),
('(707.827-7019'),
('(707827-7019');

2. 编写正则表达式

^(\(\d{3}\)|\d{3}[.-]?)?\d{3}[.-]?\d{4}$

3. 使用regexp函数查询验证

-- 注意SQL中要使用 \ 对正则表达式中的转义字符 \ 进行转义,看起来就如下为两个连续的 \:\\
select * from t_regexp 
 where a regexp '^(\\(\\d{3}\\)|\\d{3}[.-]?)?\\d{3}[.-]?\\d{4}$';

三、分析与知识点

1. 匹配字符串字面值

707-827-7019

        上面这个正则表达式用字符串字面值(string literal)来匹配目标字符串。所谓字符串字面值,就是字面上看起来是什么就是什么。

2. 使用字符组匹配数字

[0-9]

        正则表达式 [0-9] 的含义是“匹配0到9范围内的任意数字”。正则表达式将方括号视为特殊的元字符(metacharacter),因此方括号不参与匹配。元字符是在正则表达式中有特殊含义的字符,也是保留字符。[0-9] 这种形式的正则表达式称做字符组(character class)。可以对数字的范围进行进一步限定,比如:

[012789]

        这个字符组只会匹配列出的数字,即 0、1、2、7、8、9 。要匹配任意10位以连字符分隔的电话号码,可以使用以下正则表达式:

[0-9][0-9][0-9]-[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]

        这是可以的,但太长了,更好的方法是采用简写形式。

3. 使用字符组简写式匹配一位数字

        \d 可以像 [0-9] 一样匹配任意阿拉伯数字。这种正则表达式叫做字符组简写式(character shorthand)。可以使用以下表达式来匹配电话号码中的任意数字:

\d\d\d-\d\d\d-\d\d\d\d

        重复 \d 三次和四次就可以分别匹配三个和四个数字。该表达式中的连字符是一个字面值,因此会被原样匹配。除了和上面表达式一样,使用连字符本身(-)来匹配连字符之外,也可以用转义的大写D(\D),它匹配任何一个非数字字符。以下示例使用了 \D 来匹配连字符:

\d\d\d\D\d\d\d\D\d\d\d\d

4. 匹配任意字符

        还可以用点号(.)来匹配连字符:

\d\d\d.\d\d\d.\d\d\d\d

        点号(英文句号)是一个通配符,可以匹配任意字符(但某些情况下不能匹配行起始符)。以上示例中的正则表达式匹配了连字符,但它也可以匹配百分号(%):

707%827%7019

        或者是竖线(|):
 

707|827|7019

        亦或其他字符。

5. 使用捕获分组和后向引用

        可以使用捕获分组(capturing group)来匹配电话号码中的某一部分,然后使用后向引用(backreference)对分组中的内容进行引用。要创建捕获分组,先将一个 \d 放在一对圆括号中,这样就将它放入了一个分组中,后面可以用 \1 来对捕获的内容进行后向引用:

(\d)\d\1

        \1 对括号内分组捕获的内容进行了反向引用。(\d) 匹配第一个数字并将其捕获;\d 匹配第二个数字但没有捕获,因为没有括号;\1 对捕获的数字进行反向引用。这个正则表达式只匹配了区号。现在可以用一个分组和几个后向引用对整个电话号码进行匹配:

(\d)0\1\D\d\d\1\D\1\d\d\d

6. 使用量词

        现在用另一种语法来匹配电话号码:

\d{3}-?\d{3}-?\d{4}

        花括号中的数字表示待查找的数字出现的次数。包含数字的花括号是一种量词(quantifier)。花括号本身用做元字符。问号是另一种量词,在以上表达式中表示连字符是可选的。也就是说,连字符可以不出现或只出现一次。还有其他的量词,例如加号(+)表示“一个或多个”,星号(*)表示“零个或多个”。使用量词能让正则表达式变得更简洁:

(\d{3,4}[.-]?)+

        加号表示出现一次或多次。这个正则表达式表示括号里的模式出现一次或多次,括号里的模式匹配三位或四位数字,后跟一个连字符或一个点号。下面逐一解释表达式中的每一项:左圆括号 ( 为捕获分组的起始符;反斜杠 \ 为字符组简写式的起始符(对之后的字符进行转义);字符 d 为字符组简写式的结束符(d匹配0到9范围内的任意数字);左花括号 { 为量词起始符;数字3为匹配的最小数量;逗号 , 隔开不同的数量;数字4为匹配的最大数量;右花括号 } 为量词的结束符;左方括号 [ 为字符组的起始符;点号 . (匹配点号本身);连字符 - 匹配连字符的本身;右方括号 ] 为字符组的结束符;问号 ?表示量词“零个或一个”;右圆括号 ) 为捕获分组的结束符;加号 + 表示量词“一个或多个”。这个表达式只能匹配3位或4位的数字,而不管是否符合电话号码的格式。我们来改进一下:

(\d{3}[.-]?){2}\d{4}

        这个表达式匹配的字符串是连续两个无括号的三位数字,每三位数字后可以带连字符也可以不带,最后是一个四位数字。这个正则表达式有问题,从 https://www.dute.org/regex 在线测试结果一目了然。

        对于测试数据,合规数据仅匹配了具有区号且区号不带括号的数据:

        而噪声数据也匹配了4个:

        问题出在对字符串首尾和区号的匹配上,下面加以改进。

7. 括选文字符

        这个正则表达式表示第一个3位数字可以带也可以不带括号,即区号是可选的:

^(\(\d{3}\)|\d{3}[.-]?)?\d{3}[.-]?\d{4}$

        为了便于理解,我们再按匹配次序看一下表达式中的各项。下表从最高到最低说明了各种正则表达式运算符的优先级顺序:

运算符

说明

\

转义符

(), (?:), (?=), []

小括号和中括号

*, +, ?, {n}, {n,}, {n,m}

限定符

^, $, \任何元字符、任何字符

定位点和序列(即:位置和顺序)

|

“或”操作。字符具有高于或运算符的优先级,使得“m|food”匹配“m”或“food”。若要匹配“mood”或“food”,需使用括号创建子表达式,从而产生“(m|f)ood”。

\(\d{3}\)|\d{3}[.-]?

        \( 表示左括号本身;\d 匹配一位数字;\d 之后的{3}是量词,表示匹配三位数字;\) 匹配右括号本身;竖线符 | 表示选择,也就是从多个可选项中选择一个;\d 匹配一位数字;{3} 是表示匹配三位数字的量词;[.-]?匹配一个可选的点号或连字符。这部分表达式表示“匹配一个带括号的区号,或一个不带括号但可能包含连字符的区号”:

(xxx)
xxx
xxx.
xxx-

^(\(\d{3}\)|\d{3}[.-]?)?

        出现在正则表达式起始位置的脱字符 ^ ,表示0个或1个区号会出现在一行的起始位置,如下的噪声数据将被过滤掉:
70711-827-7019
(707.827-7019
(707827-7019

\d{3}[.-]?

        \d 匹配一位数字;{3} 表示匹配三位数字的量词;[.-]? 匹配另一个可选的点号或连字符;

\d{4}$

        \d 匹配一位数字;{4} 是表示匹配四位数字的量词;美元符 $ 匹配行结束位置,即以4位数字结尾,如下的噪声数据将被过滤掉:
707-827-701912

        注意 ^ 的位置,一定要在分组外。如果要放到分组内:

(^\(\d{3}\)|^\d{3}[.-]?)?\d{3}[.-]?\d{4}$

        则只要符合 \d{3}[.-]?\d{4}$ 的数据都会被匹配到:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/436585.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Microsoft Edge】详解 Edge 的扩展程序

Edge 扩展程序 安装与卸载显示与隐藏开启与关闭导入与导出导出导入操作好处与优势 安装与卸载 可从 https://microsoftedge.microsoft.com/addons?hlzh-CN 获取你想要的扩展程序。 也可以使用 Chrome Web Store ,但出于某些原因,需要科学上网。 获取后…

初赛-排列组合概念

1.加法原理: 完成一个工程可以有n类办法&#xff0c;a[i](1<i<n) 代表第i类方法的数目。 那么完成这件事共有 S a[1]a[2]...a[n]种不同的方法。 2.乘法原理: 完成一个工程需要分n个步骤&#xff0c;a[i](1<i<n) 代表第i个步骤的不同方法数目。 那么完成这件…

DnsAddressResolverGroupFactory.create(DnsAddressResolverGroupFactory.java:33)

今天处理了一个dubb升级造成的包冲突&#xff0c;记录下&#xff0c;希望能帮到一些有同样问题的小伙伴&#xff0c;并且将自己解决包冲突的想法总结下 背景&#xff1a; 因为dubbo出现安全漏洞&#xff0c;公司的安全组要求将dubbo的版本由2.7.3-SNAPSHOT 升级到 2.7.3.7-RE…

Windows 10, version 22H2 (2023年3月) 简体中文版、英文版下载

Windows 10, version 22H2 (updated March 2023) 简体中文版、英文版下载 Windows 10 22H2 2023 年 3 月更新 Windows 10 是微软公司推出的一款操作系统&#xff0c;是 Windows 系列操作系统的最新版本&#xff0c;于2015年7月正式发布。Windows 10 被设计为既适用于桌面电脑和…

ActiveMQ使用(二):在JavaScript中使用mqtt.js

ActiveMQ使用(二):在JavaScript中使用mqtt.js 1. 环境准备 jQuery-1.10 下载地址:https://www.jsdelivr.com/package/npm/jquery-1.10.2?tabfilesmqtt.js 4.3.7: 下载地址:https://www.jsdelivr.com/package/npm/mqtt 2. 相关代码 <!DOCTYPE html> <html lang&q…

引用【C++初阶】

目录 一、引用 1、概念 2、特性 3、常引用 4、使用常景 5、传值与传引用的效率性能比较 6、指针和引用的区别 一、引用 1、概念 引用不是新定义一个变量&#xff0c;而是给已存在的变量取一个别名&#xff0c;编译器不会为引用变量开辟内存空间&#xff0c;它和它引用的…

线程方法,生命周期,线程状态,Synchronized,

package com.hspedu.method;/*** author 韩顺平* version 1.0*/ public class ThreadMethod01 {public static void main(String[] args) throws InterruptedException {//测试相关的方法T t new T();t.setName("老韩");t.setPriority(Thread.MIN_PRIORITY);//设置优…

初识网络安全应急响应

初识网络安全应急响应 1.应急响应的基本能力2.应急响应的基本流程 1.应急响应的基本能力 一、数据采集、存储和检索 能对全流量数据协议进行还原&#xff1b;能对还原的数据进行存储&#xff1b;能对存储的数据快速检索。 二、事件发现 能发现高级可持续威胁&#xff08;AP…

【Redis】Redis十大数据类型—集合set

介绍 set类型是一个无序并唯一的键值集合&#xff0c;set的存储顺序不会按照插入的先后顺序进行存储。 一个集合最多可以存储2^32-1个元素。 set类型除了支持集合内的增删改查&#xff0c;同时还支持多个集合取交集、并集、差集。 Set 类型和 List 类型的区别如下&#xff1…

cgroups 实践

CPU 限制 1. 创建测试的 cgroup 在 /sys/fs/cgroup/cpu 下面创建自己的 cgroups 测试目录&#xff0c;该目录会自动创建一些文件&#xff0c;对进程或者线程的控制都可以通过修改这些文件内容自动完成。 tasks&#xff1a;被 cgroup 管理的进程 cpu.cfs_period_us&#xff1a…

多线程(九):JUC组件

在来时juc组件前&#xff0c;我们先把上一章遗漏的部分给补上。 synchronized 实现策略&#xff1a;锁升级&#xff1a; 无锁 -> 偏向锁 -> 轻量级锁 -> 重量级锁 还有一个 &#xff1a; 锁消除 锁消除即删除不必要的加锁操作。JVM在运行时&#xff0c;对一些“…

C++内联函数详解

目录 如何定义内联函数&#xff1f; 内联函数的优势 内联函数的缺点 内联函数的使用场景 示例代码 总结 在C中&#xff0c;内联函数是一种特殊的函数&#xff0c;它的作用是在程序编译时将函数的代码直接嵌入到调用该函数的代码中&#xff0c;从而避免了函数调用的开销。这…

C语言 非本地跳转实现native层TryCatch

前言 最近研究native hook的技术&#xff0c;了解到了这个非本地跳转&#xff0c;本文就是介绍他&#xff0c;对于解决native crash非常有用。 非本地跳转介绍 C语言的本地跳转是指goto、break、continue等语句&#xff0c;但是这个语句最大局限就是只能实现函数内部的跳转。…

深度学习 - 40. N-Gram 采样与 Session 数据获取 For EGES

目录 一.引言 二.订单数据预处理 1.数据样例 2.订单数据处理 3.用户 Session 构建 三.构造 sku_id 游走序列 1.获取完整 Session List 2.统计 sku_id 转移词频 3.构建 sku_id 图 4.游走构造 sku 序列 四.商品侧信息预处理 1.读取商品信息 2.Left Join 匹配侧信息 …

三甲医院体检管理系统源码PEIS ,体检总检建议、体检套餐、各种模板

PEIS体检管理系统源码 本套PEIS医院体检管理系统源码&#xff0c;采用C#语言开发&#xff0c;C/S架构&#xff0c;前台开发工具为Vs2012&#xff0c;后台数据库采用oracle大型数据库。有演示。 文末获取联系 PEIS体检管理系统适用于大中型医院的独立体检中心、干部保健处、民营…

Java基础:编译时和运行时的区别

在java开发设计过程中&#xff0c;了解java运行时和编译时的区别非常有必要。 如下从几个问题来描述两者的区别 1、如下代码片段中&#xff0c;A行和B行的区别是什么 line A是在编译时计算值&#xff0c;line B是在运行时计算值。 当该类编译后&#xff0c;如果使用一些反编译…

ROS导航

参考文章&#xff1a; (31条消息) ROS导航小车1 teb_local_planner参数(仅作记录/收集)_teb local planner参数_Crush Mome的博客-CSDN博客 运行导航&#xff1a; 1. 启动底盘控制包 &#xff1a; base_conctronl 2.启动键盘控制节点&#xff1a; rosrun teleop_twist_ke…

ROG魔霸7Plus电脑一直蓝屏错误怎么重装系统?

ROG魔霸7Plus电脑一直蓝屏错误怎么重装系统&#xff1f;有用户在使用ROG魔霸7Plus电脑的时候&#xff0c;频繁的遇到了系统蓝屏的情况。因为这样影响了自己的正常使用&#xff0c;所以想要进行系统的重新安装。那么如何进行系统重装操作呢&#xff1f;来看看以下的操作方法教学…

ONES × 中国信通院《中国企业软件研发管理白皮书》即将发布 | 预约直播

由 ONES 与中国信息通信研究院联合发起的《中国企业软件研发管理白皮书》&#xff08;下称「白皮书」&#xff09;将于 4 月 20 日 正式发布。白皮书由 ONES、中国信息通信研究院云计算与大数据研究所、招商基金管理有限公司、紫金财产保险股份有限公司、深圳市鸿合创新信息技术…

AI大模型内卷加剧,商汤凭什么卷进来

2023年&#xff0c;国内大模型何其多。 目前&#xff0c;已宣布推出或即将推出大模型的国内企业多达20余家&#xff0c;基本上能想到的相关企业都已入局。其中&#xff0c;既有资金雄厚的BAT、华为、字节等大厂&#xff0c;也有王慧文、王小川、周伯文等互联网大佬领衔的初创企…