含生僻字中文校验方式优化

news2024/12/24 3:48:50

项目姓名校验原本一直是通过utf8正则进行校验,但近期出现的客户生僻字包含双码字,原有校验方式无法实现。需要修改扩大校验范围。

知识点回顾:
Unicode是Unicode Standard(Unicode标准)的简写;Unicode为每一字符提供一个数字编号,通俗讲,就是字符集(coded charset);U+[XX]XXXX是码点的表示形式,X代表一个十六制数字,可以有4-6个,不足4个前补0补足4个。示例:U+0048,U+4F60,U+1D11E。最后一个是5个16进制数的码点。取值范围:U+0000~U+10FFFF(10FFFF+1=1114112,一般记为111万左右),也就是Unicode可以支持111万个字符;
Unicode平面
码点的全部范围可以均分成17个65536大小的部分,这里面的每一个部分就是一个平面(Plane),其实就是不同的取值范围。编号从0开始,第一个平面称为Plane 0.第一个平面即是BMP(Basic Multilingual Plane 基本多语言平面),也叫Plane 0,它的码点范围是U+0000~U+FFFF。这也是我们最常用的平面,日常用到的字符绝大多数都落在这个平面内。
CJK统一汉字
在Unicode中,称为CJK统一汉字(CJK:Chinese, Japanese, and Korean,中日韩)。位于平面0;可以在word里面查询到CJK对应的Unicode编码.

问题调研:
使用正则表达式[\u4E00-\u9FA5]来匹配中文的问题在哪?
这一段大小不过是两万多一点,\u4E00-\u9FA5(19968-40869,4E00就是“一“字。),严格来说这只是Unicode最主要的一段中文区域。不过对于绝大数情况够用了。

而本次涉及的生僻字,\uD852\uDFE5,由两个unicode码点组成,以原有方式单一匹配无法实现校验。这类生僻字字符其实被称为增补字符,Unicode本身码空间为U+0000到U+10FFFF,一共1114112个码位,U+10000及以上的字符称为增补字符。在Java中(Java1.5之后),增补字符使用两个char型变量来表示。第一个char型变量的范围称为“高代理部分”(high-surrogates range,从"uD800到"uDBFF,共1024个码位), 第二个char型变量的范围称为low-surrogates range(从"uDC00到"uDFFF,共1024个码位),这样使用surrogate pair可以表示的字符数一共是1024的平方计1048576个,加上BMP的65536个码位,去掉2048个非法的码位,正好是1,112,064个码位。

java本身对其编译和传输其实是支持的,java语言规定的内码是UTF-16编码,也就是JVM中使用的其实是UTF16,外码是UTF-8。只是在编译.class文件编码为modified UTF-8,运行期又解码为UTF16,所以我们无感知。

UTF-16表示的增补字符怎样才能被正确的识别为增补字符,而不是两个普通的字符呢?答案是通过看它的第一个char是不是在高代理范围内,第二个char是不是在低代理范围内来决定,这也意味着,高代理和低代理所占的共2048个码位(从0xD800到0xDFFF)是不能分配给其他字符的。所以只要拆分开字符的两个码点,分别校验即可。

实现方式:

在Java中,主要使用 Character类处理字符有关功能,而JDK 1.7中Character是按照Unicode 6.0版本实现的。其中的UnicodeBlock 和 UnicodeScript类可以帮助我们判断字符类型。一个 UnicodeBlock代表一片连续的Unicode号码段,UnicodeBlock之间不重叠。有一个UnicodeBlock 专门划分为存储汉字 (准确的说是 CJK统一汉字),这个UnicodeBlock叫做 CJK Unified Ideographs,总共定义了 74,617 个汉字。

jdk中Character.UnicodeBlock类包含了多个unicode号码段的常量定义,和三个类方法

Sr.No. 方法和描述
1 static Character.UnicodeBlock forName(String blockName)
此方法返回具有给定名称的UnicodeBlock。
2 static(char c)的静态Character.UnicodeBlock
此方法返回表示包含给定字符的Unicode块的对象,如果该字符不是已定义块的成员,则返回null。
3 静态Character.UnicodeBlock(int codePoint)
此方法返回表示包含给定字符(Unicode代码点)的Unicode块的对象,如果该字符不是已定义块的成员,则返回null。

本次涉及到的生僻字,我们使用到的姓名校验优化(包含生僻字)
原方案:在这里插入图片描述
CJK编码校验方案:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/737203.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HNU-操作系统OS-学习感悟

初次接触如此底层的计算机基础课程,我还是很不适应的。 教材用的这本书,实验用的清华大学的ucore实验 好在应试水平没有丢。最后总评94/100。 下面仅从应试角度谈一谈学习的理解 总领 HNU的OS课程平时分给的比较模糊,大致由 作业实验验…

先导式比例溢流阀放大器

EDBW10PL350XY/224、EDBW20PL210XY/724、EDBW30PL105XY/224、EDBW10PL055XY/224先导式比例溢流阀,板式安装,由主阀芯和先导级阀beuec比例放大器组成:先导级阀为比例溢流阀,主阀阅芯可独立调节压力作为安全限压压力,比例先导阀压力…

selenium怎么使用代理IP

什么是selenium Selenium 是一个自动化测试框架,用于测试 Web 应用程序的功能性。它支持多个编程语言(如Java,Python,C#等)并且可以在操作系统和不同浏览器上运行测试。Selenium 可以模拟用户在浏览器中的操作&#x…

PC端实现滚动分页懒加载

思路 监听列表元素的滚动事件&#xff0c;滚动到底部的时候&#xff0c;加载下一页的数据监听数据加载&#xff0c;判断是否已全部加载结束 实现 监听滚动事件 为列表元素 listBox 绑定 scroll 事件进行监听 <div class"listBox" scroll"watchScroll&qu…

Github点赞120k的Spring全家桶笔记,吃透Offer拿到手软!

Spring框架自诞生以来一直备受开发者青睐&#xff0c;有人亲切的称之为&#xff1a;Spring 全家桶。它包SpringMVC、SpringBoot、Spring Cloud、Spring Data等解决方案。 很多研发人员把spring看作心目中最好的java项目&#xff0c;没有之一。Spring系列包含非常多的项目&…

【LLM】DeepSpeed分布式训练框架

文章目录 一、DeepSpeed介绍1. 分布式背景介绍2. deepspeed介绍 二、deepspeedtransformer代码实战1. 预处理和Json文件2. 训练代码 三、deepspeed加速Bloom lora微调1. 配置文件2. 训练代码 Reference 一、DeepSpeed介绍 1. 分布式背景介绍 分布式计算环境中&#xff0c;主节…

进程间通信方法——命名管道

命名管道 匿名管道应用的一个限制就是只能在具有共同祖先&#xff08;具有亲缘关系&#xff09;的进程间通信。如果我们想在不相关的进程之间交换数据&#xff0c;可以使用FIFO文件来做这项工作&#xff0c;它经常被称为命名管道。&#xff08;命名管道是有文件名的&#xff0…

Vs窗口布局移动窗口vs直接卡死2

(1条消息) Vs窗口布局移动窗口vs直接卡死_vs拖动窗口布局卡死_Ma_Hong_Kai的博客-CSDN博客 由于莫名其妙的更新导致又卡死了&#xff0c;导致最近一年多无法拖动vs的框挺折磨 前一段时间看到一个有意思的命令 搞了搞了 可以拖动了&#xff08;目测应该是微软自己发现这个问…

【图像识别】openCV基础知识

图像处理基础 一、使用OpenCV前要准备的工作1.先导入需要用到的库2.自定义&#xff0c;图片展示函数 二、开始学习常用函数1.生成随机整数①. 函数说明②.代码a. 二维灰度图b. 三维彩色图 ③.代码现象a. 二维灰度图b. 三维彩色图 2.通道的分离与合并①先导入一张图片② 将其RGB…

多元回归预测 | Matlab基于麻雀算法(SSA)优化高斯过程回归(SSA-GPR)的数据回归预测,matlab代码,多变量输入模型

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 多元回归预测 | Matlab基于麻雀算法(SSA)优化高斯过程回归(SSA-GPR)的数据回归预测,matlab代码,多变量输入模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源…

合宙Air001震撼来袭!

Air001芯片特性 采用ARM 32位的M0内核&#xff0c;主频可达48MHz&#xff1b; 4K RAM32K Flash&#xff1b; 1.7&#xff5e;5.5V超宽范围供电&#xff0c;USB和电池都能直接供电&#xff1b; 内嵌可配4/8/16/22.12/24MHz的RC振荡器&#xff0c;无需外挂晶振就能48MHz运行…

你连存活到JDK8中著名的Bug都不知道,你怎么敢跳槽涨薪的?

在笔者研究 JDK 源码时&#xff0c;注意到在CopyOnWriteArrayList 和ArrayList 的构造器中都出现了如下 bug 字样 6260652 其实代表的JDK bug 列表中的编号 http://bugs.java.com/bugdatabase/view_bug.do?bug_id6260652 http://bugs.java.com/bugdatabase/view_bug.do?bug…

GBU808-ASEMI薄体整流桥GBU808

编辑&#xff1a;ll GBU808-ASEMI薄体整流桥GBU808 型号&#xff1a;GBU808 品牌&#xff1a;ASEMI 芯片个数&#xff1a;4 封装&#xff1a;GBU-4 恢复时间&#xff1a;≥2000ns 工作温度&#xff1a;-50C~150C 浪涌电流&#xff1a;200A 正向电流&#xff1a;8A 反…

Golang 命令源码文件

Go 语言标准库中专门用于接收和解析命令参数。这个代码包的名字叫 flag。 函数 flag.StringVar 接受 4 个参数。 第 1 个参数是用于存储该命令参数值的地址&#xff0c;具体到这里就是在前面声明的变量 name 的地 址了&#xff0c;由表达式 &name 表示。 第 2 个参数是为…

高级运维开发工程师带你处理linux木马(挖矿病毒)实战例子

一、事态描述 centos7测试服务器&#xff0c;突然密码登不上去了&#xff0c;然后CPU占100%。已经猜到&#xff0c;登录密码过于简单&#xff0c;密码被破解挂马了。大概率是CPU挖矿病毒。 二、重置centos7登录root密码 步骤1 启动Linux Centos7系统&#xff0c;当出现如下画…

JavaWeb JSP 内置对象

1.JSP 内置对象 在jsp自动转换成的java文件的service方法中&#xff0c;我们可以看到这九个内置对象&#xff1a; 具体如下&#xff1a; request&#xff08;HttpServletRequest&#xff09;&#xff1a;代表客户端的HTTP请求。通过该对象&#xff0c;可以获取请求参数、请求…

时序区间预测 | Matlab基于高斯过程回归(GPR)时间序列区间预测,matlab代码,单变量输入模型

文章目录 效果一览文章概述部分源码参考资料效果一览 文章概述 时间序列预测 | Matlab基于高斯过程回归(GPR)时间序列区间预测,matlab代码,单变量输入模型 评价指标包括:MAE、MBE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码 %% 清空环境变量…

【Spring Boot丨(十 )】日志

上文讲了 类型安全配置属性 本篇来讲一下 Spring boot 的默认日志相关 Logging &#x1f351; 概述&#x1f34f; 日志格式&#x1f350; 控制台输出&#x1f965; 文件输出&#x1f95d; 文件轮换&#x1f352; 文件级别 &#x1f351; 概述 Spring Boot在所有内部日志中使用C…

支持裸耳3D空间音频?7月12日发布,荣耀Magic系列喜迎新成员

荣耀在7月12日将举办全场景新品发布会&#xff0c;其中将正式推出荣耀新款平板 MagicPad。 荣耀官方今天上午开始预热荣耀平板 MagicPad&#xff0c;官方海报文案表明这将成为首款支持裸耳3D空间音频的平板&#xff0c;引领行业潮流。 “空间音频技术”并不陌生&#xff0c;简…

git merge 与 git rebase 的区别

文章目录 前言1、使用 merge2、使用 rebase总结 前言 首先我们要清楚&#xff0c;git merge 与 git rebase 处理的问题是一样的&#xff0c;这两个命令都用于把一个分支的变更整合进另一个分支&#xff0c;只不过他们达成同样目的的方式不同。 刚开始&#xff0c;已经存在一…