Java Character源码剖析

news2024/11/18 18:40:58

Character类除了封装了一个char外,还封装了Unicode字符级别的各种操作,是Java文本处理的基础。下面结合源码分析Character的贡献。

Unicode

也许你没听过Unicode,但应该见过UTF-8。UTF-8(8-bit Unicode Transformation Format)是一种常用的Unicode字符编码方案之一。它使用变长编码方式,将Unicode码点编码成1至4个字节的序列。UTF-8编码保证了对ASCII字符的向后兼容性,因此在处理纯英文文本时,其存储效率与ASCII编码相同。

而Unicode是一种字符编码标准,它为世界上几乎所有的字符分配了一个唯一的数字标识符。它旨在为文字的表示提供一种统一的方式,使得不同国家和语言的字符都能被正确地编码和解码。

在字符编码中,有两个重要的概念:代码点(code point)和代码单元(code unit)。

代码点是Unicode标准中给每个字符分配的唯一整数值。它对应于一个字符的抽象概念,表示文本中的一个字符。Unicode的代码点范围从U+0000到U+10FFFF。每个代码点都有一个唯一的编号,可以用十六进制形式表示,例如U+0041表示字符'A'。

代码单元是计算机中存储和处理字符时使用的最小单位。在Unicode中,代码单元的大小可以是8位(1个字节)或16位(2个字节)。在Java中,字符是使用Unicode编码表示的。Java的char类型是16位无符号整数(即UTF-16) ,用于表示一个Unicode字符。因此,Java中的字符串实际上是由一系列Unicode字符组成的。

然而,Unicode中的某些字符需要用多个代码单元来表示,这种情况下被称为代理对(surrogate pair)。代理对由一个高位代理项(High Surrogate,范围U+D800至U+DBFF)和一个低位代理项(Low Surrogate,范围U+DC00至U+DFFF)组成,它们一起表示一个字符。通过组合高位和低位代理项可以得到完整的代码点。

比如 ☺️ 的码点U+1F60A可以通过代理对的方式表示:

  1. 计算出该码点在辅助平面中的偏移量:U+1F60A - U+10000 = 0xF60A
  2. 将偏移量拆分为高位和低位代理项:
    • 高位代理项:0xD83D (U+D800 + 0xF60A >> 10)
    • 低位代理项:0xDE0A (U+DC00 + 0xF60A & 0x3FF)
  3. 使用这两个代理项来构成代理对,从而表示 ☺️。
int codePoint = 0x1F60A;
char[] surrogatePair = Character.toChars(codePoint);
System.out.println("UTF-16 编码: " + new String(surrogatePair));

检查代码点和字符

Character类中有很多相关静态方法,以下是对code point和char的检查

//判断一个int是不是一个有效的代码点,小于等于0x10FFFF的为有效,大于的为无效
public static boolean isValidCodePoint(int codePoint)
//判断一个int是不是BMP字符,小于等于OxFFFF的为BMP字符,大于的不是
public static boolean isBmpCodePoint(int codePoint)
//判断一个int是不是增补字符,0x010000~0X10FFFF为增补字符
public static boolean isSupplementaryCodePoint(int codePoint)
//判断char是否是高代理项,0xD800~0xDBFF为高代理项
public static boolean isHighSurrogate(char ch)
//判断char是否为低代理项,0xDC00~0xDFFF为低代理项
public static boolean isLowSurrogate(char ch)
//判断char是否为代理项,char为低代理项或高代理项,则返回true
public static boolean isSurrogate(char ch)
//判断两个字符high和low是否分别为高代理项和低代理项
public static boolean isSurrogatePair(char high, char low)
//判断一个代码点由几个char组成,增补字符返回2,BMP字符返回1
public static int charCount(int codePoint)

代码点和字符的互转

之前仅针对int和char之间的转换相信大家都很熟悉,就是参照ASCII码

从代码点到字符的转换:

int codePoint = 65; // 代码点(Unicode码点)
char c = (char) codePoint; // 将代码点转换为字符
System.out.println(c); // 输出字符 'A'

从字符到代码点的转换:

char c = 'A'; // 字符
int codePoint = c; // 将字符转换为代码点(Unicode码点)
System.out.println(codePoint); // 输出代码点 65

而有了低代理项和高代理项后,需要用复杂的公式转换。这个公式的基本思想是将高代理项和低代理项分别减去一个偏移量(0xD8000xDC00),然后将它们组合起来生成代码点。

public static int toCodePoint(char high, char low) {
    return ((high - 0xD800) << 10) + (low - 0xDC00) + 0x10000;
}

下面是其他的处理函数

//根据高代理项high和低代理项1ow生成代码点,这个转换有个公式,这个方法封装了这个公式
public static int toCodePoint(char high, char low)
//根据代码点生成char数组,即UTF-16表示,如果code point为BMP字符,则返回的char
//数组长度为1,如果为增补字符,长度为2,char[0]为高代理项,char[1]为低代理项
public static char[] toChars(int codePoint)
//将代码点转换为char数组,与上面方法类似,只是结果存入指定数组dst的指定位置index
public static int toChars(int codePoint, char[] dst, int dstIndex)
//对增补字符code point,生成低代理项
public static char lowSurrogate(int codePoint)
//对增补字符code point,生成高代理项
public static char highSurrogate(int codePoint)

Unicode字符属性

Unicode在给每个字符分配一个编号之外,还分配了一些属性Unicode给每个字符分配了一个类型,这个类型是非常重要的,很多其他检查和操作都是基于这个类型的。getType方法的参数可以是int类型的code point,也可以是char类型。char类型只能处理BMP字符,而int类型可以处理所有字符。Character类中很多方法都是既可以接受int类型,也可以接受char类型。

//获取字符类型
public static int getType(int codePoint)
public static int getType(char ch)

根据这个类型属性,可以获得字符的信息

//检查字符是否在Unicode中被定义:
public static boolean isDefined(int codePoint)
//检查是否为字母:
public static boolean isLetter(int codePoint)
//检查是否为字母或数字:
public static boolean isLetterOrDigit(int codePoint)
//检查是否为字母(Alphabetic):
public static boolean isAlphabetic(int codePoint)
//检查是否为空格字符:
public static boolean isSpaceChar(int codePoint)
//匹配实际产生空格效果的字符,如Tab控制键't'。更常用的检查空格的方法:
public static boolean isWhitespace(int codePoint)
//检查是否为小写字符:
public static boolean isLowerCase(int codePoint)
//检查是否为大写字符:
public static boolean isUpperCase(int codePoint)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1437918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode:14.最长公共前缀

14. 最长公共前缀 - 力扣&#xff08;LeetCode&#xff09; 目录 题目&#xff1a; 思路&#xff1a; 代码有限注释&#xff1a; 每日表情包&#xff1a; 题目&#xff1a; 思路&#xff1a; 仅有一种&#xff0c;LeetCode的四种解法&#xff0c;三种都是来水的&#…

SpringBoot3整合Mybatis-Plus,自定义动态数据源starter

文章目录 前言正文一、项目总览二、核心代码展示2.1 自定义AbstractRoutingDataSource2.2 动态数据源DynamicDataSource2.3 动态数据源自动配置2.4 动态数据源上下文DynamicDataSourceContextHolder2.5 动态数据源修改注解定义2.6 修改切面DynamicDataSourceAspect2.7 动态数据…

c++设计模式之代理模式

作用 代理模式主要用于&#xff0c;通过代理类&#xff0c;来控制实际对象的访问权限 案例 class VideoSite { public:virtual void freeVideo()0;virtual void vipVideo()0;virtual void trickVideo()0; };class FixBugVideoSite:public VideoSite { public:void freeVideo()…

AWS创建快照定期备份

备注&#xff1a;aws有快照定期备份工具&#xff0c;名字叫【生命周期管理器】 选择实例点击创建 点击下一步后设置备份频率等 然后点击创建即可

Vue源码系列讲解——虚拟DOM篇【一】(Vue中的虚拟DOM)

目录 1. 前言 2. 虚拟DOM简介 2.1什么是虚拟DOM&#xff1f; 2.2为什么要有虚拟DOM&#xff1f; 3. Vue中的虚拟DOM 3.1 VNode类 3.2 VNode的类型 3.2.1 注释节点 3.2.2 文本节点 3.2.3 克隆节点 3.2.4 元素节点 3.2.5 组件节点 3.2.6 函数式组件节点 3.2.7 小结 3…

NCNN GPU初始化加速——cache实现

概要 NCNN的CPU初始化速度很快&#xff0c;但是当使用GPU进行推理时&#xff0c;初始化往往要花费几秒甚至更长时间。其他框架例如MNN有载入cache的方式来进行加速&#xff0c;NCNN目前没有相关接口来实现加速&#xff0c;那么NCNN是否也可以加载cache来实现加速呢&#xff1f;…

程序员的数字化工作台:理解不关机背后的逻辑与需求

目录 程序员为什么不喜欢关电脑&#xff1f; 电脑对程序员的重要性&#xff1a; 工作流程与需求&#xff1a; 数据安全与备份&#xff1a; 即时性与响应&#xff1a; 个人习惯等方面&#xff1a; 程序员为什么不喜欢关电脑&#xff1f; 电脑对程序员的重要性&#xff1a;…

龙测科技荣获2023年度技术生态构建奖

本月&#xff0c;由极客传媒举办的“有被Q到”2024 InfoQ 极客传媒合作伙伴年会顺利举办&#xff0c;龙测科技喜获2023年度技术生态构建奖。 InfoQ是首批将Node.js、HTML5、Docker等技术全面引入中国的技术媒体之一&#xff0c;秉承“扎根社区、服务社区、引领社区”的理念&…

Redis(十三)缓存双写一致性策略

文章目录 概述示例 缓存双写一致性缓存按照操作来分&#xff0c;细分2种读写缓存&#xff1a;同步直写策略读写缓存&#xff1a;异步缓写策略双检加锁策略 数据库和缓存一致性更新策略先更新数据库&#xff0c;再更新缓存先更新缓存&#xff0c;再更新数据库先删除缓存&#xf…

解决国内无法访问OpenAI API的三种方式

前言 在全球数字化的浪潮中&#xff0c;人工智能API成为了推动创新的关键工具。然而&#xff0c;由于网络限制&#xff0c;不是所有用户都能直接访问这些资源。国内就不能直接访问OpenAI官网&#xff0c;也就不能直接访问OpenAI API&#xff0c;这时候需要去寻找OpenAI的代理方…

DevExpress WinForms中文教程 - 如何创建可访问的WinForms应用?(二)

为用户创建易访问的Windows Forms应用程序不仅是最佳实践的体现&#xff0c;还是对包容性和以用户为中心的设计承诺。在应用程序开发生命周期的早期考虑与可访问性相关的需求可以节省长期运行的时间(因为它将决定设计决策和代码实现)。 一个可访问的WinForms应用程序提供了各种…

Python循环语句——for循环的基础语法

一、引言 在Python编程的世界中&#xff0c;for循环无疑是一个强大的工具。它为我们提供了一种简洁、高效的方式来重复执行某段代码&#xff0c;从而实现各种复杂的功能。无论你是初学者还是资深开发者&#xff0c;掌握for循环的用法都是必不可少的。在本文中&#xff0c;我们…

EasyRecovery2024永久免费版电脑数据恢复软件下载

EasyRecovery数据恢复软件是一款非常好用且功能全面的工具&#xff0c;它能帮助用户恢复各种丢失或误删除的数据。以下是关于EasyRecovery的详细功能介绍以及下载步骤&#xff1a; EasyRecovery-mac最新版本下载:https://wm.makeding.com/iclk/?zoneid50201 EasyRecovery-win…

2 月 7 日算法练习- 数据结构-树状数组

树状数组 lowbit 在学习树状数组之前&#xff0c;我们需要了解lowbit操作&#xff0c;这是一种位运算操作&#xff0c;用于计算出数字的二进制表达中的最低位的1以及后面所有的0。 写法很简单&#xff1a; int lowbit&#xff08;int x&#xff09;&#xff5b;return x &am…

基于SpringBoot+Vue的实验室管理系统

末尾获取源码作者介绍&#xff1a;大家好&#xff0c;我是墨韵&#xff0c;本人4年开发经验&#xff0c;专注定制项目开发 更多项目&#xff1a;CSDN主页YAML墨韵 学如逆水行舟&#xff0c;不进则退。学习如赶路&#xff0c;不能慢一步。 目录 一、项目简介 二、开发技术与环…

vHierarchy

与其他层次结构资产不同,vHierarchy是: -极简:没有噱头或视觉杂乱 - 可定制:任何功能都可以禁用 - 优化:无编辑器延迟 - 安全:没有隐藏的游戏对象,卸载后不会搞乱你的项目 特点: 组件迷你地图 - 见右侧列出的组件 - 按住Alt键并单击组件图标,打开组件编辑器弹出窗口 自…

RCS系统之:机器人状态

在设计RCS系统平台时&#xff0c;机器人总共设计状态有&#xff1a; 离线模式&#xff1b; 如图&#xff0c;18号机器人呈灰黑色&#xff0c;表示机器人没有上电状态 工作模式&#xff1b; 如图&#xff0c;10号机器人成绿色&#xff0c;表示机器人处于工作模式&#xff0c;等…

###C语言程序设计-----C语言学习(10)#函数再探

前言&#xff1a;感谢您的关注哦&#xff0c;我会持续更新编程相关知识&#xff0c;愿您在这里有所收获。如果有任何问题&#xff0c;欢迎沟通交流&#xff01;期待与您在学习编程的道路上共同进步。 目录 一. 基础知识的学习 1.不返回结果函数 2.局部变量 3.全局变量 4.…

linux中的gdb调试

gdb是在程序运行的结果与预期不符合时&#xff0c;可以使用gdb进行调试 注意&#xff1a;使用gdb调试时要在编译上加-g参数 gcc -g -c hello.c 启动gdb调试&#xff1a; gdb file 对gdb进行调试 设置运行参数&#xff1a; set args 可指定运行参数 show args 可以查…

【DC-9靶场渗透】

文章目录 前言 一、确定靶机地址 二、信息收集 三、寻找漏洞 四、进一步漏洞挖掘 五、关键文件 六、ssh爆破 七、提权 总结 前言 马上过年了&#xff0c;年前再做一下DC靶场最后一个靶机。 一、确定靶机地址 1、可使用arp-scan命令 靶机地址为&#xff1a;172.16.10…