Java-API简析_java.lang.Character类（基于 Latest JDK）（浅析源码）

news2026/2/17 6:48:32

【版权声明】未经博主同意，谢绝转载！（请尊重原创，博主保留追究权）
https://blog.csdn.net/m0_69908381/article/details/131178778
出自【进步*于辰的博客】

其实我的【Java-API】专栏内的博文对大家来说意义是不大的。因为暂且没有源码讲解，而且需要看Java-API，直接看Java-API文档就行了，也不用看博文。所以呢，这篇博文主要是写给我自己看的，也就是Java-API笔记。
因为我发现目前，我对Java-API的学习意识比较薄弱，需要慢慢习惯使用Java-API，乃至剖析源码来提升自己的源码阅读能力和编码素质。
大家如果需要Java-API文档，我上传了【https://download.csdn.net/download/m0_69908381/87691693】。

文章目录

1、概述
2、嵌套类摘要
- 2.1 static class Character.Subset
- 2.2 static class Character.UnicodeBlock
- 3、字段摘要
- 3.1 static byte COMBINING_SPACING_MARK
- 3.2 static byte CONNECTOR_PUNCTUATION
- 3.3 static byte CONTROL
- 3.4 static byte CURRENCY_SYMBOL
- 3.5 static byte DASH_PUNCTUATION

1、概述

在这里插入图片描述
Character 类在对象中包装一个基本类型 char 的值。Character 类型的对象包含类型为 char 的单个字段。

此外，该类提供了几种方法，以确定字符的类别（小写字母，数字，等等），并将字符从大写转换成小写，反之亦然。

字符信息基于 Unicode 标准，版本 4.0。

Character 类的方法和数据是通过 UnicodeData 文件中的信息定义的，该文件是 Unicode Consortium 维护的 Unicode Character Database 的一部分。此文件指定了各种属性，其中包括每个已定义 Unicode 代码点或字符范围的名称和常规类别。

此文件及其描述可从 Unicode Consortium 获得，网址如下：
http://www.unicode.org

Unicode Character Representations

char 数据类型（和 Character 对象封装的值）基于原始的 Unicode 规范，将字符定义为固定宽度的 16 位实体。Unicode 标准曾做过修改，以允许那些其表示形式需要超过 16 位的字符。合法代码点的范围现在是从 U+0000 到 U+10FFFF，即通常所说的 Unicode 标量值。（请参阅 Unicode 标准中 U+n 表示法的定义。）

从 U+0000 到 U+FFFF 的字符集有时也称为 Basic Multilingual Plane (BMP)。代码点大于 U+FFFF 的字符称为增补字符。Java 2 平台在 char 数组以及 String 和 StringBuffer 类中使用 UTF-16 表示形式。在这种表现形式中，增补字符表示为一对 char 值，第一个值取自 高代理项 范围，即 (\uD800-\uDBFF)，第二个值取自 低代理项 范围，即 (\uDC00-\uDFFF)。

所以，char 值表示 Basic Multilingual Plane (BMP) 代码点，其中包括代理项代码点，或 UTF-16 编码的代码单元。int 值表示所有 Unicode 代码点，包括增补代码点。int 的 21 个低位（最低有效位）用于表示 Unicode 代码点，并且 11 个高位（最高有效位）必须为零。除非另有指定，否则与增补字符和代理项 char 值有关的行为如下：

只接受一个 char 值的方法无法支持增补字符。它们将代理项字符范围内的 char 值视为未定义字符。例如，Character.isLetter('\uD840') 返回 false，即使是特定值，如果在字符串的后面跟着任何低代理项值，那么它将表示一个字母。
接受一个 int 值的方法支持所有 Unicode 字符，其中包括增补字符。例如，Character.isLetter(0x2F81A) 返回 true，因为代码点值表示一个字母（一个 CJK 象形文字）。

在 J2SE API 文档中，Unicode 代码点 用于范围在 U+0000 与 U+10FFFF 之间的字符值，而 Unicode 代码点 用于作为 UTF-16 编码的代码单元的 16 位 char 值。有关 Unicode 技术的详细信息，请参阅 Unicode Glossary。

从以下版本开始：
1.0
另请参见：
序列化表格