Unicode是通用字符编码标准是计算机科学领域里的一项业界标准,包括字符集、编码方案等。
Unicode标准定义了一个统一的多语言文本字符集(即Unicode字符集)。
Unicode标准定义了三种字符编码方案:UTF-8、UTF-16、UTF-32。
因此,在Unicode标准中每个字符的码点是唯一的。但每个字符可以有多种编码,不同编码方案的码元大小是不一样的。
码点(code point)与码元(code unit)是JDK 5.0开始引入的,与Unicode标准编码相关的两个专业术语。
- 码元,也称代码单元,是编码方案中码点的最小单元,一个码点(字符)需要用一个或多个码元进行编码。在一个编码方案中每个码元具有固定的大小,其中,UTF-8方案的码元是1字节、UTF-16方案的码元是2字节,而UTF-32方案的码元是4字节。
- 码点表示一个字符的整型值(字符编码值)。Unicode标准编码的码点在代码空间中的取值范围自0x0000 至 0x10FFFF,每个码点可对应(定义)一个字符。Unicode码点是用十六进制数值再加上前缀“U+”来表示,例如,U+0041是字符’A’的码点,U+4E2D是汉字字符’中’的码点。