编码规则UTF-8 和 UTF-16的区别

news2024/11/28 18:47:40

UTF-8 和 UTF-16 的设计背景与历史

为了更好地理解 UTF-8 和 UTF-16 的设计选择和背景,以下是两种编码方案的历史、设计动机和它们在计算机科学中的应用。

Unicode 的背景

在 Unicode 之前,不同的字符集和编码方案使得跨平台和国际化的文本处理变得复杂且难以维护。例如,ASCII 只能表示 128 个字符,无法满足处理全球所有文字的需求。不同的语言和地区有各自的编码方案,导致了“乱码”和“代码页地狱”等问题。

为了统一全球文字的编码,Unicode 联盟于 1991 年发布了 Unicode 标准,旨在为每一个字符分配唯一的编码点,并定义了一套通用的字符编码体系。

UTF-8 的设计背景与历史

设计背景
  1. 目标: 为了有效地编码所有 Unicode 字符,同时保持对 ASCII 的完全兼容。
  2. 网络友好: 需要一种适合于文件和网络传输的编码方案,因为许多互联网协议(如 HTTP 和 SMTP)基于 ASCII。
  3. 可变长度: 能够紧凑地表示不同语言的字符,尤其是对于占主导地位的英语字符集,应该高效。
  4. 逐字节处理: 允许通过单字节处理机制进行解码,这对于流媒体和网络数据包的处理特别重要。
历史
  • 发明时间: UTF-8 于 1992 年由 Ken Thompson 和 Rob Pike 在贝尔实验室发明。
  • 发表: 1993 年,UTF-8 被正式提出,并且在 RFC 2277 中定义为“用于所有文本 MIME 内容的标准格式”。
  • 采用: 随着互联网的发展,UTF-8 被广泛采用,尤其在 web 技术和电子邮件传输中。
设计特色
  1. ASCII 兼容性: UTF-8 使用 1 字节来编码 ASCII 字符,这使得它可以与现有的基于 ASCII 的系统无缝集成。
  2. 无 BOM 影响: UTF-8 不需要字节序标记(BOM),因为其字节顺序在所有平台上都是一致的。
  3. 同步性: UTF-8 字符串可以通过前缀字节的模式确定下一个字符的起点,这使得它对流式处理特别有利。

UTF-16 的设计背景与历史

设计背景
  1. 目标: 提供一种比 UTF-8 更高效的 Unicode 编码,特别是针对 BMP(基本多文种平面)字符的高效处理。
  2. 固定长度(对于 BMP): 对于 BMP 字符,每个字符使用固定的 2 个字节,便于快速索引和处理。
  3. 代理对支持: 能够表示超出 BMP 范围的字符,这对于扩展 Unicode 范围至超过 65536 个字符是必要的。
历史
  • 发明时间: UTF-16 于 1993 年由 Unicode 联盟发布,是 Unicode 标准的一部分。
  • 发展: UTF-16 的前身是 UCS-2,它是一种固定长度的 16 位编码,但只能编码 BMP 范围内的字符。随着 Unicode 的扩展,UTF-16 引入了代理对以支持更多的字符。
  • 应用: UTF-16 被广泛用于操作系统和编程语言的内部表示,如 Windows 的内部字符串表示和 Java 的字符存储。
设计特色
  1. 固定长度处理: 对于大多数常用字符,UTF-16 提供了 2 字节的固定长度,这简化了许多字符处理操作。
  2. 高效的东亚语言处理: UTF-16 对于东亚文字(如汉字)更为高效,因为这些文字大部分位于 BMP 范围内。
  3. 代理对机制: 通过使用代理对,UTF-16 可以编码超过 65536 个字符,这对于全面支持 Unicode 的所有字符是必需的。

设计动机和应用场景

  1. UTF-8 的设计动机:

    • 兼容性: UTF-8 保持了与 ASCII 的兼容性,这使得它成为互联网上的事实标准。
    • 灵活性和效率: UTF-8 能够高效地编码 ASCII 字符(1 字节),并且相对高效地编码其他字符(多字节),这使得它在以英文为主的环境中非常高效。
    • 无字节序问题: 由于每个字节在 UTF-8 中都有固定的位置,避免了字节序的问题。
    • 简化传输和存储: UTF-8 的逐字节处理特点使得它在流媒体、文件传输和文本存储中极具优势。
  2. UTF-16 的设计动机:

    • 字符集扩展: UTF-16 的设计初衷是为了有效地表示扩展的 Unicode 字符集,尤其是当 Unicode 范围超出 BMP 后。
    • 高效处理 BMP 字符: 大多数常用字符(特别是东亚语言)位于 BMP 范围内,因此 UTF-16 可以以 2 字节的固定长度编码这些字符,这对于这些语言的文本处理是高效的。
    • 内部使用和处理: 许多操作系统和编程语言(如 Windows 和 Java)选择 UTF-16 作为内部字符表示形式,因其对 BMP 字符的高效处理。

编码机制

  1. UTF-8:

    • 可变长度编码: UTF-8 使用 1 到 4 个字节来编码 Unicode 字符。
      • 1 字节: 0xxxxxxx(适用于 ASCII 范围的字符,0x00 - 0x7F)。
      • 2 字节: 110xxxxx 10xxxxxx
      • 3 字节: 1110xxxx 10xxxxxx 10xxxxxx
      • 4 字节: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    • 字节顺序一致: UTF-8 不受字节序影响,即大端序(Big-endian)和小端序(Little-endian)都一样。
    • ASCII 兼容: UTF-8 对于 0x00 到 0x7F 的 ASCII 字符使用单字节编码,与 ASCII 完全兼容。
  2. UTF-16:

    • 可变长度编码: UTF-16 使用 2 个或 4 个字节来编码 Unicode 字符。
      • 基本平面(BMP,0x0000 - 0xFFFF)的字符使用 2 个字节。
      • 辅助平面(0x10000 - 0x10FFFF)的字符使用 4 个字节(一个高位代理和一个低位代理)。
    • 字节顺序影响: UTF-16 可以是大端序或小端序,通常通过字节序标记(BOM,Byte Order Mark,0xFEFF)来指示。

存储效率

  1. UTF-8:

    • 对于 ASCII 范围的字符(0x00 - 0x7F),UTF-8 使用 1 个字节,存储非常高效。
    • 对于非 ASCII 字符,尤其是汉字等需要 3 个字节,这时存储效率较低。
    • 对于补充字符(大于 0xFFFF),使用 4 个字节。
  2. UTF-16:

    • 对于大多数常用字符(BMP 范围内,0x0000 - 0xFFFF),UTF-16 使用 2 个字节。
    • 对于超出 BMP 的字符(0x10000 及以上),UTF-16 使用 4 个字节。
    • 在以英文为主的文本中,UTF-16 的存储效率较低,但对于东亚文字较高效。

编码特性

  1. UTF-8:

    • 前向兼容: UTF-8 编码具有前缀的特性,每个字节的高位可以指示字节序列的长度,这样扫描字符时可以确定下一个字符的起始位置。
    • 同步容错: 如果遇到无效的字节序列,可以跳过错误部分并继续解码后续部分,不影响整体的解码。
    • 按字节处理: 可以逐字节处理,非常适合流媒体和网络传输。
  2. UTF-16:

    • 固定长度(对于 BMP 字符): 对于 BMP 范围内的字符,每个字符使用 2 个字节,便于快速索引和字符计数。
    • 复杂的代理对: 对于补充字符,需要代理对(surrogate pairs),编码和解码较为复杂。
    • 适合大字符集: 在需要处理大量非 ASCII 字符的情况下,UTF-16 更高效。

兼容性和应用场景

  1. UTF-8:

    • 广泛应用于网络传输和文件存储中,尤其适合以英文和数字为主的场景。
    • 常用于互联网标准,如 HTML 和 JSON,因其对 ASCII 的良好兼容性。
  2. UTF-16:

    • 常用于操作系统和编程语言内部,如 Windows 的内部 API 和 Java 的字符串表示。
    • 适合处理大量非 ASCII 字符的应用,如东亚文字处理。

总结

  • UTF-8: 以可变长度编码字符,具有较好的 ASCII 兼容性和网络传输效率,非常适合以英语为主的文本处理和互联网应用。目前UTF-8快要在互联网一统江湖了
  • UTF-16: 适合需要处理大量非 ASCII 字符的场景,虽然占用存储空间较大,但在处理字符时较为高效,适合在内存中存储文本和内部字符处理。

图示比较

  1. UTF-8 编码示例:

    • 字符 'A' (U+0041): 0x41 → 01000001 (1 字节)
    • 字符 '中' (U+4E2D): 0x4E2D → 11100100 10111010 10101101 (3 字节)
    • 字符 '𐍈' (U+10348): 0x10348 → 11110000 10010000 10001101 10001000 (4 字节)
  2. UTF-16 编码示例:

    • 字符 'A' (U+0041): 00000000 01000001 (2 字节)
    • 字符 '中' (U+4E2D): 01001110 00101101 (2 字节)
    • 字符 '𐍈' (U+10348): 11011000 00000011 11011100 00101000 (4 字节,代理对)

通过以上的对比,可以清楚地看到 UTF-8 和 UTF-16 在编码方式、存储效率和适用场景上的差异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1848216.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[网络安全产品]---EDR

写在前面 前端时间看抖音,刷到周鸿祎介绍360为什么这么厉害,他提到一点就是360是全球第一个提出云查杀概念的公司,相比较传统的基于病毒特征库终端杀毒,360依托积累的庞大的信息数据能有效应对APT攻击。 然后又特意找了一下云查…

高阶图神经网络 (HOGNN) 的概念、分类和比较

图神经网络(GNNs)是一类强大的深度学习(DL)模型,用于对相互连接的图数据集进行分类和回归。它们已被用于研究人类互动、分析蛋白质结构、设计化合物、发现药物、识别入侵机器、模拟单词之间的关系、寻找有效的交通路线…

oracle12c到19c adg搭建(五)dg搭建后进行切换19c进行数据字典升级

一、备库切主库升级 12c切换为19c主库的时候是由低版本到高版本所以cdb和pdb的数据字典需要进行升级才可以让数据与软件版本兼容。 1.1切换 SQL> alter database recover managed standby database finish; Database altered. SQL> alter database commit to switcho…

C语言 | Leetcode C语言题解之第164题最大间距

题目&#xff1a; 题解&#xff1a; int maximumGap(int* nums, int numsSize) {if (numsSize < 2) {return 0;}int maxVal INT_MIN, minVal INT_MAX;for (int i 0; i < numsSize; i) {maxVal fmax(maxVal, nums[i]);minVal fmin(minVal, nums[i]);}int d fmax(1,…

计算机网络 MAC地址表管理

一、理论知识 1.MAC地址表&#xff1a;交换机使用MAC地址表来记录各MAC地址对应的端口&#xff0c;用于帧转发的目的。 2.老化机制&#xff1a;交换机会为每一条MAC地址表项设置老化时间&#xff0c;老化时间到期后未收到该MAC地址报文的表项将被删除&#xff0c;释放资源。 …

Java热部署:让应用更新如丝般顺滑,告别繁琐重启!

目录 手动启动热部署 自动启动热部署 参与热部署监控的文件范围配置 关闭热部署 什么是热部署&#xff1f;简单说就是你程序改了&#xff0c;现在要重新启动服务器&#xff0c;嫌麻烦&#xff1f;不用重启&#xff0c;服务器会自己悄悄的把更新后的程序给重新加载一遍&…

提升教学效率的全方位解决方案

在现代教育环境中&#xff0c;教学管理的复杂性与日俱增。如何高效管理教学活动、优化教师资源、提升教学质量&#xff0c;是每个教育机构面临的重要挑战。搭贝教务教学管理系统提供了一套全面的解决方案&#xff0c;涵盖了巡检、调课代课、生源登记、监考、外派、作业发布、听…

用群辉NAS打造影视墙(Jellyfin篇)

目录 1、安装Jellyfin媒体服务器 2、配置 (1)语言 (2)管理员账户 (3)添加媒体库 (4)指定元数据语言 (5)远程访问设置 (6)修改文件夹权限 (7)刷新电影 (8)启用硬件加速 3、PC浏览器访问 4、手机客户端 5、智能TV客户端 6、解决演员不能显示中文的问…

基于 NXP LS1046 +FPGA系列 CPCI 架构轨道交通专用板卡

基于 NXP LS1046 系列 CPCI 架构轨道板卡 该产品是一款 CPCI 无风扇架构的高可靠性板卡&#xff0c;CPU 选用 NXP LS1046A 系统平台&#xff0c;支持嵌入式 Linux 或者标准 Ubuntu Linux 、凝思等操作系统&#xff0c;轨道交通 EMC 及宽温级别设计&#xff0c;板载多路 M12 高速…

电脑ai写作软件,4款实用的软件!

在数字化时代&#xff0c;AI写作软件已经成为创作者们不可或缺的工具。它们利用先进的自然语言处理技术和大数据分析&#xff0c;能够快速生成高质量的文章&#xff0c;大大提升了创作效率。那么&#xff0c;市面上有哪些值得一试的电脑AI写作软件呢&#xff1f;让我们一起来盘…

MinIO 网络与覆盖网络

云计算和容器化技术的发展改变了应用程序的开发、部署和管理方式。这种转变给网络环境带来了重大变化&#xff0c;为DevOps和SRE工程师带来了新的挑战和机遇。然而&#xff0c;在这种转变中&#xff0c;出现了明显的知识差距&#xff0c;特别是在理解物理网络和硬件背景下网络的…

Mobaxterm 配置 ssh 隧道

背景介绍&#xff1a; 在使用 ssh远程 连接服务器时&#xff0c;由于许多服务器并没有公网ip&#xff0c;或者不能从内部直接访问&#xff0c;经常使用 跳板机端口转发 的形式访问服务器。 但是在实际使用中&#xff0c;我们经常会有些网络和数据交换操作&#xff0c;需要用到…

亿发开启极速开单新纪元,解锁业务新速度,提升企业竞争力

我们不断追求卓越&#xff0c;致力于通过技术革新&#xff0c;为客户带来更快捷、更智能、更全面的进销存管理体验。立即更新&#xff0c;享受更高效的业务处理流程。

Shell脚本:条件语句(if、case)

目录 硬编码 硬编码的缺点 条件判断 $? 命令行语句 判断指定目录是否存在 判断指定文件是否存在 判断指定对象是否存在 表达式形式语句 判断对象是否存在 判断对象是否有权限 与、或、非 运算 与运算 或运算 非运算 比较大小 判断磁盘利用率实验步骤 字符串…

(vue3)引入组件标红,...has no default export 组件没有默认导出

(vue3)引入组件标红&#xff0c;…has no default export 组件没有默认导出 一、项目背景&#xff1a; 创建的vitevue3ts项目页面有标红,但程序不报错 二、原因 由于之前安装了 Vetur 插件&#xff0c;Vetur 默认使用 eslint-plugin-vue&#xff0c;并且强制 export default …

面试官问我:Redis处理点赞,如果瞬时涌入大量用户点赞(千万级),应当如何进行处理?【后端八股文(1)】

本文为【Redis使用Set集合实现点赞相关八股文】初版&#xff0c;后续还会进行优化更新&#xff0c;欢迎大家评论交流~ 大家第一眼看到这个标题&#xff0c;不知道心中是否有答案了&#xff1f;在面试当中&#xff0c;面试官经常对项目亮点进行深挖&#xff0c;来考察你对这个项…

职场记 | 有些人的成功真的不是偶然

今天跟大家聊一聊雷总的成长记&#xff0c;希望给职场中的朋友们一点启发&#xff1a; 强烈的创业精神与持续的创新意识 雷军自大学时期起就展现出了强烈的创业热情。他不仅在求学期间积极参与创业活动&#xff0c;更在毕业后迅速踏上创业道路&#xff0c;创立了多家知名企业…

G7 - Semi-Supervised GAN 理论与实战

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 目录 理论知识模型实现引用、配置参数初始化权重定义算法模型模型配置模型训练训练模型 模型效果总结与心得体会 理论知识 在条件GAN中&#xff0c;判别器只用…

没有超头、最低价的视频号618战况如何?有何趋势变化?| 视频号618观察

转眼618大促已接近尾声&#xff0c;今年的你有剁手哪些好物吗&#xff1f;对618的整体感觉又是如何呢&#xff1f; 这是12年来&#xff0c;第一个电商平台没有预售付定金的618&#xff0c;当然或许此后的双11、每一次大促也将逐渐回归传统&#xff0c;回归本质。 而对于视频号来…

【八股系列】为什么组件中的 data 必须是一个函数,然后 return 一个对象,而 new Vue 实例里,data 可以直接是一个对象?

&#x1f389; 博客主页&#xff1a;【剑九 六千里-CSDN博客】 &#x1f3a8; 上一篇文章&#xff1a;【点击一个按钮&#xff0c;浏览器会做些什么事情【呈现效果时流程】&#xff1f;(js)】 &#x1f3a0; 系列专栏&#xff1a;【面试题-八股系列】 &#x1f496; 感谢大家点…