ASCII Unicode UTF-8 字符集 字符编码

news2024/11/17 3:25:01

ASCII Unicode UTF-8 字符集 字符编码

  • 基本概念
    • 字符
    • 字符集
    • 字符编码
  • 字符集和字符编码
    • ASCII 字符集
    • Unicode 字符集
    • UTF-8
  • 附录

基本概念

字符集为每个字符分配了一个唯一的编号,通过这个编号就能找到对应的字符。在编码过程中我们经常会使用字符,而使用字符的前提就是把字符放入内存中,而放入内存中的仅仅是字符的编号,而不是真正的字符实体。
这就引出一个问题,如何将这些字符编号存入内存中,还能让计算机通过这些编号找到对应的真实字符实体。

字符

字符(Character),简单点说,就是在在计算机和电信技术中各种文字和符号的总称。一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号、一个图形符号或者控制符号等。

字符集

字符集(Character Set),就是多个字符的集合。不同的字符集包含的字符数量是不一样的,包含的字符也不一样,对应的编码方式也不同。例如,GB2312 是中国国家标准的简体中文字符集(其中包含简化汉字6763个+一般符号+序号+数字+拉丁字母+日文假名+希腊字母+俄语字母+汉语拼音符号+汉语注音字母,共7445个字符),而 ASCII 字符集只包含了128个字符(其中主要字符是英文字母+拉丁字母和一些简单的控制字符)。
另外,还有其他常用的字符集,如 GBK 字符集、Unicode 字符集等。

字符编码

字符编码(Character Encoding),是指一种映射规则,根据这个映射规则可以将某个字符映射成其他形式的数据以便在计算机中存储和传输。例如 ASCII 字符编码规定使用单字节中低7位比特去编码所有字符,在这个编码规则下字母 A 的编号是 65(ASCII码),因此写入存储设备的二进制值是 01000001 。每种字符集都有自己的字符编码规则,常用的字符集编码规则还有 UTF-8 等。

字符集和字符编码

ASCII 字符集

上个世纪60年代,美国制定了一套字符编码规则,对英文字符和二进制位之间的关系做了统一规定,这套编码规则就是 ASCII 编码,一直沿用至今。
ASCII 编码一共规定了128个字符的编码规则,这128个字符形成的集合就叫做 ASCII 字符集。在 ASCII 编码中,每个字符占用一个字节的后面7位,最前面的一位规定为0。下图是 ASCII 字符集中字符和码值的对应关系:

ASCII字符集
英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。而且,欧洲小国家特别多,每个国家可能都有自己的语言体系,语言环境十分复杂,为了解决这个问题,这些欧洲国家使用了一套延伸的 ASCII 字符集,利用字节中闲置的最高位编入新的符号,称为 EASCIIExtended ASCII):在 EASCII 中表示的256个字符中,前128字符和 ASCII 编码表示的字符完全一样,后128个字符每个国家或地区都有自己的编码标准。例如:130(二进制为 10000010)在法语编码中代表了 é,在希伯来语编码中代表了字母 Gimel (ג),在俄语编码中又会代表另外一个字符。
根据这个规则,就形成了很多子标准:ISO-8859-1ISO-8859-2 等。这些子标准适用于欧洲不同的国家地区。

至于亚洲国家的文字和符号那就更多了,光汉字就多达10万左右,如果按照 ASCII 码单字节表示,即使用上了最高位也只能表示256种字符,肯定是不够的,所以必须使用多字节来表示一个字符,因此就出现了后面的 Unicode 字符集和 GB2312 等字符集。比如,GB2312 字符集,使用两个字节表示一个汉字,所有理论上最多可以表示 65536 个字符(2^16)。

Unicode 字符集

ASCII 码字符集总共才能容纳256个字符,对于全世界各国语言来说,很难全部包含在内,所有就出现了 Unicode 字符集。

Unicode字符集是一个很大的字符集合,现在的规模可以容纳100多万个符号,每个符号的编码都不一样。

需要注意的是,Unicode 只是一个字符集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何编码如何存储。这就造成了两个问题:

  • 如何才能区分 UnicodeASCII ?计算机如何知道三个字节表示一个字符而不是分别表示三个字符呢?
  • 已经知道英文只用一个字节表示就够了,如果统一采用 Unicode 规定,每个字符都要用三个字节来表示,那么每个英文字符前都必须有两个字节是0,这对应存储来说是极大的浪费。

因此就出现了 UTFUnicode Transformation Formats)系列的编码规则。UTF编码规则具体规定了 Unicode 字符集中的字符是如何编码的。

总结:Unicode 是一个很大的字符集,它只规定了这个字符集中每个字符对应的码值是多少,具体的编码规则是由 UTF 系列的编码规则实现的。

UTF-8

它是一种编码规则,互联网的普及,强烈要求出现一种统一的编码方式。UTF-8 就是在互联网上使用最广泛的一种 Unicode 的实现方式(其他方式还有 UTF-16UTF-32,不过基本不用),这里的关系是:UTF-8 编码是 Unicode 的实现方式之一

UTF-8 是一种针对 Unicode 的可变长度字符编码规则,又称万国码。UTF-8 用1-4个字节编码 Unicode 字符,根据不同的字符而变化字节长度(UTF-8 编码可以容纳 2^21 个字符,总共200多万个字符)。

UTF-8 的编码规则只有两条:

  1. 对于单字节的符号,字节的第一位设为0,后面7位为这个字符的 Unicode 码,因此对于英文字母来说,UTF-8 编码和 ASCII 码是相同的。
  2. 对于 n 字节的字符(n > 1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前两位一律设为 10,剩下的没有提及的二进制位,全部为这个字符的 Unicode 码。

下表总结了这个编码规则,字母 x 表示可用编码的位:

UTF 字节数UTF编码方式
一个字节0xxxxxxx
两个字节110xxxxx 10xxxxxx
三个字节1110xxxx 10xxxxxx 10xxxxxx
四个字节11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下面以汉字 为例,演示如何实现 UTF-8 编码:
已知 Unicode 编号是 U+4E25,换算成二进制是 1001110 00100101(注意,这是它的 Unicode 值,至于以什么样的二进制值存储和计算机中进行传输是通过编码方式来的) ,根据上表可以得出,存储这个字需要三个字节(两个字节的编码方式,除去首位固定的 11010,剩下的位数不够存放 1001110 00100101),即格式应该是 1110xxxx 10xxxxxx 10xxxxxx,然后,从 的最后一个二进制位开始,依次从后往前填入格式中的 x,多出的位补 0,这样就得到了 UTF-8 编码值是 11100100 10111000 10100101,换算成十六进制就是 E4B8A5

在这里插入图片描述

附录

如果你希望查看完整的 Unicode 字符集,以及各种编码方式,可以戳这里。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2170740.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

9.5 Linux_I/O_静态库与动态库

库 什么是库: 库是一个二进制文件,包含的代码可用被程序调用。常见的库有标准C库、数学库、线程库。 调用库的方式有两种: 使用库的源码,下载后编译直接安装库的二进制包 在Linux下,库存放在/lib 和 /usr/lib 目录…

AWS Network Firewall -NAT网关配置只应许白名单域名出入站

1. 创建防火墙 选择防火墙的归属子网(选择公有子网) 2. 创建规则白名单域名放行 3. 绑定相关规则

探讨TikTok直播专线的必要性

随着社交媒体的迅速发展,短视频平台如TikTok(在中国抖音)已成为现代人生活中不可或缺的一部分。TikTok的直播功能因其即时性和互动性受到广泛喜爱,但在中国市场上,主播们在使用这一功能时面临不少挑战,其中…

O2OA(翱途)服务器故障排查

O2OA(翱途)开发平台针对o2server服务器在运行过程中出现的无响应或响应缓慢的问题,我们可以从多个不同方向进行深入而系统的排查,以确保能够准确识别并解决根本原因。 应用服务器日志 对于o2server服务器我们首要排查的是服务器…

基于大数据+大屏可视化+协同过滤算法的经济型酒店推荐系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

【AI驱动 TDSQL-C Serverless 数据库技术实战营】AI赋能电商数据管理

随着大数据时代的到来,数据量的激增对数据库系统提出了更高的要求。传统的数据库管理方式已经难以满足现代企业对于灵活性、可扩展性以及成本控制的需求。在此背景下,Serverless架构因其按需分配资源、自动扩展等特性而受到广泛关注。本文将探讨如何利用…

高效免费!PDF秒变Word,在线免费转换工具推荐!!!

#创作灵感# 工作中,总是需要将pdf文件转换成word文件,便于后期编辑、处理、使用,但是又没有wps会员,虽然去淘宝买,一天也就8毛钱左右,但是转换文件的工作几乎每天都需要做,长此以往,…

Java零工市场小程序如何实现一站式服务

零工市场小程序作为一个为自由职业者服务的平台,Java编程语言是其坚实的后盾,为自由职业者提供了良好的服务,提高了用户体验感和工作效率,实现了一站式服务。 首先,用户只需在微信中就可使用,注册完善个人信…

GPIO模拟输出PWM调节屏幕背光亮度

一、概述 很多时候由于节省硬件资源,降低成本,会把PWM控制芯片去掉或者是改做它用,导致当我们想用PWM方式控制背光时只能使用普通的GPIO口。本篇文档就来讲解下如何使用GPIO模拟PWM功能进行背光的控制。本文以IMX6为例。 二、确认硬件接口 …

LLM如何结合知识图谱进行RAG

从RAG到GraphRAG:知识图谱如何提升大模型的检索与推理能力? ©作者|Zane 来源|神州问学 为什么需要知识图谱 在20世纪60年代末,数据库技术开始发展,在70年代数据库技术得到了迅猛的发展,成为了计算机科学的一个重…

Spring Boot 学习之路 -- 处理 HTTP 请求

前言 最近因为业务需要,被拉去研究后端的项目,代码框架基于 Spring Boot,对我来说完全小白,需要重新学习研究…出于个人习惯,会以 Blog 文章的方式做一些记录,文章内容基本来源于「 Spring Boot 从入门到精…

终于弄明白了!ChatGPT原理大白话解析,看这一篇就够了

我们熟知,ChatGPT能聊天画图,能编程啃论文,那么,这个聊天机器人到底是怎么学会与人类交流的呢? 经过这段时间的琢磨方神倾情板书输出讲解回头翻阅各种资料,也终于明白了个大概,在这尽量给大家用…

大直径海油输油管测径仪的技术特点

关键字:海油输油管测径仪,输油管测径仪,海油管道测径仪,非接触测径仪,大直径测径仪, 大直径海油输油管测径仪的精度是确保海油管道直径测量准确性的关键因素,对于保障油气的顺畅传输与安全稳定具有重要意义。 大直径海油输油管测径仪的精度通常可以达到非常高的水平…

【算法系列-数组】移除元素 (双指针)

【算法系列-数组】移除元素 (双指针) 文章目录 【算法系列-数组】移除元素 (双指针)1. 算法分析🛸2. 删除有序数组中的重复性(LeetCode 26)2.1 解题思路🎯2.2 解题过程🎬2.3 代码举例🌰 3. 移动零(LeetCode 283)3.1 解题思路&…

【java数据结构】泛型

【java数据结构】泛型 一、包装类1.1 基本数据类型对应的包装类1.2 装箱和拆箱 二、泛型2.1 引出泛型2.2 什么是泛型2.3 语法2.3.1 泛型类2.3.2 泛型接口2.3.3 泛型方法 2.4 擦除机制2.5 泛型通配符2.5.1 <?>无限定的通配符2.5.2 <? extends T>上界的通配符2.5.3…

【算法篇】二叉树类(2)(笔记)

目录 一、Leetcode 题目 1. 左叶子之和 &#xff08;1&#xff09;迭代法 &#xff08;2&#xff09;递归法 2. 找树左下角的值 &#xff08;1&#xff09;广度优先算法 &#xff08;2&#xff09;递归法 3. 路径总和 &#xff08;1&#xff09;递归法 &#xff08;2…

移动端自适应/适配方案【详解】(含多种方案对比,推荐 viewport 方案,postcss-px-to-viewport-8-plugin 的使用等)

为什么移动端需要自适应/适配 &#xff1f; 因移动端 屏幕尺寸不同屏幕分辨率不同横竖屏 移动端自适应/适配方案 【必要】设置 meta 标签 <meta name"viewport" content"widthdevice-width, initial-scale1.0, maximum-scale1.0, user-scalable0">…

N930X音乐芯片,声光报警器语音方案:“您已进入警戒区域”

随着科技的飞速发展&#xff0c;城市规模不断扩大&#xff0c;人口密集度显著增加&#xff0c;各类安全隐患也随之而来。从商业楼宇到居民小区&#xff0c;从工业园区到交通枢纽&#xff0c;每一个角落都需要高效、可靠的安防系统来守护人们的生命财产安全。 声光报警器&#…

【ADC】SAR 型 ADC 和 ΔΣ ADC 的噪声源以及输入信号驱动和电压基准驱动电路

本文学习于TI 高精度实验室课程&#xff0c;简要介绍 SAR 型 ADC 和 ΔΣ ADC 的输入信号驱动和电压基准驱动电路&#xff0c;并介绍 SAR 和 Delta-Sigma 转换器的内在和外在噪声源。 文章目录 一、ADC 的外部噪声1.1 50/60 Hz 工频干扰1.2 混叠与抗混叠滤波器1.3 射频&#xf…

博主回归!数据结构篇启动

目录 1>>闲话 2>>数据结构前言 3>>复杂度的概念 4>>时间复杂度 5>>大O渐进表示法 6>>总结 1>>闲话 家人们好久不见&#xff0c;小编军训终于是结束了&#xff0c;大一事情太多了&#xff0c;这几天没时间健身&#xff0c;没时间…