字符集与字符编码(ASCII、GBK、UNICODE)

news2024/11/15 11:05:53

1 常见编码

1.1 单字节编码:ASCII

ASCII使用1个字节(8个bit)来记录一组常用字符,见下表:
在这里插入图片描述

例如其中字母a的二进制位:1100 001 = 97,那么a在计算机中就可以用1100001来保存。

注意上表中其实只使用了7个二进制位,最高位b8没有使用。

所以目前ASCII只使用7个二进制位保存128个字符,还有128个位置未使用。

1.2 单字节编码:ASCII扩展OEM字符集

对于ASCII的第一次扩展:OEM(IBM PC)字符集,实际上就是使用了ASCII后面的128个位置,还是单字节字符集。

下面列举两种常用的:

ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”
在这里插入图片描述

ISO/IEC 8859-2:1999,又称Latin-2或“中欧语言”
在这里插入图片描述
对于拉丁语国家,除了我们熟知的a-z、A-Z之外,还存在衍生拉丁字母:

Á	É	Í	Ó	Ú	Ý	À	È	Ì	Ò	Ù	Â	Ê	Î	Ô	Û	Ä	Ë	Ï	Ö	Ü	Ÿ
á	é	í	ó	ú	ý	à	è	ì	ò	ù	â	ê	î	ô	û	ä	ë	ï	ö	ü	ÿ

Ç	Ş	Ã	Õ	Ñ	Ą	Ę	Į	Ų	Æ	Œ	Ø	IJ	ẞ	Þ
ç	ş	ã	õ	ñ	ą	ę	į	ų	æ	œ	ø	ij	ß	þ

可以看到,对于拉丁语系国家,单字节可以覆盖所有字符,Latin编码足够使用了。

但是对于非拉丁语系国家,例如汉语,单字节编码的256个位置是远远不够的。

1.3 双字节编码:大五码、GB码

单字节编码在中文环境中显然是不够用的,中文区的标准编码是GB系列。

  • 大五码是早期繁体中文的事实标准,基本被GB码取代。
  • GB码初代没有包含繁体,到今天的国家标准GB18030已经囊括了基本所有中、少数民族、日、韩汉字。
    • 演进:GB2312(2字节)→扩展繁体字→GBK(2字节)→扩展少数民族中日韩等→GB18030国家标准(4字节)。
    • 注意GBK都是向下兼容的,即GB18030兼容GB2312,因为使用的编码位置没有重叠。

1.3.1 大五码

Big5码是一套双位元组字符集,使用了双八码储存方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。

“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中:

0x8140-0xA0FE保留给使用者自定义字元(造字区)
0xA140-0xA3BF标点符号、希腊字母、特殊符号,包括在0xA259-0xA261,安放了九个计量用汉字:兙兛兞兝兡兣嗧瓩糎。
0xA3C0-0xA3FE保留。此区没有开放作造字区用。
0xA440-0xC67E常用汉字(5401字),字集来源除教育部“常用国字标准字体表”所列4808字外,并优先收编国中、国小教科书中常用字587字及异体字6字。先按笔画再按部首排序。
0xC6A1-0xC8FE保留给使用者自定义字元(造字区)
0xC940-0xF9D5次常用汉字(7652字),字集来源除教育部“次常用国字标准字体表”所列6330字外,并筛选编入教育部“罕用国字标准字体表”表中使用频率较高之1320字。亦是先按笔画再按部首排序。
0xF9D6-0xF9DC七个倚天外字集的扩充字:碁銹裏墻恒粧嫺(此七字分别为“棋鏽裡牆恆妝嫻”之异体字)
0xF9DD-0xFEFE保留给使用者自定义字元(造字区)

1.3.2 GBK

字符有一字节和双字节编码,007F范围内是第一个字节,和ASCII保持一致,此范围内严格上说有96个文字和32个控制符号。

之后的双字节中,前一字节是双字节的第一位。总体上说第一字节的范围是81FE(也就是不含80FF),第二字节的一部分领域在407E,其他领域在80FE

具体来说,定义的是下列字节:

范围第1字节第2字节编码数字数
水准GBK/1A1A9A1FE846717
水准GBK/2B0F7A1FE6,7686,763
水准GBK/381A040FE (7F除外)6,0806,080
水准GBK/4AAFE40A0 (7F除外)8,1608,160
水准GBK/5A8A940A0 (7F除外)192166
用户定义AAAFA1FE564
用户定义F8FEA1FE658
用户定义A1A740A0 (7F除外)672
合计:23,94021,886

2 字符集标准

可以理解为标准是一套字符集的集合,根据本地化的规则选择使用哪个字符集。

注意这些标准互相是不兼容的。

2.1 ANSI

与字符集不同,另一个维度的概念是字符集标准:由于不同的地区定义了大量不同的字符集,就拿单字节编码的字符集来说,就有ASCII、latin等等,虽然前128个字符一样,但后128个字符就完全不同了。
标准协会选择了一些比较常用的单字节编码作为ANSI标准,ANSI不指定某一种具体的字符集,而是根据系统locale选择具体使用哪一种单字节字符集。

ANSI没有固定字符集。

2.2 ISO 8859-1

ISO 8859-1 也是一种编码标准,由欧洲开发。长度也是一个字节,前 0~127 与 ASCII 一致,剩下的128个字符大多是欧洲语言所使用的字符,所以可以认为ISO 8859-1是为欧洲语言所定制的一套编码标准。一般情况ISO 8859-1标准会使用Latin 1。

2.3 GBK

事实上我们使用的GBK、GB18030都是标准,但由于我们的标准只对应一套特定的字符集,所以可以认为GBK就是字符集。

3 大统一

字符集、标准种类繁多,但是无论使用哪一种字符集,都无法做到显示任意国家的字符,所以unicode字符集出现了。

3.1 unicode

unicode使用4字节共32个二进制位,为每个字符都确定了一个唯一的编码,由于整体搜索空间庞大,实际使用的量比较少。所以将整体分为了17组,叫做字符平面。平时使用0号平面即可覆盖大部分场景。0号平面也叫做基本多文种平面(Basic Multilingual Plane, BMP)。

from wiki:

在这里插入图片描述

部分0号平面的分布:在这里插入图片描述

3.2 字符码与字符编码解耦

强映射的问题

传统编码中,字符码与字符编码是完全绑定的,例如在ASCII中,'a’的字符码是97,'a’的字符编码也是97。

在输入’a’时,系统直接映射为0110 0001存入即可,这种强映射方式好处是使用简单,快捷。但缺点是不灵活,每个字符码编码出的结果是固定的,如果存在这样一个场景:unicode四个字节中,英文字母只占很少的一部分,如果客户只使用英文,unicode中永远只有1个字节的数据是有意义的,剩下三个字节都没用到,但是强映射的方式下,数据传输、存储只能用4个字节,造成非常大的浪费。

unicode将字符码与编码解耦

在unicode中,每一个字符保证有唯一字符码,将 字符码到存储二进制之间的“字符编码”过程独立出来,提供了三种编码方法:

  • UTF-8:使用1或2或3或4个字节。
  • UTF-16:使用2或4个字节
  • UTF-32:固定使用4个字节。
    在这里插入图片描述

例如a在UTF-16下编码为0x0061占用两个字节,在UTF-8下编码为0x61占用一个字节。

4 总结

需要注意字符集和字符编码是不同的。比如当我们提到“数据库使用的是unicode字符集”,这样的说法是错误的,数据库中的数据一定要具体到某一种字符编码,只提到字符集是没有意义的,例如数据库使用UFT-8编码。

  1. 字符集:字符和字符码的映射关系,例如在ASCII中a的字符码就是97,表示在字符集的97号位置上是字符’a’。
  2. 字符编码:字符与字节流的映射关系,例如在ASCII中’a’的字节流就是01100001,在UTF中根据编码方式的不同,可能是011000010000000001100001

名字解释:

  • Code Point = 字符码
  • Character Set = 字符集
  • Character Encoding = 字符编码

5 Postgresql中的字符集

再看PG服务端支持的字符集支持,可以看到Name部分都是具体的字符编码方法,最通用的就是UTF8,支持所有语言,空间占用1-4字节。

截取部分:

NameDescriptionLanguageServer?ICU?Bytes/CharAliases
BIG5Big FiveTraditional ChineseNoNo1–2WIN950, Windows950
EUC_CNExtended UNIX Code-CNSimplified ChineseYesYes1–3
EUC_JPExtended UNIX Code-JPJapaneseYesYes1–3
EUC_JIS_2004Extended UNIX Code-JP, JIS X 0213JapaneseYesNo1–3
EUC_KRExtended UNIX Code-KRKoreanYesYes1–3
EUC_TWExtended UNIX Code-TWTraditional Chinese, TaiwaneseYesYes1–3
GB18030National StandardChineseNoNo1–4
GBKExtended National StandardSimplified ChineseNoNo1–2WIN936, Windows936
ISO_8859_5ISO 8859-5, ECMA 113Latin/CyrillicYesYes1
ISO_8859_6ISO 8859-6, ECMA 114Latin/ArabicYesYes1
ISO_8859_7ISO 8859-7, ECMA 118Latin/GreekYesYes1
ISO_8859_8ISO 8859-8, ECMA 121Latin/HebrewYesYes1
LATIN1ISO 8859-1, ECMA 94Western EuropeanYesYes1ISO88591
LATIN2ISO 8859-2, ECMA 94Central EuropeanYesYes1ISO88592
LATIN3ISO 8859-3, ECMA 94South EuropeanYesYes1ISO88593
LATIN4ISO 8859-4, ECMA 94North EuropeanYesYes1ISO88594
LATIN5ISO 8859-9, ECMA 128TurkishYesYes1ISO88599
LATIN6ISO 8859-10, ECMA 144NordicYesYes1ISO885910
LATIN7ISO 8859-13BalticYesYes1ISO885913
LATIN8ISO 8859-14CelticYesYes1ISO885914
LATIN9ISO 8859-15LATIN1 with Euro and accentsYesYes1ISO885915
LATIN10ISO 8859-16, ASRO SR 14111RomanianYesNo1ISO885916
SJISShift JISJapaneseNoNo1–2Mskanji, ShiftJIS, WIN932, Windows932
SQL_ASCIIunspecified (see text)anyYesNo1
UTF8Unicode, 8-bitallYesYes1–4Unicode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/447000.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【02-Java Web先导课】-Tomcat服务器的下载与安装

文章目录 前言一、Tomcat服务器(apache-tomcat-8.5.28)的 下载1、下载地址 二、Tomcat服务器的安装1、Tomcat目录结构2、Tomcat的启动与停止4、Tomcat启动成功后的测试 免责声明: 前言 Tomcat主要实现了Java EE中的Servlet、JSP规范&#xf…

【Python爬虫项目实战三】Ddddocr识别Ocr过开放猫验证码(接Authorization认证更新)

目录 🍇前言🍍验证码识别的几个方法🥥百度AI开放平台🥥Ddddocr🦑分析验证码位数🦑获取验证码接口🦑算法识别匹配🦑请求登陆接口 🍋总结: 🍇前言 …

Doris(13):数据模型

在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。一张表包括行(Row)和列(Column)。Row即用户的一行数据。Column 用于描述一行数据中不同的字段。 Column可以分为两大类:Key&a…

Java双亲委派和类加载器

Java双亲委派和类加载器 Java类生命周期主要内容类加载器的分类Bootstrap ClassLoader非Bootstrap ClassLoaderExtension ClassLoaderApplication ClassLoaderUser ClassLoader 类加载的命名空间问题提出双亲委派机制问题解答 破坏双亲委派破坏双亲委派-第一次破坏双亲委派-第二…

【MySQL】GROUP BY分组子句与联合查询的使用详解

目录 前篇都在这里喔~ MySQL的增删改查 MySQL数据库约束和聚合函数的使用 1.GROUP BY子句 练习表如下: 1.查询不包含董事长的平均工资 2.按照角色分组计算平均工资 3.过滤掉平均工资大于一万的角色 4.♥过滤数据♥ 2.联合查询 以下列表作为依据 1.内连接 …

(十二)rk3568 NPU 中部署自己训练的模型,(1)使用yolov5训练自己的数据集-环境搭建部分

rk3568中带有0.8T算力的NPU,可以完成一些轻量级的图像识别任务。 本文向零基础人员介绍从windows中搭建训练环境,模型训练、模型转换到rknn模型部署到电路板上全部过程。 rk3568npu支持caffe、darknet、onnx、pytorch、tensorflow等多种框架。 本人使用…

springboot+vue企业人事人力资源管理系统java公司员工出差考勤办公OA系统

“简易云”是这个系统的名字 (6)系统管理:主要下拉分为角色管理、菜单管理; 角色管理:此页面可对角色进行增删改查操作,可修改不同角色的权限; 菜单管理:此页面可配置系统可展示的菜…

linux学习记录 和文件系统相关的命令

记录过程,会有错误,硬链接与软链接哪里可能没有说清楚 文件,目录操作命令 pwd 获取当前处于哪个目录当中,返回的是绝对路径 [rootlocalhost home]# pwd /homecd cd 相对/绝对路径 切换目录的,change directory .代表当前目录 …代表上一级…

【C++学习】类和对象--对象特性(1)

构造函数和析构函数 对象的初始化和清理是两个非常重要的安全问题 一个对象或变量没有初始状态,对其使用后果是未知的 使用完一个对象或变量,没有及时清理,也会造成一定的安全问题 C利用构造函数和析构函数解决上述问题,这两个函数…

排序 Comparable 和 Comparator 区别所在

在 Java 中,Comparable 和Comparator 都是用来元素排序的,但是本质不用。我们从几点开始分析。 1.字面含义 Comparable 中文翻译是”比较“,以 able 结尾 说明它具有某种能力。 Comparator 中文翻译是”比较器“,以 or 结尾 表明…

【C++ 二十】STL:遍历、查找、排序、拷贝和替换、算术生成、集合算法

STL:遍历、查找、排序、拷贝和替换、算术生成、集合算法 文章目录 STL:遍历、查找、排序、拷贝和替换、算术生成、集合算法前言1 常用遍历算法1.1 for_each1.2 transform 2 常用查找算法2.1 find2.2 find_if2.3 adjacent_find2.4 binary_search2.5 count…

室内人员定位系统源码,采用java语言+UWB定位技术开发

运用UWB定位技术开发的人员定位系统源码 文末获取联系 本套系统运用UWB定位技术开发的高精度人员定位系统,通过独特的射频处理,配合先进的位置算法,可以有效计算复杂环境下的人员与物品的活动信息。 系统提供位置实时显示、历史轨迹回放、人…

循序渐进,学会用pyecharts绘制瀑布图

循序渐进,学会用pyecharts绘制瀑布图 瀑布图简介 瀑布图(Waterfall Plot)是由麦肯锡顾问公司所独创的图表类型,因为形似瀑布流水而称之为瀑布图。 瀑布图采用绝对值与相对值结合的方式,适用于表达多个特定数值之间的数量变化关系。当用户想…

本地Nacos设置脚本命令启动

一、起因: 每次启动都要找到位置写一遍命令费劲。 1、可设置开机启动 2、可设置脚本自动 二、配置脚本: 1、这是我nacos的位置 用bat命令启动一个cmd命令行,然后在里面执行两天命令。 ①命令一:打开指定路径 ②命令二&#xf…

Java图书借阅管理系统详细设计和实现

基于JavaSpringHtml的图书借阅管理系统详细设计和实现 博主介绍:5年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取源…

cmd连接本地mysql数据库和远程服务器mysql数据库

1.在cmd窗口里连接本地的mysql数据库 打开运行窗口,输入cmd,确定 windowsr 或在左下角windows图标处鼠标右键,点击运行按钮打开运行窗口 格式: mysql -u用户名 -p密码 mysql -uroot -p123456 成功进入mysql 2. 在cmd窗口里连接远…

尚硅谷_宋红康_第17章_反射机制

第17章_反射机制 本章专题与脉络 1. 反射(Reflection)的概念 1.1 反射的出现背景 Java程序中,所有的对象都有两种类型:编译时类型和运行时类型,而很多时候对象的编译时类型和运行时类型不一致。 Object obj new String(“hello”); obj.ge…

Django使用Celery异步发送邮件

Django使用Celery异步发送邮件 前言邮箱配置Django项目发送邮件配置邮件服务器Django发送邮件模块 Celery概述工作模式安装Celery Celery的基本使用创建config.py配置文件创建Celery实例并加载配置定义任务启动Celery服务提交任务异常 Celery发送邮件创建config.py配置文件创建…

机器学习 day05(多元线性回归,向量化,及向量化高效的原理)

1. 单个特征(变量)的线性回归模型 房子的价格仅由房子的大小决定,如图: 2. 多个特征(变量)的线性回归模型 房子的价格由房子的大小,房子有多少个卧室,房子有几层,房子…

2023年,逆势拿到大厂Offer,我怎么做?|原创

关于面试,做一些经验分享。 过年时候默默给自己定下了3个目标。第一个就是2023要换一份喜欢的工作。没想到在4月就提前实现了这个目标。 是一个我很看好的大厂,期待的岗位、看好的方向,薪资涨幅也比较给力。最近这段时间没空发文章&#xff0…