字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码、解码问题等

news2024/11/16 7:19:00

编码解码

  • 一、背景
  • 二、字符的相关概念
  • 三、字符集
    • 3.1 ASCII[ˈæski]
      • 3.1.1 ASCII的编码方式
      • 3.1.2 EASCII
    • 3.2 GBK
      • 3.2.1 GB 2312-80
      • 3.2.2 GBK的制订
      • 3.2.3 GBK的实现方式
    • 3.3 Unicode(统一码、万国码)
      • 3.3.1 Unicode的出现背景
      • 3.3.2 Unicode的编写方式
      • 3.3.3 Unicode的实现方式
      • 3.3.3 Unicode的问题
      • 3.3.4 Unicode的发展
  • 四、锟斤拷和烫的来源
    • 4.1 锟斤拷
    • 4.2 烫、屯、
    • 4.3 锘、匡、豢
  • 五、使用Java程序编码、解码

资料来源【锟斤拷�⊠是怎样炼成的——中文显示“⼊”门指南【柴知道】、【一听就懂字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码、解码问题的讲解】

一、背景

我们经常见到txt文本打开后却通篇是锟斤拷或者烫烫烫烫烫,也见过一些复杂或者生僻的字显示时换了字体样式,这是由于编码方式解码方式不同造成的。

二、字符的相关概念

  • 一个汉字、一个拉丁字母、一个数字,甚至回车、换行等控制命令,世界上各种语言里的“字”和“标点符号”,都属于“字符”。
  • 一堆字符组成的集合,叫做“字符集”。
  • 把字符转换成代码的规则,叫做“字符编码”。
  • 每个字符经过字符编码后各自对应相应的“码位”(码点),譬如“A”对应“0011 0101”
  • 码位的总数称为“码空间
    请添加图片描述

三、字符集

3.1 ASCII[ˈæski]

3.1.1 ASCII的编码方式

  • 1967年,美国人先搞出了“美国信息交换标准代码”(American Standard Code for Information Interchange,简称 ASCII)。
  • ASCII每个字符的码位都是一个字节ASCII 总共收录了 128 个字符,包括大小写拉丁字母、数字、常用标点,以及像 ESC、换行这种看不见的控制字符。每个字符的码位首位一定是0。
    在这里插入图片描述

3.1.2 EASCII

  • 用一个字节编码字符,最多能容纳256个码位。ASCII 收录了 128 个,所以西欧一些国家,就制订了“扩展美国信息交换标准代码”,EASCII
  • EASCII的内码是由0到255共有256个字符组成。来表示其他的字符:比如上方有注音符号的法语字母,西班牙语里的特殊标点,数学上常用的 α、β 等希腊字母,以及一大堆特殊符号等等。

3.2 GBK

3.2.1 GB 2312-80

  • 各国、地区的官方标准则是根据 ISO/IEC 10646 来制定的。ISO/IEC 10646 跟 Unicode 标准区别不大,码位完全一致,二者几乎可以划等号,只是面向的对象不同。
  • 我国 1980 年公布的《GB 2312-80 信息交换用汉字编码字符集基本集》,就包含了 6763 个常用简体汉字,以及一些标点、符号、数字、拉丁字母等。
  • 每个汉字及符号以两个字节来表示

因为绝大多数简体汉字字体,都还是只适配了 GB 2312 里的这六千多个常用汉字。比如最常见的公文字体之一「仿宋 GB2312」,意思就是说我只设计了 GB 2312 字符集中的字符。如果不这个字符集中,那么计算机会调用其他字体来显示或直接给你显示成个框框。

3.2.2 GBK的制订

  • 微软就根据各地字符集和字符编码,扩展了 GB 2312 字符集,共包含2万多字符,加入了一些罕见字、繁体汉字同时兼容ASCII,这份扩展的字符集后来成为了“汉字内码扩展规范 GBK”,这里的 K 就是“扩展”的意思。
  • 但即便是少量汉字,也会出现中日韩一字多形的问题,譬如:“户/户/戸”

3.2.3 GBK的实现方式

GBK兼容ASCII,但是一个是以单字节编码,一个是以双字节编码,怎么区分呢?
GBK规定,汉字字节的第一位必须是1,两个字节共16位,舍弃一位,仍有32768个码位,能够满足所需
在这里插入图片描述

3.3 Unicode(统一码、万国码)

3.3.1 Unicode的出现背景

为了解决相互之间的兼容性差的问题,Unicode 技术委员会为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年,统一码开始研发。Unicode 1.0发布于1991年10月

3.3.2 Unicode的编写方式

  • Unicode 决定以「书写系统」为标准来分类和收录字符。虽然拉丁字母里的“o”,和西里尔字母“о”,以及希腊字母“ο”,长得几乎一样,但既然属于三个不同的书写系统,而且过去各地都已经搞出了相应的字符编码,为了兼容性,就需要安排三个不同的码位。
  • 其中甚至还有为各个国家、地区、甚至企业准备的“私用区”,可以供大家自定义使用。像苹果就把自己的logo放进了私用区
  • Unicode提供了三种编码方案:UTF-8,UTF-16,UTF-32

3.3.3 Unicode的实现方式

  • UTF-32直接用四个字节表示一个字符
  • UTF-16是变长编码方式,每个字符编码为2或4字节。
    • 当码点<216时直接转换,不够在前补零
    • 当码点>=216,讲码点-16(65536),最多需要20位表示,不够前面补零
    • 将前10位单独取出和0xD800相加,得到了一个新的整数W1,W1的取值范围是 [0xD800,0xDBFF] 。W1又称为高位代理项
    • 将后10位单独取出和0xDC00相加,得到了一个新的整数W2,W2的取值范围是[0xDC00,0xDFFF]。W2又称低位代理项
    • 最后,将W1和W2合并起来,得到的二进制字节就是UTF-16的编码结果,总共是4个字节"

UTF-16的特点

  1. 对于在区间[0xD800,0xDFFF]中的码点,Unicode字符集未定义任何字符,这个区间的码点专用于UTF-16的代理项UTF-16中,高位代理项和低位代理项是不重叠的;
  2. 高位代理项的范围是[0xD800,0xDBFF],而低位代理项的则是[0xDC00,0xDFFF]
  3. UTF-16是一种“自同步(self-synchronizing)”的编码方式,即可以在不追溯前面代码单元的前提下,独立判断出是否是某字符的开始单元
  • UTF-8也是自同步、变长编码方式,分为四个长度区,兼容ASCII,汉字占三个字节
    在这里插入图片描述

3.3.3 Unicode的问题

  1. 安全问题:利用之间长得略微有点区别字符制作出钓鱼网站、利用康熙部首的“⼊”,替换了正常的“入”。
    在这里插入图片描述
  2. UTF-32、UTF-16不兼容ASCII,且浪费空间

3.3.4 Unicode的发展

Unicode至今仍在不断增修前最新的版本为 2020 年 3 月公布的 13.0,收录了 13 万个字符。
具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。
2022年1月,Unicode 技术委员会批准在同年9月Unicode 15.0中发布五个新符号。这些符号基于太阳系中新发现的跨海王星天体(TNO,在海王星轨道之外的天体);
5月6日,Unicode标准宣布将5个行星符号加入字符集,包括中国水神共工等。

四、锟斤拷和烫的来源

4.1 锟斤拷

  • 当你以GBK 编码保存一段文字,
  • 再用最常见的 UTF-8 编码打开,会因为识别问题用�替换,
  • 再次保存,文档中所有的�字符,就被根据 UTF-8 编码,编码为了 0xEF BF BD。
  • 再次使用 GBK 编码打开了这份文档。此时根据 GBK 编码规则,EFBF、BDEF、BFBD 这三个码位对应的,正是“锟斤拷

4.2 烫、屯、

  • 微软编译器访问未经初始化的栈内存,编译器在debug模式下会对这块栈内存写入0xCCCCCCC,而控制台默认以GBK显示,而“烫”的GBK编码是0xCCCC
  • 访问未经初始化的堆内存,编译器会写入0xCD,并且堆的前后字节会写入0xFD来作为检测区防止数组越界,而0xCDCD对应屯

4.3 锘、匡、豢

与字节标记顺序有关(BOM)
UTF-8的字节标记:EF BB BF
锘:EFBB
匡:BFEF
豢:BBBF

五、使用Java程序编码、解码

Java程序编码
在这里插入图片描述
在这里插入图片描述

Java程序解码
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/355041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Verilog 学习第四节(从计数器到可控制线性序列机——LED实验进化六部曲)

从计数器到可控制线性序列机——LED实验进化六部曲一:让LED灯按照亮0.25s,灭0.75s的状态循环亮灭二:让LED灯按照亮0.25s,灭0.5s,亮0.75s,灭1s的状态循环亮灭三:让LED灯按照指定的亮灭模式亮灭&a…

Java程序员线上排查问题神器-Arthas

文章目录前言一、Arthas是什么?二、快速入门1.下载2.如何运行三、常用命令1.dashboard2.trace总结前言 最近公司项目版本迭代升级,在开发新需求导致没什么时间写博客。 在开发需求的过程中,我写了一个接口,去批量调内部已经写好…

浏览器工作原理详解

浏览器工作原理 以打开百度官网为例 在浏览器地址栏输入网址www.baidu.com ,回车 这一过程发生了什么? 首先我们要知道www.baidu.com 这是个域名,需要通过DNS去解析为IP地址(也就是服务器地址),然后返回…

yum/vim工具的使用

yum 我们生活在互联网发达的时代,手机电脑也成为了我们生活的必须品,在你的脑海中是否有着这样的记忆碎片,在一个明媚的早上你下定决心准备发奋学习,“卸载”了你手机上的所有娱乐软件,一心向学!可是到了下…

前端面试题整理之HMTL篇(一)

HTML面试题(一) 前言: 面试题及答案解析,大部分来自网络整理,我自己做了一些简化,如果想了解的更多,可以搜索一下,前端面试题宝典微信公众号或者查百度,另外如果出现错误…

Windows环境下安装和配置Gradle

1. 概述 Gradle是Google公司基于JVM开发的一款项目构建工具,支持Maven,JCenter多种第三方仓库,支持传递性依赖管理,使用更加简洁和支持多种语言的build脚步文件,更多详情可以参阅Gradle官网 2. 下载 由于Gradle与S…

【opencv 系列】第2章 图片视频的读取和保存

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言1. 图片2.视频(读取摄像头、视频文件)2.1 从摄像头读视频2.2 从视频读取文件2.3 保存摄像头读取的视频2.4 图片的打开,读取和保存代码2.5 摄像头的打开,读取和保…

[LeetCode]1237. 找出给定方程的正整数解

题目链接:https://leetcode.cn/problems/find-positive-integer-solution-for-a-given-equation/description/ 题目描述: 样例1: 输入:function_id 1, z 5 输出:[[1,4],[2,3],[3,2],[4,1]] 解释:functi…

Linux 根目录与路径

目录 Linux的根目录 /usr目录(存放用户数据) /bin目录(存放所有用户都可使用的应用程序) /sbin目录(存放管理员才可以使用的应用程序) /opt目录(存放第三方软件) /boot目录&am…

[Android Studio] Android Studio Virtual Device(AVD)虚拟机的功能试用

🟧🟨🟩🟦🟪 Android Debug🟧🟨🟩🟦🟪 Topic 发布安卓学习过程中遇到问题解决过程,希望我的解决方案可以对小伙伴们有帮助。 🚀write…

Mindspore安装

本文用于记录搭建昇思MindSpore开发及使用环境的过程,并通过MindSpore的API快速实现了一个简单的深度学习模型。 什么是MindSpore? 昇思MindSpore是一个全场景深度学习框架,旨在实现易开发、高效执行、全场景覆盖三大目标。 安装步骤 鉴于笔者手头硬…

QM9数据集示例项目学习图神经网络

目录QM9数据集:QM9数据提取的特征:网络结构的设计官网示例代码注释:QM9数据集: QM9为小有机分子的相关的、一致的和详尽的化学空间提供量子化学特征,该数据库可用于现有方法的基准测试,新方法的开发&#…

【算法】两道算法题根据提供字母解决解码方法和城市的天际线天际线问题

算法目录解码方法Java解答参考:天际线问题Java解答参考:大家好,我是小冷。 上一篇了解了项目相关的知识点 接下来看下两道算法题吧,用Java解答,可能更能激发一下大脑思考。 解码方法 题目要求: 一条包含…

将 Supabase 作为下一个后端服务

对于想快速实现一个产品而言,如果使用传统开发,又要兼顾前端开发,同时又要花费时间构建后端服务。然而有这么一个平台(Baas Backend as a service)后端即服务,能够让开发人员可以专注于前端开发&#xff0c…

Java反序列化漏洞——CommonsCollections4.0版本—CC2、CC4

一、概述4.0版本的CommonsCollections对之前的版本做了一定的更改,那么之前的CC链反序列化再4版本中是否可用呢。实际上是可用的,比如CC6的链,引入的时候因为⽼的Gadget中依赖的包名都是org.apache.commons.collections ,⽽新的包…

【构建工具】Gradle中文教程

文章目录Gradle 简介Gradle 概述基于声明的构建和基于约定的构建为以依赖为基础的编程方式提供语言支持构建结构化深度 APIGradle 的扩展多项目构建多种方式管理依赖Gradle 是第一个构建集成工具易于移植GroovyThe Gradle wrapper自由和开源为什么使用 Groovy?Gradle 安装先决…

Pycharm搭建一个Django项目

File->new project 点击create, 等待一下即可 查看安装 Django 版本: 在 Pycharm 底部选择 Terminal 然后在里面输入:python -m django --version 启动项目: 在 Terminal 里面输入: python manage.py runserver 查看文件目…

一文精通MVCC机制

MVCC(Multi-Version Concurrency Control)多版本并发控制机制使用串行化隔离级别时,mysql会将所有的操作加锁互斥,来保证并发安全。这种方式必然降低并发性能。mysql在读已提交和可重复读隔离级别下,对一行数据的读和写两个操作默认是不会通过…

【Unity3d】Unity与iOS之间通信

在unity开发或者sdk开发经常遇到unity与移动端原生层之间进行通信,这里把它们之间通信做一个整理。 关于Unity与Android之间通信,参考【Unity3d】Unity与Android之间通信 Unity调用Objective-C 主要分三个步骤: (一)、在xcode中定义要被u…

php学习笔记

之前看过php的基础教学视频,了解了一下,自己没有上手实践,现在为了项目需要,需要扎实学习一下,所以做一下笔记吧。 php学习笔记1.基础2.动态网站的开发学习2.1会员管理系统1.基础 之前看过一个4小时的基础视频&#x…