【锟斤拷�⊠是怎样炼成的】——两分钟帮你彻底弄懂计算机的编码原理

news2024/9/23 15:25:32

📢📢📢📣📣📣
🌻🌻🌻Hello,大家好,我是天寒雨落,一名有趣的博主,小白一枚,多多关照😜😜😜
🏅🏅🏅CSDN全栈领域新星创作者,阿里云星级博主
💕 入门须知:这片乐园从不缺乏天才,努力才是你的最终入场券!🚀🚀🚀
💓愿我们都能在看不到的地方闪闪发光,一起加油进步🍺🍺🍺
🍉🍉🍉量变引发质变,坚持定会出成效!🌈🌈🌈
🌟🌟🌟✨✨✨

你是否遇到过锟斤拷呢?下面将为你讲解锟斤拷的形成原因。

 目录

✨编码原理

🌈基础概念

🌻1.字符

🌻2.字符集

🌻3.字符编码

🌈怎么将字符编码变成0和1呢?

码位

码空间

🌈各种编码的形成过程

🍺ASCII码的形成

🍺ASCII的升级版EASCII

🍺写代码时汉字占两位的缘由

🍺框框—'▯'的形成

🍺广为人知的GBK

🍺超级大的字符集——万国码(UNICODE)

🍺【锟斤拷】的形成过程

🌈原码、反码、补码

✨博客之星评选正在进行


✨编码原理

🌈基础概念

🌻1.字符

  • 一个单独的字符,通常是字母数字符号
  • 字符可以通过计算机的字符编码系统来表示,例如 ASCII 编码、Unicode 编码等。
  • 字符是计算机程序、文本文件、网页等的基本单位,在计算机中通常以字节的形式存储。

🌻2.字符集

一堆字符组成的集合叫做字符集。

字符和字符集电脑一个都不认识,计算机只认二进制,只能以比特的形式记录0和1,为了让计算机识字,就需要把这些字符用0和1表示出来。

🌻3.字符编码

把字符转换为0和1的规则就叫做字符编码。

🌈怎么将字符编码变成0和1呢?

可以选定一个字符集,让字符排在上面,就如下面这个表一样。

00011011
00
01
10
11

码位

每个字符都有对应的码位(例如,上表中'有'的码位就是1001)。

码空间

每个字符所占位置就是码空间,码空间越大,字符集就越大。

🌈各种编码的形成过程

🍺ASCII码的形成

计算机存储数据的基本单位是字节(Byte),一个字节由8个二进制组成。也就是8个bit,每个bit分为0和1两种状态,8个bit一共有2^8个,也就是256种不同的状态。

所以如果只用一个字节长度来编码字符,也就是用8个0或者1来代表一个字的话,那么这个字符集就能容纳256个字符,听起来很少对不对?但对于英文来说就已经够了,因为他们只有26个英文字母嘛,所以在上世纪60年代,美国人先搞出来了美国信息交换标准代码,简称ASCII,ASCII总共收录了128个字符,包括大小写拉丁字母、数字、常用标点以及像ESC、换行这些看不见的控制字符。

到此为止,事情都很简单,无非就是给这128个字符按照顺序排号,再把序号转换为二进制数字,需要显示的时候,从计算机存储的ASCII字符集中按编号调用字符,就能在屏幕中显示出来了。

🍺ASCII的升级版EASCII

一个字符集对应一个编码规则,不会出错,一切都很清晰、简单、完美。但是这世上远远不止英文一种语言哇,当各国都进入信息化时代社会的时候,文字显示的乱纪元就开始了,上面说过,用一个字节编码字符最多能容纳256个码位。英文总共才那点字符,256个码位用完都还剩下一半。所以西欧一些国家就搞了扩展美国信息交换(EASCII),也就是用剩下的这128个空位来表示其他字符,比如有注音符号的的法语字母,西班牙语的特殊标点,数学上常用的α、β等希腊字母,以及一大堆特殊符号等等。

这时候问题就已经冒头了,各国搞定EASCII字符集和编码后面128字符都不太一样,一共搞出了200多种,互不兼容,就算是同样一串二进制数,在不同的EASCII中对应的字符也不同所以同一份文本,哪怕放到不同语言的计算机中打开,都可能出现乱码。

🍺写代码时汉字占两位的缘由

对于汉字源远流长,数量可太多了,我国1980年公布的GB 2312-80信息交换用汉字编码字符集 基本集就包含了6763个常用简体汉字以及一些标点、符号、数字、拉丁字母等。那很显然,一个字节长度最多只能编码256个字符,对于汉字来说根本不够用,所以GB 2312-80用两个字节来编码一个字符(这也就是为什么我们在写代码的时候汉字占两位),这样理论上就可以容纳2^16也就是65536个字符,现在输入法里的全角标点符号就是用两个字节编码的,而半角标点符号就是用一个字节编码的。

🍺框框—'▯'的形成

不过,GB 2312-80字符集里这六千多汉字,只是最常用的汉字,其实根本不够用,比如像喆、祎,这些人民中常见字甚至都不包括在内,那字符集里没有那个字怎么办呢?那就是打不出来,那些字就会变成'▯'。

🍺广为人知的GBK

日本用日本汉字,韩国用朝鲜汉字,大家都搞出了自己的字符集和编码规则,都优先考虑本地人使用方便,相互之间的兼容性很差,后来微软被逼急了,就根据各地字符集和字符编码自己扩展了GB 2312字符集,加入了一些繁体汉字,这份扩展的字符集,后来成为了汉字内码扩展规范GBK(国家扩展规范)。

🍺超级大的字符集——万国码(UNICODE)

我们搞一个超大字符集,囊括人类世界所有的字符,然后编码出来供全世界使用,不就解决字符集不互容的问题了,这个超级大的字符集,就是万国码(UNICODE)。Unicode决定以书写系统为标准来分类和收录字符,像英语、法语、德语都属于一套书写系统——拉丁字母,如今Unicode已经有了1114112个码位,并平均划分为17个平面,每个平面都有65536个码位,在单个平面上再根据具体的用途划分出区块,区块相当于把同类字符放在一起以方便检索和补充。UTF-8、UTF-16、UTF-32等都是把Unicode字符集中的字符转换成二进制信息的编码方式,目前最常用的就是UTF-8。纯文本文件:编码应使用UTF-8。

因为即使是同一串二进制数字在不同的字符集和编码方式下也会对于不同的字符,所以如果用错误的编码打开文本就会出现乱码。

有了上面的知识储备下面就回归本文最大的问题——锟斤拷�⊠是怎样炼成的?

🍺【锟斤拷】的形成过程

GBK和Unicode都有很多使用者,用GBK编写的字符用UTF-8打开就会无法正常显示,Unicode就会用这个替换字符�来展示所有无法展示显示的字符,如果此时再根据UTF-8编码保存,重新使用GBK编码打开,如果有两个�,那么EFBF BDEF BFBD这三个码位对应的就是【锟斤拷】三个字,也就是说两个�相当于一个【锟斤拷】,所以你在看下载的小说等等才会出现【锟斤拷】。

简单点来说就是以UTF-8方式读取GBK编码的中文,然后又用GBK的格式再次读取。

🌈原码、反码、补码

一篇轻松带你Carry原码、反码、补码(建议收藏)_天寒雨落的博客-CSDN博客

✨博客之星评选正在进行

我正在参加年度博客之星评选,请您帮我投票打分,您的五星好评都是对我的支持和鼓励。希望大家能给个五星,谢谢各位!

https://bbs.csdn.net/topics/611387244

 👍+✏️+⭐️是对博主最大的鼓励与支持!!!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/132245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决vue-cli项目打包出现空白页和路径错误的问题

今天为大家分享一篇解决vue-cli((vue-cli2.x版本)项目打包出现空白页和路径错误的问题。具有很好的参考价值。希望对大家有所帮助。 vue-cli项目打包: 1. 命令行输入:npm run build 打包出来后项目中就会多了一个文件夹dist&am…

k8s1.23.15版本二进制部署/扩容及高可用架构详解

前言 众所周知,kubernetes在2020年的1.20版本时就提出要移除docker。这次官方消息表明在1.24版本中彻底移除了dockershim,即移除docker。但是在1.24之前的版本中还是可以正常使用docker的。考虑到可能并不是所有项目环境都紧跟新版换掉了docker&#xff…

五、树和二叉树

一、定义及基本术语 详见书本P111~113 二叉树不是树的特殊情况,它们是两个概念,但有关树的基本术语对二叉树都适用。 二叉树的子树一定要区分左子树还是右子树,即使只有一棵子树也一定要说明是左子树还是右子树,树只有一个孩子的…

事务隔离:为什么你改了我还看不见?

提到事务,你肯定不陌生,和数据库打交道的时候,我们总是会用到事务。最经典的例子就是转账,你要给朋友小王转 100 块钱,而此时你的银行卡只有 100 块钱。 转账过程具体到程序里会有一系列的操作,比如查询余…

迎接2023,用JAVA演奏“新年”

😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔2023年快要到来啦,再此祝大家诸事顺遂,所见所盼皆如愿。 🔔本文讲解如何使用Java演奏一首歌曲,一起卷起来叭! 众所周…

【复习】计算机网络学习笔记

前言 本篇笔记方便本人用于复习回顾知识点,内容庞杂,见谅。含有目录方便大家跳转复习! 此复习笔记总结于 湖科大教书匠出品:深入浅出计算机网络 微课视频 此笔记尚未完结,持续更新中… 文章目录前言第一章 概述1.1 …

高并发系统设计 -- 服务限流算法

常见的限流算法 漏桶算法 漏桶法的关键点在于漏桶始终按照固定的速率运行,但是它并不能很好的处理有大量突发请求的场景,毕竟在某些场景下我们可能需要提高系统的处理效率,而不是一味的按照固定速率处理请求。 关于漏桶的实现,u…

快速入门 .NET nanoFramework 开发 ESP32-Pico 应用

本文是一篇适合初学者的 .NET nanoFramework 保姆级入门教程,并提供了基本的入门程序并介绍了微雪的 ESP32-S2-Pico 使用 .NET nanoFramework 开发过程的基础知识。 目录 1. 背景 1.1 .NET IOT 与 .NET nanoFramework 1.2 微控制器 1.3 实验板介绍 2. 搭建 .NET…

移动Web【空间转换[空间位移、透视、空间旋转、立体呈现、3D导航、空间缩放]、动画、综合案例】

文章目录一、空间转换1.1 空间位移1.2 透视1.3 空间旋转1.4 立体呈现1.5 3D导航1.6 空间缩放二、动画2.1 动画的实现步骤2.2 动画属性三、综合案例2.1 走马灯一、空间转换 空间:是从坐标轴角度定义的。 x 、y 和z三条坐标轴构成了一个立体空间,z轴位置与…

Android实战进阶 - 拉取项目代码后多处报红?如资源找不到该如何处理?

近期参与了一个我很感兴趣的项目,项目内用到了很多新东西,例如组件化、模块化、ARouter路由、MVI框架、Kt高阶用法等等,感觉可以学一段时间… Gradle相关Blog Android Gradle - Gradle、Gradle plugin 基础认知Android Gradle - AndroidStud…

函数极限定义的理解

回顾一下非正式的极限定义法。当x从任意一侧(自左向右或自右向左)接近常量 c时,如果f(x)变得任意接近一个单独的值L, 则当x接近c时f(x)的极限值是L, 写作 咋一看,这个定义似乎非常技术化。即使这样,它仍然是非正式的,因为它没有给…

三、Django -视图

Django 提示:本文根据b站黑马python课整理 链接指引 > 黑马程序员python企业级开发项目-手把手从0到1开发《美多商城》 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录Django视图介绍和项目准备视图…

【数据集6】全球人工不透水面积GAIA(清华数据)

全球人工不透水面积(lobal artificial impervious area, GAIA) 人工不透水区是表征建成区和城市范围的重要覆盖类型,特别是在较细的空间分辨率下。 1 简介 原理: 由Landsat卫星图像和辅助数据集生成,如夜间灯光数据…

健康码识别[QT+OpenCV]

💂 个人主页:风间琉璃🤟 版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦目录 一、识别原理 1.二维码定位 2.颜色识别 二、部分源码 一、识别原理 二维…

matlab实现基本相位调制

相位调制(PM)是将信息编码为载波的瞬时相位变化的一种调制模式。 调相的基本表达式如下; 载波c(t)是一个标准正弦信号;m(t)是调制信号;调制以后是把m(t)的变化附加到了载波的相位变化上; 调相的基本示意如…

WPF中iconfont图标库的使用

总目录 文章目录总目录前言一、查找项目需要的图标二、图标的使用1.将下载的文件解压缩2.将ttf文件复制粘贴到自己的项目中3.使用总结前言 本文主要介绍在WPF中iconfont图标库的使用 一、查找项目需要的图标 首先进入阿里巴巴矢量图标库网站,登录自己的账号&#…

MySQL快速生成大量测试数据 (脚本一键生成分表数据)

生成128个分表的测试数据敲到手累; 生成的测试数据虽然有离散分布,但随着时间的增长数据量不增反降,不符合大多数线上业务的增长趋势; 生成的测试数据部分超过当前日期。 具体表现如下图所示: 我们直接看下脚本的用法…

月入8000+的steam/csgo搬砖项目(详细拆解)

大家好,我是阿阳 今天就给大家带来一个在steam游戏搬砖项目的拆解,目前这个项目我们团队也一直在带队实操,已经跑通了项目的整个流程,提炼出了完整的赚钱体系。 先给大家看看近期的收益情况: 近期的出售记录&#xf…

[ Azure - Database ] Azure Database for MySQL 配置Auditing并查看使用

传统MySQL的二进制日志binlog可以说是MySQL最重要的日志,它记录了所有的DDL和DML语句(除了数据查询语句select),以事件形式记录,还包含语句所执行的消耗的时间。本文会讲解微软云Azure Database for MySQL的binlog相关…

i.MX8MP平台开发分享(IOMUX篇)- 硬件原理

专栏目录:专栏目录传送门 平台内核i.MX8MP5.15.71文章目录1.前言2.IOMUX原理3. 寄存器实例:UART1_RX3.1 PAD: UART1_RXD3.2 PAD: SD1_CMD3.3 PAD: SAI2_RXC3.4 Input select3.5 功能实现4.SION1.前言 我们都知道,芯片包含数量有限的引脚&am…