都被“锟斤拷”毒害过,那么究竟是为什么会出现这些奇怪的字符?

news2024/10/1 3:25:41

不管是在工作中还是生活中,都被“锟斤拷”毒害过,比如这样:

Image

或者这样:

Image

还有这样:

Image

那么究竟是为什么会出现这些奇怪的字符?

ASCII编码

在计算机底层都是用01进行存储的,ASCII编码将所有的字母及符号进行编码后转成二进制的01进行存储,字母和符号占1个字节(即8bit),标准的ASCII码规定最高位必须为0,因此ASCII编码只能有128个,转成十进制即为0-127。标准的ASCII码表如下:

Image

ASCII码表只有128个字符,对于英语来说已经够用了,但是世界上还有很多国家的文字各不相同,这时候就需要一个更加全面的编码出现。

Unicode(又称统一码、万国码、单一码)是计算机科学领域里的一项业界标准。它为每种语言中的每个字符设定了统一并且唯一的二进制编码。在表示一个Unicode的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这个字符。

UTF-8与GBK

UTF-8是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容。UTF-8使用一至四个字节为每个字符进行编码。常用的汉字采用3个字节进行编码。

因为UTF-8是针对Unicode的一种可变长度的字符编码,所以它包含了世界上所有字符的编码,对于那些早录入的字符,就会优先使用1、2个字节来存储,对于迟录入的字符存储占用的字节就会大一些,这样,那些迟录入的字符存储空间就会很大。

对于一个中文网站,实际上并不需要其他国家的文字出现,但是中国汉字用UTF-8进行编码,大多数却占用了3个字节甚至更多字节,这样就造成了不必要的存储浪费。为了解决这种问题,中华人民共和国全国信息技术标准化技术委员会制定了一套GB系列的编码,最常用的就是GBK了。

GBK编码英文使用单字节编码,完全兼容ASCII字符,汉字使用了两个字节进行编码,其编码范围从0x8140(表示16进制)至0xFEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,图形符号 883 个。

为什么要剔除xx7F,因为它对应的ASCII码表是DEL,意味着要向后删除一个字符。

为什么会出现“锟斤拷”

Unicode编码一直持续在收录各种字符,这就可能会出现各种操作系统支持的Unicode字符不一样。这也就会导致A上的一个用Unicode编码的字符,在B上就会出现无法显示的情况。为了避免这种情况,在Unicode中定义了一个特殊字符�,它的Unicode编码为0xFFFD。

假如A支持特殊字符,但是B并不支持这个,那么在B中将会用�来代替。

Image

这个字符用UTF-8编码后,十六进制表示为0xEF 0XBF 0XBD。如果连续出现两个符号,那么用UTF-8编码后的十六进制则表示为0xEF 0XBF 0XBD 0xEF 0XBF 0XBD,这时候再转码成GBK,因为GBK中用两个字节表示一个字符,那么上述的字符就成了(0xEFBF),(0xBDEF),(0xBFBD)。出现锟斤拷的原因就是UTF-8转码GBK的过程中出现了问题。当然如果想要出现锟斤拷,则至少需要两个字符出现乱码。

接下来,我们直接用代码来看一下效果:

Explain@Test
void contextLoads() throws Exception {
    String str = "�";
    String strCode = new String(str.getBytes("UTF-8"), "GBK");
    System.out.println(strCode);
}

运行结果为锟�,前面也说了如果想要出现锟斤拷,则至少需要为两个字符,现在再修改一下代码。

@Test
void contextLoads() throws Exception {
    String str = "��";
    String strCode = new String(str.getBytes("UTF-8"), "GBK");
    System.out.println(strCode);
}

运行结果如下为锟斤拷

如果以后再遇到锟斤拷,不要慌,它一定是UTF-8在转换GBK编码的时候出现了问题。所以GBK编码虽然减少了内存的浪费,但是也带来了不少问题。


The End!!创作不易,欢迎点赞/评论!!欢迎关注个人公众号

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1241821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

oracle数据库巡检常见脚本-系列二

简介 作为数据库管理员(DBA),定期进行数据库的日常巡检是非常重要的。以下是一些原因: 保证系统的稳定性:通过定期巡检,DBA可以发现并及时解决可能导致系统不稳定的问题,如性能瓶颈、资源利用率…

Navicat 技术指引 | 适用于 GaussDB 的备份与还原功能

Navicat Premium(16.2.8 Windows版或以上) 已支持对 GaussDB 主备版的管理和开发功能。它不仅具备轻松、便捷的可视化数据查看和编辑功能,还提供强大的高阶功能(如模型、结构同步、协同合作、数据迁移等),这…

Linux反弹SHell与检测思路

免责声明 文章仅做经验分享用途,利用本文章所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任,一旦造成后果请自行承担!!! 反弹shell payload在线生成 https://www.chinabaiker.com/Hack-Tools/ Online - Reverse Shell G…

C++基础从0到1入门编程(四)类和对象

系统学习C 方便自己日后复习,错误的地方希望积极指正 往期文章: C基础从0到1入门编程(一) C基础从0到1入门编程(二) C基础从0到1入门编程(三) 参考视频: 1.黑马程序员匠心…

docker启动容器失败,然后查看日志,docker logs查看容器出现报错:

docker 启动容器失败,然后docker logs 查看容器出现报错: error from daemon in stream: Error grabbing logs: invalid character l after object key:value pair在网上看到的 解决方案: 找到你日志文件目录: docker inspect …

信用卡不在身上怎么查安全码

信用卡安全码是由3位数字组成的,一般位于信用卡背面签名栏旁边。如果信用卡不在身上,可以通过拨打发卡银行客服热线来查询安全码。但是,安全码是非常私密的信息,客服可能没有权限查询。因此,这个方法不一定有用。另外&…

Ocam——自由录屏工具~

当我们想要做一些混剪、恶搞类型的视频时,往往需要源影视作品中的诸多素材,虽然可以通过裁减mp4文件的方式来获取片段,但在高画质的条件下,mp4文件本身通常会非常大,长此以往,会给剪辑工作带来诸多不便&…

芯片的测试方法

半导体的生产流程包括晶圆制造和封装测试,在这两个环节中分别需要完成晶圆检测(CP, Circuit Probing)和成品测试(FT, Final Test)。无论哪个环节,要测试芯片的各项功能指标均须完成两个步骤:一是将芯片的引脚与测试机的功能模块连接起来&…

CCC联盟——UWB MAC(一)

本文在前面已经介绍了相关UWB的PHY之后,重点介绍数字钥匙(Digital Key)中关于MAC层的相关实现规范。由于MAC层相应涉及内容比较多,本文首先从介绍UWB MAC的整体框架,后续陆续介绍相关的网络、协议等内容。 1、UWB MAC架…

好用的团队协同办公软件推荐!企业办公必备!

有什么好用的团队协同办公软件可以推荐? 想要的办公软件需要满足“即时通讯”、“多端适配”、“项目管理”、“文件传输”这4大能力。 下面就给大家分享3大类能够满足题主需求的企业级办公软件,免费的付费的都有,也都是侧重的不同领域&…

基于命令行模式设计退款请求处理

前言 这篇文章的业务背景是基于我的另一篇文章: 对接苹果支付退款退单接口-CSDN博客 然后就是说设计模式是很开放的东西,可能我觉得合适,你可能觉得不合适,这里只是做下讨论,没有一定要各位同意的意思.... 相关图文件 这里我先把相关的图文件放上来,可能看着会比较清晰点 代码逻…

[UE4][C++]基于UUserWidget的一种序列图播放方法

最近在做一个大项目,鸽了几个月了....... 一、传统方法Flipbook 这种方法适合序列图较少的情况下、可以一个一个添加进来然后调整顺序。蓝图也比较友好可以直接设置很多属性和功能。这里简单了解一下即可,想要深入了解的同学可以自行搜索。 1.1创建Fli…

手把手云开发小程序-(四)-uniclould增删改查业务开发

一,导入uView 在开发小程序的时候,我习惯使用uView这个ui库。主要是直接用当然比自己写省时间。 它的官网:uView - 多平台快速开发的UI框架 - uni-app UI框架 (gitee.io) 导入: npm install uview-ui2.0.31然后按照官网进行配…

数据库基础入门 — SQL运算符

我是南城余!阿里云开发者平台专家博士证书获得者! 欢迎关注我的博客!一同成长! 一名从事运维开发的worker,记录分享学习。 专注于AI,运维开发,windows Linux 系统领域的分享! 本…

Qt 软件开发框架(主要几个部分)

目录 1、 一个软件基本要素 (1)UI模块 (2)网络模块 (3)业务逻辑模块 (4)中间层 (5)独立模块(守护进程、更新模块、日志收集模块…&#xff…

CodeWhisperer 体验总结

CodeWhisperer 体验总结 | CodeWhisperer 是一款亚马逊新推出的通用代码生成器 可以实时进行代码数据的提供 还可以定义安全问题 CodeWhisperer 对个人用户是免费使用 企业用户需要订阅使用 亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例…

电商数据API接口接入|获取京东商品详情数据价格主图描述

企业前台研发部包含了企业业务大部分的对外前台系统,其中京东VOP平台(开放平台)适合于自建内网采购商城平台的企业客户。京东为这类客户专门开发API接口,对接到客户内网的网上商城,将产品SKU直接推送到客户内网,客户内部采购人员可…

华中科技大学李松课题组,利用机器学习预测多孔材料水吸附等温线

By 超神经 多孔材料的水吸附等温线是一个非常重要的参数,但这一参数的获得并不容易。这是因为多孔材料种类过多、结构多元,通过实验和计算的方式获得水吸附等温线数据成本过高,耗时过长。 华中科技大学的李松课题组,建立了一个两步…

开发板启动进入系统以后再挂载 NFS 文件系统, 这里的NFS文件系统是根据正点原子教程制作的ubuntu_rootfs

如果是想开发板启动进入系统以后再挂载 NFS 文件系统,开发板启动进入文件系统,开发板和 ubuntu 能互相 ping 通,在开发板文件系统下新建一个目录 you,然后执行如下指令进行挂载: mkdir mi mount -t nfs -o nolock,nfsv…

MySQL中自增id用完怎么办?

MySQL中自增id用完怎么办? MySQL里有很多自增的id,每个自增id都是定义了初始值,然后不停地往上加步长。虽然自然数是没有上限的,但是在计算机里,只要定义了表示这个数的字节长度,那它就有上限。比如&#…