浏览器的URL中每个中字符的“乱码”问题,字符集的解码和编码

news2025/1/16 20:14:34

uft-8和Unicode字符表对应,查找可参考:https://www.utf8-chartable.de/unicode-utf8-table.pl
几个好用的字符集转换网址:http://web.chacuo.net/charseturlencode,https://123.w3cschool.cn/webtools,http://mytju.com/classcode/tools/encode_gb2312.asp

导致url复制后,在文本中乱码的根本原因

中文字符在请求条件中可能因不同传递编码方式导致最后转换错误,所以先将中文字符转换为utf-8的对应编码值,然后将对应的编码值分成以一个字节为单位分开,也就出现了3个两位16进制的数据。

中文字符集和其他字符集的转换

在这里插入图片描述

中文编码的实例

在这里插入图片描述
下图中,在浏览器中只输入“一”进行搜索,然后把url中从开始到“一”为止的字符复制,贴到记事本上的内容如图,这和UTF-8的号一样,只是每两位有一个%号。
在这里插入图片描述
下图中,E4 B880对应的二进制形式如下。表示每个汉字3个字节表示,其中一个16进制位由是4个二进制位组成,所以UTF-8使用了6个十六进制表示一个汉字编号。
在这里插入图片描述

Unicode和utf-8的关系和转换规则

参考:https://blog.csdn.net/zhusongziye/article/details/84261211,其中有utf-16和utf-32为什么不能普遍使用的原因。
从根本来说utf-8实际上是从Unicode而来的。整体可以理解为所有文字语言都被Unicode逐个编码。但是并未规定每个字符占用空间。UTF-8则定义了不同值段对应的不同国家字符CJK表示中国日本和韩国的字符
在这里插入图片描述
下图中虽然标记的是URF-8编码转换,但实际是转换为了Unicode编码
在这里插入图片描述

下面是最简单的汉字**“一”对应的编码方式**,也可以看出不同字段的编码值对应的存储空间也不同
在这里插入图片描述
**转换方式实例,**下面的字符“一”在utf-8的编码转换范围是在0x800-0xffff,根据规则可完成转换。
在这里插入图片描述

简单了解一下utf-32和utf-16

utf-32

直接把每个字符的存储使用4个字节,这样把大小值相同的unicode码直接放置到utf-32,不足的位只需要补零。
**缺点:**频繁使用编码值靠前的字符,会导致很多存储空间的浪费;四个字节的二进制位要定义那些是高位
可以根据他们高低字节的存储位置来判断他们所代表的含义,所以在编码方式中有 UTF-32BE 和 UTF-32LE,分别对应大端和小端

UTF-16 使用变长字节

① 对于编号在 U+0000 到 U+FFFF 的字符(常用字符集),直接用两个字节表示。 前一个字节表示的字符存储也会浪费空间。
② 编号在 U+10000 到 U+10FFFF 之间的字符,需要用四个字节表示。
也需要定义高位。就有 UTF-16BE 表示大端,UTF-16LE 表示小端

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/187446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM详解--内存结构

文章目录什么是JVM内存结构程序计数器(Program Counter Register)虚拟机栈(Java Virtual Machine Stacks)概述栈内存溢出本地方法栈堆(Heap)堆内存溢出堆内存诊断方法区方法区内存溢出常量池运行时常量池St…

PHP手册

NULL 未定义和unset()的变量都将解析为值null unset() unset( $var, ...$vars) 如果在函数中 unset() 一个全局变量&#xff0c;则只是局部变量被销毁&#xff0c;而在调用环境中的变量将保持调用 unset() 之前一样的值。 <?php function destroy_foo() {global $foo;un…

双系统下linux分区被误删的解决办法

前言在windows系统的磁盘管理中误删了ubuntu的磁盘分区&#xff0c;开机后一直卡在grub界面。Windows/Linux双启动的机器一般都使用grub作为引导程序。如果不小心在Windows中删除了linux分区&#xff0c;grub就会因为找不到配置文件而造成无法启动。 系统配置 系统类型&#x…

Qt新手入门指南 - 如何创建模型/视图(一)

每个UI开发人员都应该了解ModelView编程&#xff0c;本教程的目标是为大家提供一个简单易懂的介绍。Qt 是目前最先进、最完整的跨平台C开发工具。它不仅完全实现了一次编写&#xff0c;所有平台无差别运行&#xff0c;更提供了几乎所有开发过程中需要用到的工具。如今&#xff…

java排错定位

1、检查有没有报错信息 日志文件中登记的错误&#xff0c;这个算是最简单的&#xff0c;在定位错误时&#xff0c;也最希望问题在这一步得到确认。在打印异常时&#xff0c;通常会打印异常的调用栈信息&#xff0c;通过调用栈信息就可以很便捷的定位问题了。 例如&#xff1a; …

【JavaScript】原型与原型链以及判断数据类型方式

&#x1f4bb; 【JavaScript】原型与原型链以及判断数据类型方式 &#x1f3e0;专栏&#xff1a;JavaScript &#x1f440;个人主页&#xff1a;繁星学编程&#x1f341; &#x1f9d1;个人简介&#xff1a;一个不断提高自我的平凡人&#x1f680; &#x1f50a;分享方向&#…

Redis对不起是我肤浅了(基础和应用篇):位图(Bitmaps)的妙用和深入分析每个命令的用法

一、前言 在Redis 4.0 版本之前&#xff0c;Redis是单线程程序&#xff0c;主要是指Redis的网络I/O线程。Redis的持久化、集群同步等操作&#xff0c;则是由另外的线程来执行的。但在Redis 4.0 版本之后&#xff0c;Redis添加了多线程的支持&#xff0c;这时的多线程主要体现在…

【IT互联网行业内,什么岗位工作更有前景?】

前言互联网及IT行业作为集技术与高薪于一身的新技术行业&#xff0c;不仅成为时下众多年轻人的首选行业&#xff0c;其本身也承载了社会、企业数字化发展转型的重担&#xff0c;从国家到社会、市场都非常重视行业技术的发展和渗透&#xff0c;其重要性不言而喻。作为普通人的小…

AcWing 1073. 树的中心(详解树形DP和换根DP)

AcWing 1073. 树的中心&#xff08;树形DP 换根DP&#xff09;一、问题二、思路1、暴力做法2、树形DP换根DP&#xff08;1&#xff09;思路分析&#xff08;2&#xff09;普通树形DP与换根DP的区别三、代码一、问题 二、思路 1、暴力做法 这道题其实暴力的做法很简单&#x…

【金融学】Economics of Money and Banking {暂时搁置,中级宏观和微观经济学未学}

Economics of Money and BankingClass1 The Big PicturePrerequisitesSome MaterialsCourse Material: https://www.coursera.org/learn/money-banking/lecture/8WXSW/the-big-picture Class1 The Big Picture Prerequisites intermediate macroeconomics 中级宏观经济学 int…

Java on VS Code 2023年1月更新|Spring 插件包、代码补全更新以及性能改进

作者&#xff1a;Nick Zhu - Senior Program Manager, Developer Division at Microsoft 排版&#xff1a;Alan Wang 大家好&#xff0c;欢迎来到我们 2023 年的第一篇博客&#xff01;我们想与您分享几个与 Spring 插件、代码编辑和性能相关的激动人心的更新&#xff0c;让我们…

XML方式—解决mybatis实体类属性名和数据库字段名不一致问题

数据库字段与类属性名称不一致&#xff0c;导致查询数据时数据没有封装上。 [Brand{id1, brandNamenull, companyNamenull}, Brand{id2, brandNamenull, companyNamenull}]解决方式一&#xff08;为表字段取别名&#xff09; <select id"selectAll" resultType&…

【大唐杯备考】——5G网络组网部署(学习笔记)

&#x1f4d6; 前言&#xff1a;本期介绍5G网络组网部署。 目录&#x1f552; 1. SA组网和NSA组网&#x1f558; 1.1 SA组网&#x1f558; 1.2 NSA组网&#x1f564; 1.2.1 Option 3系列&#x1f564; 1.2.2 Option 7系列&#x1f564; 1.2.3 Option 4系列&#x1f558; 1.3 组…

【Linux】gcc编译器

【Linux】gcc编译器 文章目录【Linux】gcc编译器1、背景2、翻译过程2.1 预处理2.2 编译2.3 汇编2.4 链接2.5 总过程3、动、静态链接库3.1 查看库3.2 库分类3.3 链接使用4、gcc参数总结1、背景 在Linux中&#xff0c;C语言的编译肯定需要编译器来进行&#xff0c;这个编译器就是…

微课录制软件哪个好用?微课制作方法分享

很多小伙伴都不知道什么是微课&#xff1f;微课视频时长比较短&#xff0c;一般在5-10分钟。微课的教学内容也比较少&#xff0c;一个微课视频一般只对一个知识点进行针对性讲解。微课的这些特性可以让我们利用碎片时间进行学习。制作微课需要录制电脑屏幕&#xff0c;那微课录…

Python 部分位运算(包含负数反码手算求法)

首先要回忆负数的补码的求法&#xff1a;写出其相反数的原码&#xff0c;而后从右往左&#xff0c;碰到第一个1后上面的数全取反。 下面以4位二进制的-5举例&#xff08;首位为符号位&#xff09;&#xff1a; 5的原码 0101末位遇1后取反 1011即-5的补码为 1011下面是部分pytho…

C/C++ 高精度(加减乘除)算法压位优化

文章目录前言一、基本原理1、存储方式2、计算方式二、完整代码三、性能对比总结附录1、性能测试代码前言 由于上一章《C/C 高精度&#xff08;加减乘除&#xff09;算法简单实现》实现了基本的高精度计算&#xff0c;数组的每个元素存储一位10进制的数字。这样的存储方式并不是…

数学建模学习笔记(15)时间序列分析

时间序列分析时间序列分析概述和数据预处理时间序列分解模型指数平滑模型ARIMA模型时间序列分析概述和数据预处理 时间序列的概念&#xff1a;也称为动态序列&#xff0c;是指将某种现象的指标值按照时间顺序排列而成的数值序列。 时间序列的组成要素&#xff1a;时间要素、数…

表格控件Aspose.Cells for Java 授权须知

Aspose API支持流行文件格式处理&#xff0c;并允许将各类文档导出或转换为固定布局文件格式和最常用的图像/多媒体格式。 Aspose.Cells for Java 是一个屡获殊荣的Excel电子表格处理API&#xff0c;它允许Java开发人员在自己的Java应用程序中嵌入可读取、写入和操作Excel电子…

天云数据Hubble数据库被评为“IDC创新者:中国分布式数据库,2022”

近日&#xff0c;国际知名研究机构 IDC 发布《IDC Innovator&#xff1a;中国分布式关系型数据库》报告正式发布&#xff0c;天云融创数据科技&#xff08;北京&#xff09;有限公司&#xff08;以下简称“天云数据”&#xff09;被评为“IDC创新者&#xff1a;中国分布式数据库…