[Python学习日记-22] Python 中的字符编码(下)

news2025/1/10 20:27:58

[Python学习日记-22] Python 中的字符编码(下)

简介

编码的战国时代

Unicode 和 UTF

现代计算机系统通用的字符编码工作方式

简介

        在[Python学习日记-21] Python 中的字符编码(上)中我们讲了字符编码中的 ASCII 码和 GB2312/GBK,本片我们来讲述当时犹如雨后春笋般的编码战国时代和万国码时代,以及 Python 在这时代背景下的一些特性

编码的战国时代

        之前我们讲了 GB2312/GBK 编码,其实这个只是中国的情况,世界上有很多国家在开始使用计算机时也面临该状况,所以很多国家都开发了自己的字符编码以适应本国的国情,包括但不完全的有以下类型:

  • ASCII(美国等使用英语的国家,占1个字节,只支持英文)
  • GB2312/GBK(中国字符,占2个字节,支持6700+汉字,而GBK是GB2312的升级版,支持21000+汉字)
  • Shift-JIS(日本字符)
  • ks_c_5601-1987(韩国编码)
  • TIS-620(泰国编码)

常用编码介绍一览表:

编码制定时间作用所占字节数
ASCII1967年表示英语及西欧语言8bit/1bytes
GB23121980年国家简体中文字符集,兼容 ASCII2bytes
Unicode1991年国际标准组织统一标准字符集2bytes
GBK1995年GB2312 的扩展字符集,支持繁体字,兼容 GB23122bytes
UTF-81992年不定长编码1-3bytes

        各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。例如有一个日本进口的游戏(日本默认使用 Shift-JIS),往自己电脑上一装(中文版的 Windows 字符编码默认是 GBK),就显示乱码了。

        因此极大的阻碍不同国家之间的信息传递,这个乱局最终是联合国出面解决的,于是就诞生了下面要说的 Unicode 和 UTF

Unicode 和 UTF

一、Unicode

         上面讲到,由于各国之间都开发出了自己的字符编码,导致不同国家之间的信息传递有极大的阻碍。所以 Unicode 编码应运而生,Unicode 编码把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode 编码使用2到4个字节,并且已经收录136690个字符,并还在一直不断扩张中。同时 Unicode 编码标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持 Unicode 编码。

特点:

  1. 支持全球所有的语言
  2. 可以跟各种语言的编码自由转换,也就是说,即使你 GBK 编码的文字,想转成 Unicode 编码也很容易

        为何 Unicode 编码需要与其他语言的字符编码相互转换呢?这是个历史问题,以中文编码为例,GB2312 最早是在1980年出现的,而 Unicode 编码是1990年才出现的,那在这十年之间无数的计算机应用开发都是使用 GB2312 来开发的,如果突然间要求所有的计算机应用都使用该编码,那几乎就是要求所有使用 GB2312 来开发的计算机应用推倒重来,这换做你应该也会反对吧;并且 GB 系列编码就像汉语在国内一样,而 Unicode 编码就像国际通用语言英语一样,而我们在国内沟通时基本不需要使用英语吧,所以也没有很强烈的需要要求把 GB 系列编码转换成 Unicode 编码。

        于是联合国为了推广 Unicode 编码还做了以下努力:

  1. 联合国要求全球计算机厂商出厂都支持 Unicode
  2. Unicode 与所有语言编码都做了对应关系(这也是为什么 Unicode 可以与各种语言编码可以自由转换的原因)

        而目前为止大多数的计算机应用都支持 Unicode 编码。下图就是 Unicode 编码跟中文编码的对应关系

二、UTF

        但是新的问题又出现了!如果统一成 Unicode 编码,乱得问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用 Unicode 编码比 ASCII 码的存储空间需要多一倍,由于计算机的内存比较大,并且字符事在内容中表示时也不会特别大,所以内存可以使用 Unicode 编码来处理,但是存储和网络传输时一般数据都会非常多,那么这多的一倍的存储空间将是无法接受的。

        为了解决存储和网络传输的问题,于是出现了 UTF(Unicode Transformation Format),即:对 Unicode 编码进行转换,以便于在存储和网络传输时可以节省空间,UTF 有以下版本:

  • UTF-8(主流):使用1、2、3、4个字节表示所有字符,优先使用1个字符、无法满足则增加一个字节,最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个,其它及特殊字符占4个
  • UTF-16:使用2、4个字节表示所有字符,优先使用2个字节,否则使用4个字节表示
  • UTF32:使用4个字节表示所有字符

        总的来说,UTF 是为 Unicode 编码而设计的一种,在存储和传输时节省空间的编码方案。如果你要传输的文本包含大量英文字符,用 UTF-8 编码就能节省空间,ASCII、Unicode、UTF-8之间的对应如下表所示

字符ASCIIUnicodeUTF-8
A0100000100000000 0100000101000001
x01001110 0010110111100100 10111000 10101101

        从上面的表格还可以发现,UTF-8 编码有一个额外的好处,就是 ASCII 码实际上可以被看成是 UTF-8 编码的一部分,所以大量只支持 ASCII 码的历史遗留软件可以在 UTF-8 编码下继续工作。

现代计算机系统通用的字符编码工作方式

        目前我们已经对 ASCII、Unicode 和 UTF-8 有了了解,那我们现在总结一下现代计算机系统通用的字符编码工作方式。

        在计算机内存中,统一使用 Unicode 编码,当需要保存到硬盘或者需要传输的时候,就转换为 UTF-8 编码。例如用记事本编辑的时候,从文件读取的 UTF-8 字符被转换为 Unicode 字符到内存里,编辑完成后,保存的时候再把 Unicode 转换为 UTF-8 保存到文件。如下图所示

        值得一提的还有,如果你的系统编码格式是 UTF-8 编码,而你所写的程序为 GBK 编码,那么也会产生乱码,这是因为 UTF-8 与 GBK 并没有直接关系,之所以他们能转换是因为 Unicode 作为中介,具体如下图所示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2138165.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法刷题:300. 最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组、1143. 最长公共子序列

300. 最长递增子序列 1.dp定义:dp[i]表示i之前包括i的以nums[i]结尾的最长递增子序列的长度 2.递推公式:if (nums[i] > nums[j]) dp[i] max(dp[i], dp[j] 1); 注意这里不是要dp[i] 与 dp[j] 1进行比较,而是我们要取dp[j] 1的最大值…

【前端】ref引用的作用

首先&#xff0c;我们要明确一点&#xff0c;使用vue的好处是&#xff1a; 想要减少开发者直接操作dom元素。使用组件模版&#xff0c;实现代码的服用。 ref的属性的实现是为了取代原生js中使用id、class等标识来获取dom元素。 helloworld组件 <template><div clas…

memset函数的使用

目录 1.头文件 2.memset函数讲解 小心&#xff01;VS2022不可直接接触&#xff0c;否则&#xff01;没这个必要&#xff0c;方源面色淡然一把抓住&#xff01;顷刻炼化&#xff01; 1.头文件 memset函数的使用需要包括头文件 #include<string.h> 2.memset函数讲解 简述…

Java--图书管理系统(新版详细讲解)

前言&#xff1a; 对于初学者&#xff0c;自己写一个图书管理系统&#xff0c;会有效提高自己的代码能力&#xff0c;加深对Java中面向对象的理解&#xff0c;里面蕴含了Java中的类、接口、继承、多态等思想&#xff0c;接下来我们一起完成这一份"伟大的作品!" 注&am…

【若依RuoYi-Vue | 项目实战】帝可得后台管理系统(一)

文章目录 一、项目背景介绍1、什么是帝可得&#xff1f;2、物联网3、售货机术语4、角色与功能5、业务流程&#xff08;1&#xff09;平台管理员&#xff08;2&#xff09;运维人员&#xff08;3&#xff09;运营人员&#xff08;4&#xff09;消费者 6、产品原型7、库表设计 二…

基于Web的《药谷奇遇记》网站设计与实现---附源码72940

目 录 1 绪论 1.1 研究背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2 系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 2.4 系统流程…

18062 二维数组每行中的最大值

### 思路 1. 使用指针变量遍历二维数组的每一行。 2. 对于每一行&#xff0c;找到该行的最大值。 3. 输出每一行的最大值。 ### 伪代码 1. 定义一个指向二维数组的指针变量 p。 2. 遍历二维数组的每一行&#xff1a; - 将 p 指向当前行。 - 初始化 max 为当前行的第一个…

【STM32系统】基于STM32设计的SD卡数据读取与上位机显示系统(SDIO接口驱动、雷龙SD卡)——文末资料下载

基于STM32设计的SD卡数据读取与上位机显示系统 演示视频&#xff1a; 基于STM32设计的SD卡数据读取与上位机显示系统 简介&#xff1a;本研究的主要目的是基于STM32F103微控制器&#xff0c;设计一个能够读取SD卡数据并显示到上位机的系统。SD卡的数据扇区读取不仅是为了验证存…

利用AI增强现实开发:基于CoreML的深度学习图像场景识别实战教程

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

STL值list

list容器 头文件&#xff1a;#include<list> - list是一个双向链表容器&#xff0c;可高效地进行插入删除元素 - list不可以随机存取元素&#xff0c;所以不支持at.(pos)函数与[]操作符 注&#xff1a;list使用迭代器访问数据时可以一步一步走自增自减&#xff08;即…

誉龙视音频综合管理平台 RelMedia/FindById SQL注入漏洞复现

0x01 产品简介 誉龙视音频综合管理平台是深圳誉龙数字技术有限公司基于多年的技术沉淀和项目经验,自主研发的集视音频记录、传输、管理于一体的综合解决方案。该平台支持国产化操作系统和Windows操作系统,能够接入多种类型的记录仪,实现高清实时图传、双向语音对讲、AI应用…

CTFHub技能树-SQL注入-整数型注入

一、手动注入 思路&#xff1a;注入点->库->表->列->数据 首先使用order by探测有几列 http://challenge-215beae2f0b99b12.sandbox.ctfhub.com:10800/?id1 order by 2 我们发现order by 2 的时候有回显&#xff0c;到了order by 3 的时候就没有回显了&#xf…

npm install报错,gyp verb `which` failed Error: not found: python

主要错误 gyp verb which failed Error: not found: python2 gyp ERR! configure error gyp ERR! stack Error: Cant find Python executable "python", you can set the PYTHON env variable. npm ERR! node-sass4.14.1 postinstall: node scripts/build.js 全部错…

Apisix离线安装

上传离线包 #ll apisix-3.2.2-0.el7.x86_64.rpm apisix-base-1.21.4.1.8-0.el7.x86_64.rpm apisix-dashboard-3.0.1-0.el7.x86_64.rpm cyrus-sasl-2.1.26-24.el7_9.x86_64.rpm cyrus-sasl-devel-2.1.26-24.el7_9.x86_64.rpm cyrus-sasl-gssapi-2.1.26-24.el7_9.x86_64.rpm cyr…

【H2O2|全栈】关于CSS(1)CSS基础(一)

目录 CSS基础知识 前言 准备工作 啥是CSS&#xff1f; 如何引用CSS&#xff1f; 选择器 通配符选择器 类名&#xff08;class&#xff09;选择器 id选择器 CSS解析顺序&#xff08;优先级&#xff09; 常见CSS标签&#xff08;一&#xff09; 字体属性 font-style…

spring模块(六)spring event事件(3)广播与异步问题

发布事件和监听器之间默认是同步的&#xff1b;监听器则是广播形式。demo&#xff1a; event&#xff1a; package com.listener.demo.event;import com.listener.demo.dto.UserLogDTO; import org.springframework.context.ApplicationEvent;public class MyLogEvent extends…

C#命令行参数解析库System.CommandLine介绍

命令行参数 平常在日常的开发过程中&#xff0c;会经常用到命令行工具。如cmd下的各种命令。 以下为sc命令执行后的截图&#xff0c;可以看到&#xff0c;由于没有输入任何附带参数&#xff0c;所以程序并未执行任何操作&#xff0c;只是输出了描述和用法。 系统在创建一个新…

电脑怎么恢复原来的ip地址:全面指南与注意事项

在使用电脑连接网络时&#xff0c;有时可能会因为某些原因需要更改IP地址。然而&#xff0c;在某些情况下&#xff0c;我们可能希望将电脑的IP地址恢复到原来的设置。本文将详细介绍如何恢复电脑原来的IP地址&#xff0c;并提供一些注意事项。 一、了解IP地址的分配方式 在恢复…

Linux-LVM逻辑卷管理

一、背景 Linux运维过程中大家有没有想过生产环境服务器磁盘分区如果数据量越来越膨胀(这些都是重要数据&#xff0c;不能删除)&#xff0c;那么此时如何来应对这个问题呢? 既要不影响正在运行的程序&#xff0c;同时也不能中断关机等操作。 这么一想就很蛋疼了。假设你运行…

力扣-96.不同的二叉搜索树 题目详解

题目: 给你一个整数 n &#xff0c;求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种&#xff1f;返回满足题意的二叉搜索树的种数。 二叉搜索树介绍: 二叉搜索树是一个有序树&#xff1a; 若它的左子树不空&#xff0c;则左子树上所有结点的值均小于它…