字符编码——第一平面的unicode分析

news2024/11/24 10:52:01

        本篇小小探索了下 unicode 第一片面的字符。

一、什么是unicode?

        Unicode,全称为Unicode标准(The Unicode Standard),其官方机构Unicode联盟所用的中文名称为统一码,又译作万国码、统一字符码、统一字符编码,是信息技术领域的业界标准,其整理、编码了世界上大部分的文字系统,使得电脑能以通用划一的字符集来处理和显示文字,不但减轻在不同编码系统间切换和转换的困扰,更提供了一种跨平台的乱码问题解决方案。Unicode由非营利机构Unicode联盟(Unicode Consortium)负责维护,该机构致力让Unicode标准取代既有的字符编码方案,因为既有方案编码空间有限,亦不适用于多语环境。

——取自维基百科

        拆解一下关键信息:

  • Unicode:是一种标准,包括字符集定义、字符编码和解码方式。字符集支持且不断扩充,有多种编码解码方式。
  • 乱码解决方案:通过全局定义全球各个国家的通用字符,统一编码和解码,避免跨平台跨国家互联网传输的乱码问题。乱码的本质是字符集不一致或编解码方式的不一致,导致信息错乱。
二、为什么了解第一平面?

        目前的统一码字符分为17组编排,每组称为平面(Plane),以 0 到 16 编号。每平面有65536(216)点代码,但目前只用了少数平面。

        第 0 平面(或者说基本多文种平面)中的码点,都可以用一个 UTF-16 单位来编码,或者以 UTF-8 来编码的话,会使用一、二或三个字节。而第 1 到 16 平面(或称辅助平面)中的码点,UTF-16 会以代理对的方式来使用,而 UTF-8 则会编码成 4 个字节。

        ——取自维基百科

        第一个平面称为基本多语言平面(Basic Multilingual Plane,简称BMP),这个平面涵盖了当今世界上最常用的字符。

        如果业务持久化的编码是utf-8而不是utfmb4的话,相当于字符的传输过程中字符集更小了,需要限制字符字节数,不然数据乱码问题会很严重。

三、第一平面的现状?

        这里取最常用的第一平面,我们了解一下这一平面的现状。utf8是比较通用的变字节编码方式,这里我们分析下utf8编码下的字符编码。分析阶段只贴核心代码,全部代码末尾贴出,大家可自行尝试。

//核心实现:
for i := 0; i < 65536; i++ {
	size := fmt.Sprintf("%d", utf8.RuneLen(rune(i)))
	line := fmt.Sprintf("%d    %c    %s    %x\n", i, i, size, i)
	if size == "1" {
		_, _ = file.Write([]byte(line))//size_1.txt
	} else if size == "2" {
	    _, _ = file2.Write([]byte(line))//size_2.txt
    } else if size == "3" {
		_, _ = file3.Write([]byte(line))//size_3.txt
    } else {
		_, _ = file4.Write([]byte(line))//size_4.txt
	}
}
1 运行结果

wc -l size_1.txt
        129 size_1.txt

wc -l size_2.txt
        1920 size_2.txt

wc -l size_3.txt
        61440 size_3.txt

wc -l size_4.txt
        2048 size_4.txt

2 结论

        第一平面65536个码点,其中有效字符128+1920+61440=63488个。

字节数码点数备注
1字节128
2字节1920
3字节61440
非合法utf-8序列值2048变字节编码规则限制
3 为什么会存在非合法utf-8序列值?

        UTF-8需要兼容ASCII,所以也需要有前缀码来控制,前缀规则如下:

  • 如果首字节以 0 开头,则是单字节编码(即单个单字节码元);
  • 如果首字节以 110 开头,则是双字节编码(即由两个单字节码元所组成的双码元序列);
  • 如果首字节以 1110 开头,则是三字节编码(即由三个单字节码元所组成的三码元序列),以此类推。

4 详细结果列表概览

四、详细代码
package main
import (
	"fmt"
	"unicode/utf8"
	"os"
	"log"
)

func main() {
	file1name := "size_1.txt"
	file2name := "size_2.txt"
	file3name := "size_3.txt"
	file4name := "size_4.txt"
	file, err := os.OpenFile(file1name, os.O_APPEND|os.O_WRONLY, 0644)
	if err != nil {// 如果文件不存在,创建文件
		if os.IsNotExist(err) {
			file, err = os.Create(file1name)
			if err != nil {
				log.Fatal(err)
			}
			defer file.Close()
		} else {
			log.Fatal(err)
		}
	}
	defer file.Close()
	file2, err := os.OpenFile(file2name, os.O_APPEND|os.O_WRONLY, 0644)
        if err != nil {// 如果文件不存在,创建文件
                if os.IsNotExist(err) {
                        file2, err = os.Create(file2name)
                        if err != nil {
                                log.Fatal(err)
                        }
                        defer file2.Close()
                } else {
                        log.Fatal(err)
                }
        }
        defer file2.Close()
	file3, err := os.OpenFile(file3name, os.O_APPEND|os.O_WRONLY, 0644)
        if err != nil {// 如果文件不存在,创建文件
                if os.IsNotExist(err) {
                        file3, err = os.Create(file3name)
                        if err != nil {
                                log.Fatal(err)
                        }
                        defer file3.Close()
                } else {
                        log.Fatal(err)
                }
        }
        defer file3.Close()
	file4, err := os.OpenFile(file4name, os.O_APPEND|os.O_WRONLY, 0644)
        if err != nil {// 如果文件不存在,创建文件
                if os.IsNotExist(err) {
                        file4, err = os.Create(file4name)
                        if err != nil {
                                log.Fatal(err)
                        }
                        defer file4.Close()
                } else {
                        log.Fatal(err)
                }
        }
        defer file4.Close()


	for i := 0; i < 65536; i++ {
		size := fmt.Sprintf("%d", utf8.RuneLen(rune(i)))
		line := fmt.Sprintf("%d  %c      %s	%x\n", i, i, size, i)
		if size == "1" {
			_, _ = file.Write([]byte(line))
		} else if size == "2" {
			_, _ = file2.Write([]byte(line))
        } else if size == "3" {
			_, _ = file3.Write([]byte(line))
        } else {
			_, _ = file4.Write([]byte(line))
		}
	}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2091422.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【PyTorch常用库函数】一文向您详解 with torch.no_grad(): 的高效用法

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引言 在训练神经网络时&#xff0c;我们通常需要计算损失函数关于模型参数的梯度&#xff0c;以便通过梯度下降等优化算法更新参…

ARM内存屏障/编译屏障API(__DMB、__DSB、__ISB)用法及举例

0 参考资料 STM32F7 Series and STM32H7 Series Cortex-M7 processor.pdf ARM Cortex™-M Programming Guide to Memory Barrier Instructions.pdf1 ARM内存屏障/编译屏障指令&#xff08;__DMB、__DSB、__ISB&#xff09;说明 内存屏障和编译屏蔽其实是2个东西&#xff0c;一…

JDBC的使用及案例

1. JDBC基本操作 1.1. JDBC概述 JDBC&#xff08;Java Data Base Connectivity&#xff09;Java连接数据库是一种用于执行SQL语句的Java API&#xff0c;为多种关系数据库提供统一访问它由一组用Java语言编写的类和接口组成有了JDBC&#xff0c;程序员只需用JDBC API写一个程…

将vue项目打包为安卓软件

前言 在我的前一个文章&#xff0c;有讲如何实现一个笔记系统 点击跳转到:纯vue实现笔记系统 那么我如果想要分享给我的朋友该怎么办呢? 那么我将带大家去实现打包安卓软件 安卓实际打包软件 也为了更信服&#xff0c;这里提供一个我的打包之后的软件给大家&#xff0c;感兴…

Python自动化办公2.0 课程更新

之前的课程&#xff0c;包含了Python pandassklearn 数据分析&#xff0c;和Stremlit 可视化仪表盘的开发 和一系列自动化项目案例的开发&#xff0c;包括我们封装了ztl-uia 模块&#xff0c;可以同时自动化操控windows 软件和浏览器, 封装的模块&#xff0c;针对为付费学员使…

证书学习(三).p12证书颁发的5个步骤、如何在线生成证书、证书工具网站推荐

目录 一、证书颁发的 5 个步骤二、在线生成证书2.1 在线生成 CSR 文件2.2 在线 CSR 签发证书三、其他在线工具3.1 在线解析证书3.2 在线证书格式转换(证书转 PKCS#12/DER/JSK 格式)3.3 在线解析 .p12 文件、下载 .cer 文件3.4 直接通过参数设置申请证书【最便捷】四、补充:其…

【职业选择】AI工程师、机器学习工程师和深度学习工程师的职责与工作内容有什么区别?

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发…

LVGL 控件之进度条(lv_bar)

目录 一、进度条1、概述2、方向3、进度条的当前值和范围值4、进度条模式5、进度条事件6、相关 API 二、例程 一、进度条 1、概述 进度条对象&#xff08;lv_bar&#xff09;有一个背景和一个指示器。指示器的宽度根据进度条的当前值自动设置。 如果设置进度条的宽度小于其高…

[C++] C++11详解 (五)function包装器、bind绑定

标题&#xff1a;[C] C11详解 (五)function包装器、bind 水墨不写bug 目录 一、function包装器 二、bind绑定 正文开始&#xff1a; 一、function包装器 function包装器&#xff0c;function实现在<functional>头文件中。C中的function本质上是一个类模板。 function…

由浅入深学习 C 语言:Hello World【提高篇】

目录 引言 1. Hello World 程序代码 2. C 语言角度分析 Hello World 程序 2.1. 程序功能分析 2.2 指针 2.3 常量指针 2.4 指针常量 3. 反汇编角度分析 Hello World 程序 3.1 栈 3.2 函数用栈传递参数 3.3 函数调用栈 3.4 函数栈帧 3.5 相关寄存器 3.6 相关汇编指令…

离散傅里叶变换(Discrete Fourier Transform, DFT)介绍,地震波分析

介绍 离散傅里叶变换&#xff08;Discrete Fourier Transform, DFT&#xff09;是一种非常重要的信号处理工具&#xff0c;它将离散时间信号从时间域转换到频率域。DFT在信号处理、图像处理、通信系统以及许多其他工程和科学领域中得到了广泛应用。为了理解DFT&#xff0c;我们…

时序预测 | 基于DLinear+PatchTST多变量时间序列预测模型(pytorch)

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 DLinearPatchTST多变量时间序列 dlinear,patchtst python代码&#xff0c;pytorch架构 适合功率预测&#xff0c;风电光伏预测&#xff0c;负荷预测&#xff0c;流量预测&#xff0c;浓度预测&#xff0c;机械领域预…

3.美食推荐系统(Java项目springboot和vue)

目录 0.系统的受众说明 1 绪论 1.1研究背景 1.2研究现状 1.3研究内容 2 系统关键技术 2.1 Springboot框架 2.2 JAVA技术 2.3 MYSQL数据库 2.4 B/S结构 3 系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2经济可行性 3.1.3操作可行性 3.2 系统性能分析 3.3 系统功能分析 3.4系统…

【3D目标检测】MMdetection3d——nuScenes数据集训练BEVFusion

引言 MMdetection3d&#xff1a;【3D目标检测】环境搭建&#xff08;OpenPCDet、MMdetection3d&#xff09; MMdetection3d源码地址&#xff1a;https://github.com/open-mmlab/mmdetection3d/tree/main?tabreadme-ov-file IS-Fusion源码地址&#xff1a;https://github.co…

139. MySQL同步ES的四种方案

文章目录 1. 前言2. 数据同步方案2.1 同步双写2.2 异步双写2.3 基于 SQL 抽取2.4 基于 Binlog 实时同步 3. 数据迁移工具选型3.1 Canel3.2 阿里云 DTS3.3 Databus3.4 其它 4. 后记 本文介绍数据同步的 4 种方案&#xff0c;并给出常用数据迁移工具&#xff0c;目录如下&#xf…

【软件测试专栏】认识软件测试、测试与开发的区别

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;软件测试专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ 认识软件测试、测试与开发的区别 关键词&#xff1a;软件测试、测…

最短路算法详解(Dijkstra 算法,Bellman-Ford 算法,Floyd-Warshall 算法)

文章目录 一、Dijkstra 算法二、Bellman-Ford 算法三、Floyd-Warshall 算法 由于文章篇幅有限&#xff0c;下面都只给出算法对应的部分代码&#xff0c;需要全部代码调试参考的请点击&#xff1a; 图的源码 最短路径问题&#xff1a;从在带权图的某一顶点出发&#xff0c;找出…

【PyCharm激活码】2024年最新pycharm专业版激活码+安装教程!

一、PyCharm激活 激活码&#xff1a; KQ8KMJ77TY-eyJsaWNlbnNlSWQiOiJLUThLTUo3N1RZIiwibGljZW5zZWVOYW1lIjoiVW5pdmVyc2l0YXMgTmVnZXJpIE1hbGFuZyIsImxpY2Vuc2VlVHlwZSI6IkNMQVNTUk9PTSIsImFzc2lnbmVlTmFtZSI6IkpldOWFqOWutuahtiDorqTlh4blupflkI0iLCJhc3NpZ25lZUVtYWlsIjoi…

ArcEngine二次开发实用函数18:使用shp矢量对栅格文件进行掩模和GP授权获取

目录 1. 权限设置 2. 添加如下引用 3. 核心代码: 首先要确定要使用的gp工具需要什么权限,这个可以在工具的帮助中查看;获取权限之后,引用名称空间,编写处理代码: 下面给出具体的实例代码: 1. 权限设置 ESRI.ArcGIS.RuntimeManager.Bind(ESRI.ArcGIS.ProductCode.Eng…

介绍一下最近很火的一款游戏黑神话悟空,以及国产游戏面临的挑战

《黑神话&#xff1a;悟空》是一款由杭州游科互动科技有限公司开发的单机动作角色扮演游戏&#xff0c;以中国古典名著《西游记》为背景。游戏在2024年8月20日上线&#xff0c;支持PC&#xff08;Steam、Epic、Wegame&#xff09;和PlayStation 5平台&#xff0c;未来还将登陆X…