Unicode与UTF-8的关系

Unicode与UTF-8的关系

news2026/3/29 21:05:04

Unicode又称统一码，万国码。uni是一个英文词根，原型是one, 表示“单一, 一个”，所以unicode本意是“一个码”，就是让每个字符都有一个唯一的编码。它就像个武林盟主，把世上所有的语言符号一勺烩，一统了编码江湖。不过缺点也很明显，为了统一，牺牲了效率，常用2个字节存储一个符号（生僻字符可能需要4字节）。这样对于本来只占用一个字节的英文字母来说（ASCII编码），相当于增加一倍的存储空间。西方人一向都是这也要，那也要，可不会吃这亏。

为了解决这个问题，UTF-8出现了，UTF是Unicode Transformation Format的缩写，表示Unicode的一种转换格式。它的特点是编码可长可短，根据字符的实际长度来分配存储空间。具体怎么分配的呢？足见西方人“我不上天堂谁上天堂？”的处事智慧。

经过一番折腾，实现的效果如下：

①西方字符的UTF-8码与原来的ASCII编码完全一致，一点亏也不吃。

②中文字符的Unicode码转成UTF-8码由的2个字节变成了3个字节。

谁占便宜了谁吃亏一目了然，可怜的我们被人收割了还用得不亦乐乎。

UTF-8编码既能节省空间，又不会出现乱码，真是好用得不要不要了！

不过UTF-8编码也有点儿小问题，就是长度变来变去的，计算机处理起来不太方便，为了解决这个问题，处理前需要预先要将UTF-8转换为Unicode。

也就是说，在计算机内存中，统一使用Unicode编码，需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

举两个例子：

(1)记事本。“.txt”文件中保存是UTF-8，读取文件时转换为Unicode并存入内存。保存文件的时再把Unicode转换为UTF-8。

(2)浏览网页。服务器会把Unicode内容转换为UTF-8格式的，再传输到浏览器。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2149748.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

反相求和电路设计

反相求和电路设计

1 简介该电路可对两个输入信号进行求和（相加），并将其在输出端反相。输入信号通常要求低阻抗源，因为该电路的输入阻抗由输入电阻R1和R2决定。反相放大器的共模电压等于连接到同相节点的电压。 2 设计目标 2.1 输入 2.2 输出 2.3…

阅读更多...

9.4 溪降技术：带包下降

9.4 溪降技术：带包下降

目录 9.4 携包下降概述观看视频课程电子书：携包下降在瀑布中管理背包扔背包滑索传送背包固定到安全带 V7 提示：将背包固定到安全带总结 9.4 携包下降概述在水流和悬崖边缘携包下降是最危险的情况！ 正如我们之前所学，在峡谷探险中…

阅读更多...

Tomcat 后台弱⼝令部署war包

Tomcat 后台弱⼝令部署war包

漏洞原理在tomcat8环境下默认进⼊后台的密码为 tomcat/tomcat ，未修改造成未授权即可进⼊后台，或者管理员把密码设置成弱⼝令。影响版本全版本(前提是⼈家存在弱⼝令) 环境搭建 8 cd vulhub-master/tomcat/tomcat8 docker-compose up -d 漏洞复…

阅读更多...

AD9854 为什么输出波形幅度受限？？

AD9854 为什么输出波形幅度受限？？

🏆本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&am…

阅读更多...

【CSS in Depth 2 精译_035】5.5 Grid 网格布局中的子网格布局（全新内容）

【CSS in Depth 2 精译_035】5.5 Grid 网格布局中的子网格布局（全新内容）

当前内容所在位置（可进入专栏查看其他译好的章节内容） 第一章层叠、优先级与继承（已完结） 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结第二章相对单位（已完结） 2.1 相对…

阅读更多...

C++速通LeetCode中等第6题-找到字符串中所有字母异位词（滑动窗口最详细代码注释）

C++速通LeetCode中等第6题-找到字符串中所有字母异位词（滑动窗口最详细代码注释）

滑动窗口法： class Solution { public:vector<int> findAnagrams(string s, string p) {unordered_map<char,int> need,window;for(char c : p) need[c];int left 0,right 0;int valid 0;vector<int> res;//窗口数据更新while(right < s.s…

阅读更多...

FDM3D打印系列——黑悟空打印

FDM3D打印系列——黑悟空打印

大家好，我是阿赵。最近很火的黑神话悟空，阿赵我没有玩，原因是没时间。不过看着身边的同事都在玩，我也心痒难耐，所以我打印了一个悟空的模型，并且自己配了色。打印这个悟空模型，过程是一波…

阅读更多...

Telephony VOWIFI

Telephony VOWIFI

1、VOWIFI框架参考3GPP 23402文档， VOWIFI有如下相关架构设置。 1、S2a信任的WIFI热点 2、S2b非信任WIF热点 3、S2c直联核心WIF热点目前使用比较多的为S2b非信任WIF热点。 2、EPDG建立过程 //Telephony Log IWLAN拨号 08-30 21:36:34.702857 1347 5131 D ConnectivityS…

阅读更多...

【后端开发】JavaEE初阶——计算机是如何工作的？？？

【后端开发】JavaEE初阶——计算机是如何工作的？？？

前言： 🌟🌟本期讲解计算机工作原理，希望能帮到屏幕前的你。 🌈上期博客在这里：【MySQL】MySQL中JDBC编程——MySQL驱动包安装——（超详解） 🌈感兴趣的小伙伴看一看小编主…

阅读更多...

深入理解ConcurrentHashMap

深入理解ConcurrentHashMap

HashMap为什么线程不安全 put的不安全由于多线程对HashMap进行put操作，调用了HashMap的putVal()，具体原因： 1、假设两个线程A、B都在进行put操作，并且hash函数计算出的插入下标是相同的； 当线程A执行完第六行由于时间…

阅读更多...

基于milvus数据库的RAG-Demo

基于milvus数据库的RAG-Demo

1.上传文本并将文本向量化 import os from django.conf import settings from langchain.document_loaders import TextLoader from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter from langchain.vectorstores import Chroma from l…

阅读更多...

数据结构-2.7.单链表的查找与长度计算

数据结构-2.7.单链表的查找与长度计算

注：本文只探讨"带头结点"的情况(查找思路类似循环找到第i-1 个结点的代码) 一.按位查找： 1.代码演示： 版本一： #include<stdio.h> #include<stdlib.h> //定义单链表结点类型 typedef struct LNo…

阅读更多...

契约锁与您相约2024新疆数字经济创新大会暨新疆数字丝路博览会

契约锁与您相约2024新疆数字经济创新大会暨新疆数字丝路博览会

9月20日，由新疆数字经济联合会主办，多家行业协会及企业共同承办的“2024(第一届)新疆数字经济创新发展大会暨新疆数字丝路博览会”在新疆国际会展中心盛大开幕，活动期间，契约锁作为电子签章行业领先的服务商携数字可信系列产品亮相…

阅读更多...

自然语言处理-基于注意力机制的文本匹配

自然语言处理-基于注意力机制的文本匹配

背景： 任务三：基于注意力机制的文本匹配输入两个句子判断，判断它们之间的关系。参考ESIM（可以只用LSTM，忽略Tree-LSTM），用双向的注意力机制实现。参考《神经网络与深度学习》第7章 Reaso…

阅读更多...

MT6765/MT6762(R/D/M)/MT6761(MT8766)安卓核心板参数比较_MTK联发科4G智能模块

MT6765/MT6762(R/D/M)/MT6761(MT8766)安卓核心板参数比较_MTK联发科4G智能模块

联发科Helio P35 MT6765安卓核心板 MediaTek Helio P35 MT6765是智能手机的主流ARM SoC，于2018年末推出。它在两个集群中集成了8个ARM Cortex-A53内核（big.LITTLE）。四个性能内核的频率高达2.3GHz。集成显卡为PowerVR GE8320，频率…

阅读更多...

统一网关--gateway（仅供自己参考）

统一网关--gateway（仅供自己参考）

1、网关的概念： 2、网关的功能： （1）：身份认证和权限校验 （2）：服务路由（具体的业务路由到具体的服务），负载均衡（多台服务的话&#xff…

阅读更多...

【用Java学习数据结构系列】对象的比较（Priority Queue实现的前提）

【用Java学习数据结构系列】对象的比较（Priority Queue实现的前提）

看到这句话的时候证明：此刻你我都在努力加油陌生人个人主页：Gu Gu Study 专栏：用Java学习数据结构系列喜欢的一句话： 常常会回顾努力的自己，所以要为自己的努力留下足迹喜欢的话可以点个赞谢谢了。作者&#xff…

阅读更多...

鸿蒙OpenHarmony【轻量系统内核通信机制（消息队列）】子系统开发

鸿蒙OpenHarmony【轻量系统内核通信机制（消息队列）】子系统开发

消息队列基本概念消息队列又称队列，是一种任务间通信的机制。消息队列接收来自任务或中断的不固定长度消息，并根据不同的接口确定传递的消息是否存放在队列空间中。任务能够从队列里面读取消息，当队列中的消息为空时，挂起读…

阅读更多...

英飞凌 PSoC6 评估板 CAPSENSE 触摸滑条应用示例

英飞凌 PSoC6 评估板 CAPSENSE 触摸滑条应用示例

PSoC™ 62 with CAPSENSE™ evaluation kit 开发板（以下简称 PSoC 6 RTT 开发板）是英飞凌（Infineon）联合 RT-Thread 发布一款面向物联网开发者的 32 位双核 MCU 开发套件，其默认内置 RT-Thread 物联网操作系统。本文主…

阅读更多...

EasyExcel的基本使用——Java导入Excel数据

EasyExcel的基本使用——Java导入Excel数据

使用EasyExcel导入Excel数据有两种方式无论哪种方式我们都需要建立Excel表格和Java对象的绑定首先我们需要根据Excel表头定义一个对应的类 excel表示例： 对应的类： 使用ExcelProperty将excel列名和字段名绑定，括号里面填列名 package co…

阅读更多...

推荐文章

最新文章