字符编码发展史6 — BOM字节序标记

news2024/10/10 16:58:30

上一篇《字符编码发展史5 — UTF-16和UTF-32》我们讲解了UTF-16和UTF-32编码。本篇我们将继续讲解字符编码中的字节序标记(BOM)。

2.3. 第三个阶段 国际化

2.3.2. Unicode的编码方式

2.3.2.5. BOM
1. 什么是BOM?

BOMByte Order Mark的缩写,翻译成中文是:字节序标记,主要用于文本编码中,表示数据存储的字节顺序。

前面我们讲到UTF-16和UTF-32是存在大小端的字节序问题的。以UTF-16为例,要识别一个文件是以大端(Big-endian)字节序还是小端(Little-endian)字节序存储的,就需要有一个标识来进行标记。业界统一的做法是:在文件的开头加入一个特殊的字符来表示,该字符就是U+FEFF,因此BOM也可认为是该字符(U+FEFF)的一个别名。

  • 在UTF-16BE文件中,BOM是0xFE 0xFF
  • 在UTF-16LE文件中,BOM是0xFF 0xFE
  • 在UTF-32BE文件中,BOM是0x00 0x00 0xFE 0xFF
  • 在UTF-32LE文件中,BOM是0xFF 0xFE 0x00 0x00
2. Windows下为什么会有UTF-8和UTF-8BOM?

UTF-8编码本身并不存在字节序的问题,所以UTF-8编码理论上是不需要字节序的。

熟悉Windows的同学应该知道,Windows的“记事本”在保存时可以选择编码方式,编码方式的下拉框里有UTF-8UTF-8 BOM。我们以UTF-8 BOM保存时,文件的开头三个字节是0xEF 0xBB 0xBF,这就是UTF-8 BOM的标识。

file 记事本保存的编码格式

file 在VSCode中以Hex Editor方式打开

为什么Windows下为什么有UTF-8 BOM,这个已经无从查证,很可能是Windows历史发展的遗留产物。猜测可能是为了明确标识某个文件是由UTF-8编码方式存储的。因为字符编码的发展历史来看,UTF-8的出现晚于ANSI系列编码,Windows早期为了适配各个国家的语言,系统默认编码采用了ANSI系列的编码,美国和西欧地区默认编码是ISO-8859-1,中国大陆默认编码编码是GBK。如:在Windows下有一个XXX.txt的纯文本文件,如果不加字节序标记则无法知道这个文件是UTF-8编码的还是GBK编码的。如果UTF-8编码的文件默认加上BOM标识,则可以通过这个标识来区分是UTF-8还是GBK编码。

在Windows11下,我们看到新建的.txt文件,windows的记事本会默认以UTF-8(无BOM)来保存了,说明Windows操作系统新的版本也默认使用UTF-8编码了。

就跨平台的兼容性而言,UTF-8会比UTF-8 BOM更好。

3. 不同编码的字节序总结
编码方式BOM字节序标识
UTF-8
UTF-8 BOM0xEF 0xBB 0xBF
UTF-16BE0xFE 0xFF
UTF-16LE0xFF 0xFE
UTF-32BE0x00 0x00 0xFE 0xFF
UTF-32LE0xFF 0xFE 0x00 0x00

《字符编码发展史》系列已完结

历史文章推荐:

字符编码发展史5 — UTF-16和UTF-32

字符编码发展史4 — Unicode与UTF-8

字符编码发展史3 — GB2312/Big5/GBK/GB18030

字符编码发展史2 — ISO-8859-N

字符编码发展史1 — ASCII和EASCII


大家好,我是陌尘。

IT从业10年+, 北漂过也深漂过,目前暂定居于杭州,未来不知还会飘向何方。

搞了8年C++,也干过2年前端;用Python写过书,也玩过一点PHP,未来还会折腾更多东西,不死不休。

感谢大家的关注,期待与你一起成长。



【SunLogging】
扫码二维码,关注微信公众号,精彩内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2202554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

研究生异地报名,需要社保缴费记录,没有社保记录怎么办。

1、户籍在安徽省,在北京工作,想报北京科技大学; 招生简章中没有提社保记录,但是在报名的时候,又出来要求:北京连续6个月的社保记录。这里是指在北京市考试的要求。没有连续社保缴费记录,肯定不能…

Python 与 Pycharm 的简易安装教程,包含Pycharm的修改

一. 官方网站 Python网址:python唯一的官方网址。 Pycharm网址:Pycharm的官方网址。 二. python安装步骤 滑动到红色框内 Downloads 导航栏。 红色框是选择适合自己电脑系统和版本的部分,蓝色框是选择系统的部分,黄色框是版本号。…

【大数据】数据分析之Spark框架介绍

文章目录 概述一、发展历程与背景二、核心特点三、生态系统与组件四、应用场景五、与其他大数据技术的比较 核心概念1. 弹性分布式数据集(RDD, Resilient Distributed Dataset)2. 转换(Transformations)和动作(Actions…

Rust编程的函数

【图书介绍】《Rust编程与项目实战》-CSDN博客 《Rust编程与项目实战》(朱文伟,李建英)【摘要 书评 试读】- 京东图书 (jd.com) Rust编程与项目实战_夏天又到了的博客-CSDN博客 7.1 函 数 定 义 在Rust中,函数使用fn关键字定义,后跟函数…

how to increase the height of the ps or cdm window

when the line reaches the bottom; directly pull up the top bar of the window after pulling down the bar

【Linux】ComfyUI和SD WebUI之PYTHON环境共享,模型共享,LORA等公共资源共享

需求 一般玩AI绘图都会装ComfyUI和SD WebUI。而且这俩的模型、lora等都是一致的。为了避免空间的浪费,一般会采用共享数据的方式。而且共享的数据可以任意指定分区,这让挂载NAS共享空间成为可能,实现多绘画机ComfyUI和SD WebUI共享资源。 实…

攀爬数据集,约500张 !VOC格式,yolo可直接使用~真实场景特征明显高清图,yolo可直接使用!

攀爬数据集,约500张!!! VOC格式,yolo可直接使用~ 真实场景特征明显高清图,yolo可直接使用! 攀爬数据集,约500张!!! VOC格式&#xff0…

用GPT-4o打造LLM+OS(10+实用技能),代码开源,指令曝光,科技演示惊艳全场!

目录 前言 LLM操作系统能力概况(phidata中前5个已经实现): 可以读取/生成文本 拥有比任何单个人类更全面的知识 可以浏览互联网 可以使用现有的软件基础设施(计算器、Python、鼠标/键盘) 可以与其他LLMs通信 可…

一文了解,ARM 工业计算机的发展历程

ARM 工业计算机的发展历程主要经历了以下几个阶段: 早期探索阶段(20 世纪 80 年代 - 90 年代初): 起源背景:20 世纪 80 年代,计算机工业蓬勃发展,英国的 Acorn 公司在这一时期积极探索芯片技术…

Unity实现自定义图集(四)

以下内容是根据Unity 2020.1.0f1版本进行编写的   在之前的篇章中已经把自定义图集在编辑器上的使用,以及运行时所需的信息都准备好了,接下来就是魔改UGUI的Image组件,使其能够像Image那样运行时如果引用的资源有打自定义图集,则加载对应自定义图集的Texture。 1、思路 …

Centos7通过jengkins实现自动发布和回滚

一、安装jenkins 注:这里不多说哈,百度遍地都是,安装方式不限。 二、jenkins创建项目 注:这里有个坑需要说一下,最开始我使用的是maven构建,但是如果按照我的这套方案会有一个编译死循环的问题,…

【Linux】多进程服务器模型(第十九篇)

目录 一、定义与工作原理 二、特点与优势 三、实现与示例 四、注意事项 多进程服务器模型是一种在服务器端使用的并发处理模型,它允许服务器同时处理多个客户端的请求。以下是关于多进程服务器模型的详细介绍: 一、定义与工作原理 定义:…

抽象类Abstart Class

抽象类其实就是一种不完全的设计图 必须用abstract修饰 模板方法:建议使用final修饰,不能被重写。

提高ROI:低代码平台如何助力企业实现成本效益最大化

引言:成本效益与ROI的重要性 在当今竞争异常激烈的商业环境中,企业面临着前所未有的挑战。如何在有限的资源下,最大化投资回报率(ROI),已经成为企业管理者不可忽视的关键课题。ROI不仅仅是衡量投资回报的指…

PROFINET 转 EtherCAT, EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关

EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关https://item.taobao.com/item.htm?ftt&id822721028899 协议转换通信网关 PROFINET 转 EtherCAT GW系列型号 MS-GW31 概述 简介 MS-GW31 是 PROFINET 和 EtherCAT 协议转换网关,为用户提供两…

服装生产管理的数字化转型:SpringBoot框架

4 系统设计 4.1 系统结构设计 在结构设计过程中,首先对系统进行需求分析,然后进行系统初步设计,将系统功能模块细化,具体分析每一个功能模块具体应该首先哪些功能,最后将各个模块进行整合,实现系统结构的…

Javascript动态规划算法

JavaScript中的动态规划(Dynamic Programming,简称DP)是一种通过把原问题分解为相对简单的子问题的方式来求解复杂问题的方法。它主要致力于将“合适”的问题拆分成更小的子目标,并通过建立状态转移方程、缓存并复用以往结果以及按…

【完-网络安全】Shell与脚本

文章目录 1.CLI与GUI2.终端和Shell2.1 Shell 壳层2.2 终端2.3 终端和Shell区别3.标准流 4.PowerShell4.1 管理员与非管理员4.2 指令4.3 重定向4.4 管道 5.环境变量5.1 影响范围5.2环境变量的作用5.3 常见的环境变量 6.脚本 1.CLI与GUI CLI命令行界面(CLl,Command Line Interfa…

作为一名测试工程师如何学习Kubernetes(k8s)技能

前言 Kubernetes(K8s)作为云原生时代的关键技术之一,对于运维工程师、开发工程师以及测试工程师来说,都是一门需要掌握的重要技术。作为一名软件测试工程师,学习Kubernetes是一个有助于提升自动化测试、容器化测试以及云原生应用测试能力的重…

解决:gpg: 从公钥服务器接收失败:服务器故障

当你添加密钥时报错,可以按照下面的步骤,依次输入。 # 停止 Network Manager 服务 sudo service network-manager stop# 删除 Network Manager 的状态文件 sudo rm /var/lib/NetworkManager/NetworkManager.state# 重新启动 Network Manager 服务 sudo …