StringUTF_16错误认识字节长度

news2024/7/2 21:04:31

众所周知,在 UTF-8 编码中,中文字符通常占用 3 个字节:

import java.nio.charset.StandardCharsets;

/**
 * @author shenyang
 * @version 1.0
 * @info untitled
 * @since 2024/6/30 上午9:42
 */
public class Test {
    public static void main(String[] args) {
        String str = "啊";
        byte[] bytes = str.getBytes(StandardCharsets.UTF_8);
        int byteCount = bytes.length; // 字节数
        System.out.println(byteCount);
    }
}

输出确实符合这个结论。

在这里插入图片描述

而在 UTF-16 编码中,中文字符通常占用 2 个字节:

import java.nio.charset.StandardCharsets;

/**
 * @author shenyang
 * @version 1.0
 * @info untitled
 * @since 2024/6/30 上午9:42
 */
public class Test {
    public static void main(String[] args) {
        String str = "啊";
        byte[] bytes = str.getBytes(StandardCharsets.UTF_16);
        int byteCount = bytes.length; // 字节数
        System.out.println(byteCount);
    }
}

但是运行结果却为 4:

在这里插入图片描述

这是位什么呢?经查阅资料发现:

  • UTF-16 编码中,每个字符通常占用 2 个字节,但在字符串转换为字节数组时,UTF-16 会在字节数组的开头加入一个字节顺序标记BOM),这会额外占用 2 个字节。
  • 因此,UTF-16 编码的结果包含 2 个字节的字节顺序标记和 2 个字节的实际字符编码,总共是 4 个字节。

将字符串修改为两个中文字符。

String str = "啊啊";

相比于原来确实是多出两个字节,证实了结论。

在这里插入图片描述

但是现在还有一个疑问,这个字节顺序标记到底是个什么东西呢?

它是一种用于指示文本文件或数据流中字节顺序(即字节序)的方法。它在某些编码(如UTF-16和UTF-32)中用于标识字节顺序是大端序(Big Endian)还是小端序(Little Endian)。具体来说:

  • 大端序(Big Endian): 高字节(最重要的字节)存储在内存的低地址端。
  • 小端序(Little Endian): 低字节(最重要的字节)存储在内存的低地址端。

在UTF-16编码中,BOM的值是 0xFEFF

  • 如果文件的前两个字节是 0xFE 0xFF,表示文件使用大端序。
  • 如果文件的前两个字节是 0xFF 0xFE,表示文件使用小端序。

当你将字符串转换为UTF-16编码的字节数组时,Java通常会在字节数组的开头添加BOM,以指示字节顺序。这样,接收该字节数组的程序或设备可以根据BOM正确解码字节数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1880275.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习】机器学习的重要方法——强化学习:理论,方法与实践

目录 一、强化学习的核心概念 二、强化学习算法的分类与示例代码 三.强化学习的优势 四.强化学习的应用与挑战 五、总结与展望 强化学习:理论,方法和实践 在人工智能的广阔领域中,强化学习(Reinforcement Learning, RL&…

第3章-数据类型和运算符

#本章目标 掌握Python中的保留字与标识符 理解Python中变量的定义及使用 掌握Python中基本数据类型 掌握数据类型之间的相互转换 掌握eval()函数的使用 了解不同的进制数 掌握Python中常用的运算符及优先级1,保留字与标识符 保留字 指在Python中被赋予特定意义的一…

【操作系统】内存管理——页面分配策略(个人笔记)

学习日期:2024.6.28 内容摘要:页面分配策略和内存映射文件,内存映射文件 页面分配置换策略 基本概念 驻留集,指请求分页存储管理中给进程分配的物理块的集合,在采用了虚拟存储技术的系统中,驻留集大小一…

docker harbor仓库搭建,主从库复制

背景:需要主机安装docker-ce和docer-compose #1.安装相关依赖. yum install -y yum-utils device-mapper-persistent-data lvm2 #2.下载官方的docker yum源文件 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo …

专题三:Spring容器ApplicationContext初始化

前面我们构建好了Spring源码,接下来肯定迫不及待来调试啦,来一起看看大名鼎鼎ApplicationContext 新建模块 1、基础步骤 2、重要文件 build.gradle plugins {id java }group org.springframework version 5.2.6.RELEASErepositories {mavenCentral(…

DDD学习笔记五

模型引力场:聚合 强作用力体现: 某个领域模型是另一些模型存在的前提,没有前者,后者就失去了生存的意义。 一组领域模型之间存在关联的领域逻辑,任何时候都不能违反。 一组领域模型必须以一个完整的、一致的状态呈现给…

专业指南:U盘数据恢复全攻略

一、引言:U盘数据恢复的重要性 在信息化日益发展的今天,U盘已成为我们日常生活中不可或缺的存储设备。然而,由于各种原因,U盘中的数据可能会面临丢失的风险。U盘数据恢复技术便应运而生,它旨在帮助用户找回因误删除、…

多平台自动养号【开心版】偷偷使用就行了!

大家好,今天我无意间发现了一款【多平台自动养号工具】,看了一下里面的功能还是挺全面的,包含了【抖音,快手,小红薯】还有一些截流功能 虽然这款工具功能强大,但美中不足的是需要付费的。但别担心&#xf…

线性结构之栈结构

栈是一种只能从一端存取数据并且遵循“后进先出”原则的线性存储结构。这句话中体现了栈结构的三个特征——只能从一端存取数据,遵循“后进先出”的原则和线性存储结构。因此如果我们要实现一个栈结构的数据结构,就必须要满足这三点要求。提到线性结构&a…

构建高效业财一体化管理体系

构建高效业财一体化管理体系 业财一体化战略意义 提升决策质量 强化数据支撑:通过整合业务与财务数据,为决策提供准确、实时的信息基础,确保分析的深度与广度。促进业务与财务协同:打破信息孤岛,实现业务流程与财务管…

最流行的文件同步软件

PanguFlow是一款免费的文件同步软件,他支持文件的全量同步、支持文件的增量同步、支持文件的实时备份,支持双向同步,支持三向同步甚至多向同步,支持无人值守运行。 PanguFlow数据同步软件下载地址https://pan.baidu.com/s/1GLjFR…

博客都在使用的打字机效果,居然这么简单?

效果展示 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style>body …

在Ubuntu下将pulseaudio换成pipewire

1、为什么要将pulseaudio换成pipewire&#xff1f; PulseAudio 是一个成熟且广泛使用的音频服务器&#xff0c;适合一般桌面音频需求&#xff0c;但在性能和延迟上有一定限制。PipeWire 是一个更现代的解决方案&#xff0c;旨在统一音频和视频处理&#xff0c;提供高性能和低延…

【TB作品】密码锁,ATMEGA128单片机,Proteus仿真

题目 5 &#xff1a;密码锁 使用单片机实现简易密码锁&#xff0c;通过输入密码&#xff0c;实现门锁的开启&#xff08;控制继电器&#xff09;。 具体要求如下&#xff1a; &#xff08;1&#xff09;当输入正确密码后&#xff0c;继电器开启。 &#xff08;2&#xff09;当三…

Java web应用性能分析之【prometheus监控K8s指标说明】

常规k8s的监控指标 单独 1、集群维度 集群状态集群节点数节点状态&#xff08;正常、不可达、未知&#xff09;节点的资源使用率&#xff08;CPU、内存、IO等&#xff09; 2、应用维度 应用响应时间 应用的错误率 应用的请求量 3、系统和集群组件维度 API服务器状态控…

springcloud第4季 seata报could not find any implementation for class

一 问题说明 1.1 描述 在使用seata2.0alibaba-cloud 2022.0.0.0-RC2nacos 2.2.3 模拟下订单分布式事务场景&#xff0c;出现如下问题&#xff1a;java.lang.ArrayIndexOutOfBoundsException: Index 0 out of bounds for length 0 查看服务端&#xff1a;java.util.ServiceCo…

【每日刷题】Day78

【每日刷题】Day78 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 1608. 特殊数组的特征值 - 力扣&#xff08;LeetCode&#xff09; 2. 1385. 两个数组间的距离值 - …

5.x86游戏实战-CE定位基地址

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 本次游戏没法给 内容参考于&#xff1a;微尘网络安全 上一个内容&#xff1a;4.x86游戏实战-人物状态标志位 上一个内容通过CE未知的初始值、未变动的数值、…

在我们的大数据平台(XSailbaot)上进行企业级数据建模的思路

1. 背景 笔者所在的公司是差不多二十年前搞CIM&#xff08;公共信息模型的&#xff09;起家的。当时公司的前辈搞了基于CIS协议的模型服务器、数据服务器、模式编辑器等&#xff0c;形成了一套基于公共信息模型建模的平台系统。其中可视化建模&#xff0c;建好了模式类以后&am…

《昇思25天学习打卡营第17天 | 昇思MindSporeCycleGAN图像风格迁移互换》

17天 本节学习了CycleGAN图像风格迁移互换。 CycleGAN即循环对抗生成网络&#xff0c;该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。该模型一个重要应用领域是域迁移&#xff0c;可以通俗地理解为图像风格迁移。其实在 CycleGAN 之前&a…