Java码农的福音:再也不怕乱码了

news2025/2/22 18:22:01

即便是Java这样成熟的语言,开发者们也常常会遇到一个恼人的问题——乱码。

本文将深入探讨乱码的根本原因,并针对Java开发中的乱码场景提出有效的解决方案,辅以实战代码,让Java程序员从此告别乱码困扰。

一,字符集的故事

1,计算机不懂字符

敲代码时,键盘上输入的是字符,屏幕上显示的是字符,但计算机的大脑CPU其实根本不知道字符是什么,CPU能处理的只有二进制,即数字0和1。

在这里插入图片描述
键盘上敲下的字符并不会直接被CPU处理,而是转换为一个二进制,CPU将这个二进制交给GPU,GPU根据❶二进制对应的数字从❷字库中找到对应的字符,以点阵的方式显示在屏幕上。在计算机内部,字符始终是二进制的形式。

上述过程有两个关键点:
❶二进制对应的数字,是字符的编号,称之为码点
❷字库包含所有字符及其对应的码点,称之为字符编码集

2,4个基本概念

为了更清晰的认知字符的原理,出来上述码点和字符编码集之外,还有2个概念,总共是4个基本概念:

  • 字符集合(Character set):是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等,简单理解就是一个字库,与计算机以及编码无关。

  • 字符编码集(Coded character set):是一组字符对应的编码(即数字),为字符集合中的每一个字符给予一个数字,如 Unicode 为每一个字符分配一个唯一的码点与之一一对应。如下图所示:

在这里插入图片描述

  • 字符编码(Character Encoding):简单理解就是一个映射关系,将字符集对应的码点映射为一个个二进制序列,从而使得计算机可以存储和处理。常见的编码方式有 ASCII 编码、ISO-8859-1(不支持中文)、GBK、GB2312(中国编码,支持中文)、UTF-8 等等。字符编码的本质就是把码点通过一个映射函数转换为另一个数字。

这里大家要思考一个问题,码点不就是一个数字吗?直接转换为二进制不就行了吗,为什么又要转换为另一个数字呢?
答案要从字符集的发展历史说起,因为计算机产生在英语国家,字符比较少,所以只需要一个字节就可以表示所有字符,这个表示所有英文世界的字符就是大名鼎鼎的ASCII字符编码集
当计算机出现在其他国家后,比如中国,ASCII字符编码集无法表示中文字符,因为其最多只能表示128个字符,而中文字符有几万个。所以非英语国家也各自制定了字符集。如中国大陆的简体字GBK字符编码集,港澳台的繁体字Big5字符编码集,这样全世界就出现了各种各样的字符编码集。
后来,一种包含全世界所有字符的字符编码集出现了,即UTF-32,这个字符编码集用4个字节来表示一个字符,4个字节最多能容纳超过42亿个字符,远远超过了实际需要。但是这个字符集会浪费大量的存储空间,如对于英文字符,本来只要1个字节,但是使用UTF-32,也要占用4个字节,扩大了4倍。
④解决这个问题的最佳方案是弹性灵活的根据码点选择不同的编码方式,比如英文字母用一个字节的二进制,中文字母用2个字节的二进制,某些特殊符号用3个或者4个字节存储。此时,情况就变得复杂起来,不能直接用码点对应的二进制来存储了,因为新编码的二进制是变长的,可能是一个字节,也可能是2、3、4个字节,这就要求二进制编码不仅要包含码点信息,还要包含二进制的长度信息。于是,将码点映射为一个新的二进制数字的需求就出现了,这个功能称之为字符编码。

  • 字符集(Charset):包括编码字符集和字符编码,如 ASCII 字符集、ISO-8859-X、GB2312 字符集(简中)、BIG5 字符集(繁中)、GB18030 字符集、Shift-JIS 等,即下文中提到的字符集。多种多样的字符集是出现乱码的罪魁祸首

二,为什么会乱码及其解决方案

1,乱码案例

尽管有UTF-8字符集,但因为各种原因,各个字符集仍然有广泛的应用。于是,乱码的出现了。

比如,大陆的兄弟写了一个文本文件,因为操作系统的原因,默认用GBK保存,这个文件通过邮件发送给了香港的同学,香港的计算机操作系统默认使用Big5字符集,香港同学打开时,出现了乱码。
在这里插入图片描述
根本原因是,相同的码点在GBK字符集和Big5字符集表示不同的字符,比如GBK下“兄”的码点是48019,但是在Big5字符集下,并没有这个码点,就会出现乱码。

总结乱码的一般过程:
①写文件使用字符集A进行编码;
②读文件使用字符集B进行解码;

2,乱码的本质:字符集的牛唇不对马嘴

出现乱码,最根本的原因是编码和解码使用了不同的字符集

3,乱码的解决方案

知道了根本原因之后,解决问题就有了思路,解码和编码使用相同的字符集就可以解决乱码问题。

虽然,乱码的表现方式各种各样,需要我们在处理具体的乱码场景时不断积累经验,但万变不离其宗,根本原因还是编码、解码的字符集不一致导致的。

四,Java乱码的常见场景及解决方案

Java内部使用Unicode(通常是UTF-16)作为字符集,这意味着Java源代码、字符串字面量、以及char类型的变量都默认使用Unicode编码。但在输入输出、网络传输、文件操作等环节,Java需要与外部环境交互,这就容易因为编码不一致而导致乱码。

1. 控制台输出乱码

场景:在IDE(如Eclipse、IntelliJ IDEA)中运行Java程序,控制台输出中文时出现乱码。

原因:IDE使用的默认字符编码与Java虚拟机(JVM)的默认编码不一致。

解决方案

  • 修改IDE设置:在IDE中设置项目的字符编码为UTF-8。
    • 例如,在Eclipse中,可以通过右击项目 > Properties > Resource > Text file encoding 设置为UTF-8。
  • 启动参数设置:通过JVM参数指定编码。
    // 在程序启动参数中添加以下内容
    -Dfile.encoding=UTF-8
    

2. 文件读写乱码

场景:读取或写入含有中文的文本文件时出现乱码。

原因:文件的实际编码与程序中指定的编码不匹配。

解决方案

  • 明确指定编码:使用InputStreamReaderOutputStreamWriter时显式指定字符编码。
    // 写文件示例
    try (FileOutputStream fos = new FileOutputStream("test.txt");
         OutputStreamWriter osw = new OutputStreamWriter(fos, StandardCharsets.UTF_8)) {
        osw.write("你好,世界!");
    }
    
    // 读文件示例
    try (FileInputStream fis = new FileInputStream("test.txt");
         InputStreamReader isr = new InputStreamReader(fis, StandardCharsets.UTF_8)) {
        char[] buffer = new char[1024];
        int len;
        while ((len = isr.read(buffer)) != -1) {
            System.out.print(new String(buffer, 0, len));
        }
    }
    

3. 网络传输乱码

场景:在进行HTTP请求或响应时,中文参数或内容出现乱码。

原因:HTTP协议默认使用ISO-8859-1编码,不支持中文等多字节字符。

解决方案

  • URL编码与解码:对中文参数进行URL编码和解码。

    // 编码
    String encodedParam = URLEncoder.encode("中文参数", StandardCharsets.UTF_8);
    
    // 解码
    String decodedParam = URLDecoder.decode(encodedParam, StandardCharsets.UTF_8);
    
  • 设置Content-Type:在HTTP请求或响应头中指定正确的字符编码。

    对于客户端请求:

    HttpURLConnection connection = (HttpURLConnection) url.openConnection();
    connection.setRequestProperty("Content-Type", "application/x-www-form-urlencoded; charset=utf-8");
    

    对于服务器端响应:

    response.setCharacterEncoding("UTF-8");
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1680245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件存储解决方案-阿里云OSS

文章目录 1.菜单分级显示问题1.问题引出1.苹果灯,放到节能灯下面也就是id大于1272.查看菜单,并没有出现苹果灯3.放到灯具下面id42,就可以显示 2.问题分析和解决1.判断可能出现问题的位置2.找到递归返回树形菜单数据的位置3.这里出现问题的原因…

什么是最大路径?什么是极大路径?

最近学习中,在这两个概念上出现了混淆,导致了一些误解,在此厘清。 最大路径 在一个简单图G中,u、v之间的距离 d ( u , v ) min ⁡ { u 到 v 的最短路的长度 } d(u,v) \min \{ u到v的最短路的长度 \} d(u,v)min{u到v的最短路的…

音乐的力量

常听音乐的好处可以让人消除工作紧张、减轻生活压力、避免各类慢性疾病等等,其实这些都是有医学根据的。‍ 在医学研究中发现,经常的接触音乐节 奏、旋律会对人体的脑波、心跳、肠胃蠕动、神经感应等等,产生某些作用,进而促进身心…

Postman基础功能-接口返回值获取

大家好,之前给大家分享关于Postman的接口关联,我们平时在做接口测试时,请求接口返回的数据都是很复杂的 JSON 数据,有着多层嵌套,这样的数据层级在 Postman 中要怎么获取呢? 接下来给大家展示几个获取 JSO…

容联云零代码平台容犀desk:重新定义坐席工作台

在数智化浪潮的推动下,企业亟待灵活适应市场变化、快速响应客户需求,同时还要控制成本并提升效率,传统的软件开发模式因开发周期长、成本高、更新迭代慢等问题,逐渐难以满足企业灵活多变的业务需求。 容犀Desk,观察到…

(1)双指针算法介绍与练习:移动零

目录 双指针算法介绍 练习:移动零 双指针算法介绍 双指针算法常见于数组和双向链表的题型 在数组中,双指针中的指针代表数组元素的下标,而不是真正的指针类型变量 在双向链表中,双指针中的指针即为真正意义上的指针&#xff…

Windows安装Django

1、下载Python程序包 Python程序包官网下载地址Download Python | Python.org,若下载最新版本,有最新版本则下载"Windows installer (64-bit)" 若是下载其他版本,可在下图位置找到相应的版本,然后点击Download.如下图所示: 打开后查看注意事项…

开源连锁收银系统哪个好

针对开源连锁收银系统的选择,商淘云是一个备受关注的候选。商淘云以其功能丰富、易于定制和稳定性等优势,吸引了众多企业和开发者的关注。下面将从四个方面探讨商淘云开源连锁收银系统的优势: 首先,商淘云提供了丰富的功能模块。作…

Retrying,一个神奇优雅的 Python 库

大家好!我是爱摸鱼的小鸿,关注我,收看每期的编程干货。 一个简单的库,也许能够开启我们的智慧之门, 一个普通的方法,也许能在危急时刻挽救我们于水深火热, 一个新颖的思维方式,也许能…

Docker安装Mosquitto

在物联网项目中,我们经常用到MQTT协议,用MQTT协议做交互就需要部署一个MQTT服务,而mosquitto是一个常用的MQTT应用服务, Mosquitto是一个实现了消息推送协议MQTT v3.1的开源消息代理软件。MQTT(Message Queuing Teleme…

AI大模型日报#0515:Google I/O大会、 Ilya官宣离职、腾讯混元文生图大模型开源

导读:欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”(ERNIE 4.0)、“零一万物”(Yi-34B)生成了今日要点以及每条资讯的摘要。 《AI大模型日报》今日要点:谷歌…

Java 自然排序和比较器排序区别?Comparable接口和Comparator比较器区别?

注:如果你对排序不理解,请您耐心看完,你一定会明白的。文章通俗易懂。建议用idea运行一下案例。 1)自然排序和比较器排序的区别? 自然排序是对象本身定义的排序规则,由对象实现 Comparable 接口&#xff…

什么?你设计接口什么都不考虑?

如果让你设计一个接口,你会考虑哪些问题? 1.接口参数校验 接口的入参和返回值都需要进行校验。 入参是否不能为空,入参的长度限制是多少,入参的格式限制,如邮箱格式限制 返回值是否为空,如果为空的时候是…

代码随想录算法训练营第二十九天 | 39. 组合总和、40.组合总和II、131.分割回文串

39. 组合总和 题目链接/文章讲解: 代码随想录 视频讲解:带你学透回溯算法-组合总和(对应「leetcode」力扣题目:39.组合总和)| 回溯法精讲!_哔哩哔哩_bilibili 解题思路 这里和组合不同的是元素可以重复选取…

2024 Google I/O大会:全方位解读最新AI技术和产品

引言: 2024年的Google I/O大会如期举行,作为技术圈的年度盛事之一,谷歌展示了其在人工智能领域的最新进展。本次大会尤其引人注目,因为它紧随着OpenAI昨天发布GPT-4o的脚步。让我们详细解析Google此次公布的各项新技术和产品&…

【C语言】6.C语言VS实用调试技巧(1)

文章目录 1.什么是 bug2.什么是调试(debug)?3.Debug 和 Release4.VS调试快捷键4.1 环境准备4.2 调试快捷键 5.监视和内存观察5.1 监视5.2 内存 1.什么是 bug bug现在一般是指在电脑系统或程序中,隐藏着的一些未被发现的缺陷或问题…

计算机系列之排序算法

20、排序算法 1、直接插入排序(这里以从小到大排序为例) ◆要注意的是,前提条件是前i-1个元素是有序的,第i个元素依次从第i-1个元素往前比较,直到找到一个比第i个元素值小的元素,而后插入,插入…

战网国际服怎么下载 暴雪战网一键下载安装图文教程

战网国际版,或称为Battle.net全球版,是暴雪娱乐构建的一项跨越国界的综合游戏交流平台,它无视地理限制,旨在服务全球每一个角落的游戏爱好者。不同于地区专属版本,国际版为玩家开启了一扇无门槛的大门,让每…

使用virtualbox和vagrant搭建centos环境报错问题解决

启动提示下面的异常: Timed out while waiting for the machine to boot. This means that Vagrant was unable to communicate with the guest machine within the configured ("config.vm.boot_timeout" value) time period.If you look above, you sh…

多区域OSPF路由配置

一、基础配置 1.搭建实验拓扑图 2.实验编址 具体如何配置可以看这一篇详细的博文:单区域OSPF实验-CSDN博客 3.分别检查六个路由器的配置: 使用命令display ip interface brief R1的配置 其他大家可以调出来,再与实验拓扑图进行比对&#…