GB2312转UTF-8部分中文乱码

news2026/2/15 0:43:21

现象

最近写了个txt导入，客户反馈有时候导入的数据，会出现个别中文乱码的现象，但是我之前已经做过编码转换处理了，统一转成了UTF-8。
比如“鞠婧祎”,导入进来是这样：
在这里插入图片描述

排查思路

首先看了一下这个文本的编码格式，用notepad–打开，查看右下角的文件编码格式。
GB18030（简体中文）
然后跟代码，看看代码中文件的编码格式。
GB2312
代码里直接将原文件编码转成UTF-8,

String fileEncode = EncodingDetect.getJavaEncode(file.getAbsolutePath());
Charset charset = Charset.forName(fileEncode);
if (charset != null) {
   FileUtil.convertCharset(file, convertFile, charset , Charset.forName("UTF-8"));
  }

在这里发现转换之后的文件出现了乱码，一番了解后发现，GB2312不支持一些繁体字符或者特殊字符，直接转换就会出现乱码问题。

解决方案

读入GBK或者GB2312格式的文本时统一选择GBK方式读入，然后再保存为UTF-8，这样就不会出错。

String fileEncode = EncodingDetect.getJavaEncode(file.getAbsolutePath());
if ("GB2312".equals(fileEncode)) {
    fileEncode = "GBK";
}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/921347.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

GB2312转UTF-8部分中文乱码

现象

排查思路

解决方案

相关文章

Window Server 与 Windows 系统开关机日志查看方法

低代码平台是为何而生？低代码平台发展前景又如何呢？

放苹果（巧用递归）--夏令营

粒子目标_雨滴

【腾讯云 TDSQL-C Serverless 产品测评】“橡皮筋“一样的数据库『MySQL高压篇』

2023年最新 Github Pages 使用手册

执行jmeter端口不够用报错(Address not available)

CRM系统如何定制？定制哪些功能？

【教程】超人RAR解密助手

根据源码，模拟实现 RabbitMQ - 网络通讯设计，实现客户端Connection、Channel（完结）

Jetpack Compose UI架构

margnalizeHuberJacibian测试Demo

python 包管理工具poetry和异步sanic web框架实践+配置镜像源

潮玩数藏App：数字时代下的潮流收藏新体验

“爱在七夕，情暖人间”店口志愿者开展敬老助残服务活动

好用的电容笔有哪些推荐？开学季便宜好用电容笔推荐

直播app源码，会话描述协议SDP：高质量平台

每年节约3千万！微信实验平台Iceberg湖仓一体架构改造

苍穹外卖 day1 搭建成功环境

清华源的链接太多老崩溃，我把它拷过来，需要什么点什么