文件编码、转换、乱码问题

news2024/9/22 13:35:12

文件编码

用来表示文本内容的字符集和字符编码方式,决定了在文本文件中使用的字符集和字符的二进制表示方式。常见的文件编码包括 UTF-8、UTF-16、ASCII、ISO-8859-1 等。选择文件编码时,需要考虑到所支持的字符集范围、编码方式对特定语言的支持程度以及文件大小等因素。

服务器编码

服务器用于传输数据的编码方式。常见的服务器编码包括 UTF-8、UTF-16、ASCII、ISO-8859-1 等当浏览器向服务器请求数据时,服务器需要确定将数据以何种编码方式发送。通常服务器会检查请求的 HTTP 头部信息中的 Accept-Encoding 字段,以确定客户端支持的编码方式,然后选择相应的编码方式将数据传输给客户端。

文件编码和服务器编码 什么关系

文件编码决定了文件的内容如何存储,而服务器编码则影响了数据在传输过程中的格式。如果文件是以 UTF-8 编码保存的,而服务器又根据请求选择了压缩传输(比如 gzip 压缩),则服务器在传输文件内容时可能会先将 UTF-8 编码的文件进行压缩,然后再发送给客户端

确保文件编码和服务器编码相互兼容避免在数据传输过程中出现乱码或者不正确解析的问题

文件乱码

文件乱码通常是因为文件的实际内容和读取或解析该内容的编码存在不匹配,导致无法正确解释字符的编码方式。以下是一些常见的导致文件出现乱码的情况:

  1. 文件编码方式!=解码方式: 如果文件实际的编码方式与使用的解码方式不匹配,就会导致乱码。例如,用 UTF-8 编码保存的文件,但使用了其他编码(如 ANSI、GBK)来解码读取文件内容,就可能导致乱码。

  2. 文件损坏或损坏的数据传输: 文件在传输过程中可能会损坏,导致部分数据丢失或损坏。这可能发生在文件传输时出现网络问题或存储介质损坏等情况下。

  3. 软件解析错误: 有时文件内容包含特殊字符或格式,但解析该文件的软件或工具无法正确处理这些字符或格式,导致乱码显示。

  4. 错误的文本处理方式: 在处理文本文件时,如果不正确地处理了特殊字符(例如换行符、制表符等),或者在进行文本编辑时使用了不受支持的字符或格式,可能会导致文件乱码。

  5. 文件类型和扩展名不匹配: 如果文件的实际内容与文件扩展名或类型不匹配,某些软件可能会尝试使用不正确的方式解析文件内容,导致乱码。

乱码问题的本质 是写文件时 Encoding方式和解析文件时的encoding不一致。比如GBK的文件 用UTF-8进行解析。但服务器编码方式是控制传输,也就是说,传输方式并不是乱码的原因。比如UTF-8的文件,用GBK的服务器传输、接收,但使用相同的UTF-8进行解析,文件也不会乱码。重点在于 写、读的编码一致。

如何正确的将GBK转UTF-8(实际上是unicode转UTF-8)
//源码文件是GBK格式,或者这个字符串是从GBK文件中读取出来的
string gbkstr ="你好!”
//利用getBytes将unicode字符串转成UTF-8格式的字节数组
byte[] utf8Bytes = gbkstr.getBytes("UTF-8")
//然后用utf-8 对这个字节数组解码成新的字符串
String utf8str = new String(utf8Bytes,"UTF-8");

//简化后代码
func unicodeToUtf8 (string s)  {
//保证 写str用utf-8 ,文件转换用utf-8 ;所以第一个参数不是GBK 
return new String( s.getBytes("utf-8") ,"utf-8");
}

避免文件乱码

确保文件的编码方式和使用的解码方式相匹配

在文件传输或处理过程中保持数据的完整性

如何查看文件、服务器编码

file -i filename

locale

#en_US.UTF-8 表示使用美国英语环境且字符编码为 UTF-8。
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1229130.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学了Python不做全职,那么可以靠哪些兼职赚到钱?

如果学了Python不做全职工作,那么可以靠哪些兼职赚到钱? 今天我们就来看看一位有着4年开发经验的老鸟的分析回答,希望对你有所帮助。 emmm… 以我差不多四年的 Python 使用经验来看,大概可以按以下这些路子来赚到钱,…

【reading notes】

文章目录 中文AA 或 AAAAAAAAAAA,BBBBAAAA,BBBB,CCCCAAAA,BBBB,CCCC,DDDDAAAAAAAAAA,BBBBBAAAAA,BBBBB,CCCCC(肆)AAAAA,BBBBB&#xf…

pyqt5切换到pyqt6遇到问题

pyqt5切换到pyqt6变更点 FramelessWindowHint Qt.FramelessWindowHint Qt.WindowType.FramelessWindowHint globalPos event.globalPos() event.globalPosition() LeftButton Qt.LeftButton Qt.MouseButton.LeftButton StrongFocus Qt.StrongFocus Qt.FocusPolicy.Stro…

助力安全生产--韩施电气为您提供电动机保护及电机故障解决方

上海韩施电气自成立于2008年,是一家专门从事销售电气自动化设备、电力设备、机电设备的综合型贸易公司,公司自成立以来一直专注于EOCR产品的推广销售和技术服务,成为韩国施耐德EOCR在国内的总代理,并授予代理证书,我们…

CNCC 2023 | 大模型全面革新推荐系统!产学界多位大咖精彩献言

随着人工智能领域的不断突破,大模型的潮流已然席卷而来。大模型一跃成为时代的新宠,展现出强大的通用性和泛化能力,为 AI 技术的应用进一步打开了想象空间。与此同时,推荐系统作为大规模机器学习算法应用较为成熟的方向之一&#…

谈谈系统性能调优中都需要考虑哪些因素

一、 什么是性能调优? 这个系统好慢、网站又打不开了,太卡了,又没响应了,相信大家都遇到过用户的这种抱怨,此时,说明我们的应用系统出现了性能问题,那么怎么办呢,首先想到的应该是优…

磁钢的居里温度和工作温度

你知道吗,磁体在超过一定温度时会永久的失磁,不同的磁体能够承受的最大工作温度是不同的,那么与温度相关的指标有哪些?如何根据工作温度来选择合适的磁钢?今天我们就来解答一下这些问题。 居里温度 说到温度与磁性关…

深入分析高性能互连点对点通信开销

今天分享最近阅读的一篇文章:“Breaking Band,A Breakdown of High-Performance Communication”,这篇文章发表在ICPP 2019会议。由加州大学欧文分校和ARM公司合作完成。从题目中可以看到,这篇文章是一篇评测型的文章,…

大厂秋招真题【单调栈】Bilibili2021秋招-大鱼吃小鱼

文章目录 题目描述与示例题目描述输入描述输出描述示例一输入输出说明 示例二输入输出说明 解题思路代码PythonJavaC时空复杂度 华为OD算法/大厂面试高频题算法练习冲刺训练 题目描述与示例 题目描述 小明最近喜欢上了俄罗斯套娃、大鱼吃小鱼这些大的包住小的类型的游戏。 于…

汇编-loop循环指令

LOOP指令是根据ECX计数器循环,将语句块重复执行特定次数。 ECX自动作为计数器, 每重复循环一次就递减1。 语法如下所示: 循环目的地址必须在距离当前位置计数器的-128到127字节范围内 LOOP指令的执行有两个步骤: 第一步&…

记一次线上bug排查-----SpringCloud Gateway组件 请求头accept-encoding导致响应结果乱码

基于公司的业务需求,在SpringCloud Gateway组件的基础上,写了一个转发服务,测试开发阶段运行正常,并实现初步使用。但三个月后,PostMan请求接口,返回异常,经排查,从日志中获取到转发…

js高效函数库Lodash.js

Lodash 是一个 JavaScript 的实用工具库,提供了许多实用且高效的函数,可以简化 JavaScript 编程中的常见任务。 Lodash具有高性能、模块化和易用性等特点,表现一致性以及可扩展,下面将介绍一些 Lodash 的重要特性和用法&#xff1…

解决 VS2022 关于 c++17 报错: C2131 表达式必须含有常量值

使用 VS2022 编译 ORB-SLAM3 加载Vocabulary 二进制ORBvoc.bin 时,在 DBOW2 里修改 TemplatedVocabulary.h 代码显示这样的错误: 编译器错误 C2131 表达式的计算结果不是常数 定位到我的代码中: char buf [size_node] ; 原因 : …

Ultipa Transporter V4.3.22 即将发布,解锁更多易用功能!

Ultipa Graph 作为一款领先的实时图数据库分析平台,即将发布最新版的数据导入/导出工具Ultipa Transporter V4.3.22 以实现对 Neo4j数据源的导入支持。自今年以来,Ultipa Transporter不断增加新功能,除原本支持本地CSV文件导入导出外&#xf…

修改bat文件默认编辑软件

Windows默认编辑bat文件的软件是自带的文本编辑器。无法高亮显示bat中的命令。 修改方式一: 打开注册表文件,变更键值 HKEY_CLASSES_ROOT\batfile\shell\edit\command 对应软件地址 修改方式二: 制作批处理文件,代码如下&#x…

github 开源whisper ros llm

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision openai whisper ROS LLM https://github.com/Auromix/ROS-LLM/tree/ros2-humble/llm_input

我理解的反射

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 我之前对反射的理解未必…

uni-app:前端实现心跳机制(全局)+局部页面控制心跳暂停和重新心跳

一、App.vue全局中写入心跳 在data中定义变量heartbeatTimer,便于暂停心跳使用在onLaunch中引用开始心跳的方法startHeartbeat()写入开始心跳方法写入暂停心跳方法写入请求后端刷心跳机制 定义变量 // 在全局设置的心跳机制中添加一个变量来保存定时器的标识 data(…

利用API连接抖音外卖与电商平台和营销系统,实现无代码开发的集成

利用API连接抖音外卖和电商平台 抖音来客,作为抖音生活服务商家经营平台,为商家提供一站式经营服务,其中包括入驻、上品、经营和履约等功能。商家可以通过API调用,实现电商平台和抖音外卖的连接,从而优化运营效率。例…