Android开发常见问题:字符串乱码问题

news2024/9/27 21:23:24

前言

最近的项目里遇到了字符串乱码的问题,记录一下研究心得。

正文

一、byte数组如何保存字符串

通常情况下,数据的传输和读取都是通过socket,读取socket需要使用byte数组,例如要写入一个字符串到socket中,我们需要先把String转成byte数组:

val s = "123"
// kotlin默认的编码格式是Charsets.UTF_8
val byteArray = s.toByteArray()

对方收到了byte数组后,会再调用

val s1 = byteArray.toString(Charsets.UTF_8)

首先确认一下byteArray里面到底是怎么保存字符串的:

val byteArray = s.toByteArray()
println("byteArray size:${byteArray.size}")
byteArray.forEach {
    println(it)
}

// 输出结果
49
50
51

如果你熟悉Unicode编码,你能很快看出来,其实byte数组里就是分别存了1,2,3三个字符的Unicode编码,转成字符串的时候就根据编码查找对应的字符拼接起来。

二、为什么会有乱码

乱码指的是字符解码错误导致显示的字符混乱的现象。我们已经知道byte数组里是按照指定的编码格式保存字符对应的unicode码,显而易见会有两种可能导致乱码:

1、编码格式与解码格式不匹配

这是一种非常常见的错误,比如服务端数据没有指定utf-8格式,客户端根据utf-8去解码得到的数据就是一团乱码,或者本地保存的文件是gbk,用utf-8打开看到的内容就是一坨乱码。解决的方法也很简单,修改编码和解码格式匹配就可以了。

2、byte数组里的unicode码,系统不支持

如果unicode码系统不支持,有两种可能:

  1. 系统字符集有问题,不支持此unicode。这种情况一般是系统字符集不全导致的部分字符显示不出来或乱码,只需要更新最新的字符集即可;
  2. 系统字符集是完整的,确实不存在对应的字符,显示的时候系统可能会显示成其他字符;

Unicode码不能是负数,目前Android系统支持0~65535之间的unicode码,如果是范围以外的值,那么需要确认数据的来源是否正确,例如unicode码传错了,或者中间有数据转换异常。

三、如何去掉乱码

  1. 如果是编码格式和解码异常不匹配导致的乱码,需要修改两者一致;
  2. 如果是系统字符集问题,那么需要更新系统字符集;
  3. 确认乱码的unicode,小于等于32考虑使用trim或者根据unicode自行删除;

前两种问题都比较好解决,第三种情况比较特殊,我遇到的问题是数据源的unicode码是0:

var s = "123"
s = s.plus(0.toChar())
println(s)

在这里插入图片描述
可以在网上搜索一下unicode字符表:
在这里插入图片描述
从表格查到unicode = 0表示空字符,但是在不同系统上空字符显示的效果不一样,有的是不可见,有的像我截图的这样是一个其他的字符。接下来我们看一下String源码中的trim方法:

public String trim() {
    int len = length();
    int st = 0;

    while ((st < len) && (charAt(st) <= ' ')) {
        st++;
    }
    while ((st < len) && (charAt(len - 1) <= ' ')) {
        len--;
    }
    return ((st > 0) || (len < length())) ? substring(st, len) : this;
}

trim一般用来去掉字符串头部和尾部的空白字符,按照源码的逻辑,只要是unicode码小于等于空格都会被删掉,从表中查到空格的unicode码是32,所以unicode小于等于32的字符都会被删掉。像我这种情况使用trim就可以有效的去掉乱码。

unicode可以超过65535吗,按照我的实测是不会,目前我们的系统都是16位,那么最多就是65535。比较常见的问题还有:

为什么Java最多只能标识65535个字符
Java代码中一个方法代码不能超出65535字节

目前看String.trim方法已经能覆盖到几乎所有的情况了,所以第三种情况优先考虑使用trim。

4、Kotlin的String.trim和Java的String.trim

刚才Java的String.trim已经看过了,但是Kotlin对String.trim进行了覆盖:

/**
 * Returns a string having leading and trailing whitespace removed.
 */
@kotlin.internal.InlineOnly
public inline fun String.trim(): String = (this as CharSequence).trim().toString()

/**
 * Returns a sub sequence of this char sequence having leading and trailing whitespace removed.
 */
public fun CharSequence.trim(): CharSequence = trim(Char::isWhitespace)

/**
 * Returns a sub sequence of this char sequence having leading and trailing characters matching the [predicate] removed.
 */
public inline fun CharSequence.trim(predicate: (Char) -> Boolean): CharSequence {
    var startIndex = 0
    var endIndex = length - 1
    var startFound = false

    while (startIndex <= endIndex) {
        val index = if (!startFound) startIndex else endIndex
        val match = predicate(this[index])

        if (!startFound) {
            if (!match)
                startFound = true
            else
                startIndex += 1
        } else {
            if (!match)
                break
            else
                endIndex -= 1
        }
    }

    return subSequence(startIndex, endIndex + 1)
}

Kotlin的String.trim被覆盖为:只删掉头部和尾部的空白字符:

public static boolean isWhitespace(int codePoint) {
   // We don't just call into icu4c because of the JNI overhead. Ideally we'd fix that.
    // Any ASCII whitespace character?
    if ((codePoint >= 0x1c && codePoint <= 0x20) || (codePoint >= 0x09 && codePoint <= 0x0d)) {
        return true;
    }
    if (codePoint < 0x1000) {
        return false;
    }
    // OGHAM SPACE MARK or MONGOLIAN VOWEL SEPARATOR?
    if (codePoint == 0x1680 || codePoint == 0x180e) {
        return true;
    }
    if (codePoint < 0x2000) {
        return false;
    }
    // Exclude General Punctuation's non-breaking spaces (which includes FIGURE SPACE).
    if (codePoint == 0x2007 || codePoint == 0x202f) {
        return false;
    }
    if (codePoint <= 0xffff) {
        // Other whitespace from General Punctuation...
        return codePoint <= 0x200a || codePoint == 0x2028 || codePoint == 0x2029 || codePoint == 0x205f ||
            codePoint == 0x3000; // ...or CJK Symbols and Punctuation?
    }
    // Let icu4c worry about non-BMP code points.
    return isWhitespaceImpl(codePoint);
}

就以我遇到的unicode是0,这里返回的是false,所以没办法去掉乱码。如果你用的Kotlin又想要使用Java的String.trim方法,只能自己实现:

String.trim { it <= ' ' })

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/985027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis-带你深入学习数据类型Hash【面试重点】

目录 1、基础知识 2、相关命令 2.1、hset、hget 2.2、hexists 2.3、hdel 2.4、hkeys、hvals、hgetall 2.5、hmget、hmset 2.6、hlen 2.7、hsetNX 2.8、Hincrby、Hincrbyfloat 3、应用场景-缓存 4、缓存方式对比 1、基础知识 redis中存储数据本身就是以键值对的形式…

华为OD机试 - 真正的密码 - 数据结构list(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路具体解题思路&#xff1a; 五、Java算法源码六、效果展示1、输入2、输出 华为OD机试 2023B卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#…

智慧商城项目

智慧商城 - 授课大纲 接口文档&#xff1a;https://apifox.com/apidoc/shared-12ab6b18-adc2-444c-ad11-0e60f5693f66/doc-2221080 演示地址&#xff1a;http://cba.itlike.com/public/mweb/#/ 01. 项目功能演示 1.明确功能模块 启动准备好的代码&#xff0c;演示移动端面…

视频用二维码怎么分享?扫码看视频在线制作方法

怎么将本地的视频生成二维码呢&#xff1f;相信很多小伙伴经常会储存许多自己喜欢的视频&#xff0c;那么如果想要给多人分享时&#xff0c;一个个发送会比较麻烦&#xff0c;那么将视频生成二维码就是提高分享效率的一种方式。制作视频二维码的方法也很简单&#xff0c;使用二…

【python】PySide中QMessageBox设置中文按钮及使用

PyQt、PySide使用QMessageBox的时候会发现按钮都是英文的&#xff0c;对于中文的应用软件来说会降低使用体验。本文将以问答对话框为例&#xff0c;介绍如何设置中文按钮&#xff0c;以及如何使用。 实验环境 本文实验环境为&#xff1a;Windows 10&#xff0c;Python 3.8&am…

UI基础——UGUI源码架构

文章目录 如何阅读源码UGUI源码整体架构源码整体类图事件模块EventSystem类图点击事件时序图 参考&#xff1a; 如何阅读源码 阅读源码是提高编程能力和技术水平的重要途径之一。以下是一些有效的阅读源码的方法&#xff1a; 确定目标&#xff1a;&#xff08;1&#xff09;了…

Linux系统中实现便捷运维管理和远程访问的1Panel部署方法解析

文章目录 前言 前言 1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。高效管理,通过 Web 端轻松管理 Linux 服务器&#xff0c;包括主机监控、文件管理、数据库管理、容器管理等下面我们介绍在Linux 本地安装1Panel 并结合cpolar 内网穿透工具实现远程访问1Panel 管理…

【C刷题训练营】第三讲(c语言入门训练)

前言: 大家好&#xff0c;我决定日后逐渐更新c刷题训练营的内容&#xff0c;或许能帮到入门c语言的初学者&#xff0c;如果文章有错误&#xff0c;非常欢迎你的指正&#xff01; &#x1f4a5;&#x1f388;个人主页:​​​​​​Dream_Chaser&#xff5e; &#x1f388;&…

如何做见效快的SEO推广?

答案是&#xff1a;见效快的推广可以选择谷歌SEO谷歌Ads双向运营。 关键词研究 对于任何SEO推广&#xff0c;一切始于准确的关键词研究。 使用专业工具 利用如SEMrush、Ahrefs等工具&#xff0c;找到与你业务相关&#xff0c;但竞争程度较低的关键词。 分析竞争对手 查看…

Mysql性能调优——1.深入理解Mysql索引数据结构和算法

本系列所说的Mysql性能调优&#xff0c;主要是针对开发者在实际环境中的sql调优&#xff0c;代码层面上的优化。不涉及到mysql底层代码的调优。 我们知道&#xff0c;一个mysql数据表&#xff0c;数据量小的时候&#xff0c;可能简单的查询耗时不会太久&#xff0c;性能也可以…

孤儿僵尸守护进程的简单理解

孤儿进程&#xff1a; 一个父进程退出&#xff0c;而它的一个或多个子进程还在运行&#xff0c;那么那些子进程将成为孤儿进程。孤儿进程将被init进程所收养&#xff0c;并由init进程对它们完成状态收集工作。 如何模仿一个孤儿进程&#xff1a; 答案是&#xff1a; kill 父…

Docker基础入门:Docker基础总结篇--超详细

Docker基础入门&#xff1a;Docker基础总结篇[docker3要素、docker安装配置、容器使用、镜像管理发布] 一、Docker 3要素1.1、镜像&#xff08;Image&#xff09;1.2、容器&#xff08;Container&#xff09;1.3、仓库&#xff08;Registry&#xff09;1.4 、总结 二、Docker安…

2023 年高教社杯全国大学生数学建模竞赛-E 题 黄河水沙监测数据分析详解+思路+Python代码

2023 年高教社杯全国大学生数学建模竞赛-E 题 黄河水沙监测数据分析 十分激动啊啊啊题目终于出来了&#xff01;&#xff01;官网6点就进去了结果直接卡死现在才拿到题目&#xff0c;我是打算A-E题全部做一遍。简单介绍一下我自己&#xff1a;博主专注建模四年&#xff0c;参与…

手写Spring:第12章-基于JDK、Cglib实现AOP切面

文章目录 一、目标&#xff1a;基于JDK、Cglib实现AOP切面二、设计&#xff1a;基于JDK、Cglib实现AOP切面三、实现&#xff1a;基于JDK、Cglib实现AOP切面3.0 引入依赖3.1 工程结构3.2 AOP切点表达式和使用以及基于JDK和CGLIB的动态代理类图3.3 切点表达式3.3.1 类匹配接口3.3…

一生一芯10——verilator v5.008环境搭建

搜索 verilator 官网&#xff0c;得到网址如下&#xff1a; https://www.veripool.org/verilator/ 点击download 找到 git quick install 可以看到git快捷安装所需命令行 可以看到&#xff0c;需要预先安装下面的包文件&#xff0c;去掉前面的#注释符号进行安装 直接进行下面…

全力助推徐工集团转型升级,迅镭激光智能装备展现硬核实力!

在江苏省徐州市&#xff0c;工程机械产业集群在成功入选首批国家先进制造业集群后&#xff0c;正加快向世界级先进制造业集群跃升。徐工集团作为徐州市“343”创新产业集群“一号产业”链主企业&#xff0c;正发挥着“领头雁”作用。 为了把徐州市“全球工程机械之都”名片擦得…

WebGIS外包开发流程

WebGIS开发流程需要综合考虑前端和后端开发、地理信息数据处理、用户需求和安全性等多个方面。成功的WebGIS应用程序需要不断地进行更新和维护&#xff0c;以适应变化的需求和技术。WebGIS开发是一个复杂的过程&#xff0c;通常包括以下主要步骤。北京木奇移动技术有限公司&…

jmeter 接口快速创建

通过cURL命令创建测试计划 从浏览器获取接口 从postman获取接口

2000-2021年上市公司全要素生产率数据(OLS法、OP法、LP法、GMM法、FE法)(含原始数据+计算代码+结果)

2000-2021年上市公司全要素生产率数据&#xff08;OLS法、OP法、LP法、GMM法、FE法&#xff09;&#xff08;含原始数据计算代码结果&#xff09; 1、时间&#xff1a;2000-2021年 2、指标&#xff1a;股票代码、年份、证券代码、固定资产净额、营业总收入、营业收入、营业成…

[PyTorch][chapter 54][GAN- 1]

前言&#xff1a; GAN playground: Experiment with Generative Adversarial Networks in your browser 生成对抗网络&#xff08;Generative Adversarial Nets&#xff0c;GAN&#xff09;是一种基于对抗学习的深度生成模型&#xff0c;最早由Ian Goodfellow于2014年在《Gener…