0 前言

最近在尝试用PyQt做一个上位机，遇到很多关于字节字符串的问题，这里简单总结几个关键点。

1 先来看看C语言中怎么处理这种字节数据

玩嵌入式模块的应该知道，那种带字库的LCD模块，它里面的字库实际上编码方式就是GBK或者是GB2312，所谓“字库”，实际上就是一种字符编码和字符显示的像素编码的映射，这样在显示某个字符时，就不需要设置这个字符对应的显示像素，只需要传输这个字符对应的字库编码即可，代码编写方便很多。

所以在这种带字库的LCD显示设备当中，如果需要显示某个字符，只需要将需要显示的字符用对应的编码格式（前面提到的GBK或GB2312）进行编码。但是实际在写代码时，好像没有专门编码的步骤？

是的，这就引出了第一个问题：C语言怎么限定字符的编码方式，复杂的函数不太清楚，这里提一个最简单也是最容易被忽略的点——C语言文本文件的编码方式。不信可以在显示带字库LCD项目中，把显示部分的代码文件用utf8格式重新保存，这个时候显示大概率会变成乱码。

再说一个可以佐证的例子。在VS Code中新建一个文件（默认是utf8格式的），输入以下代码：

#include "stdio.h"
#include "string.h"

char s[] = "中文";

int main()
{
    printf("中文");
    printf("%d", strlen(s));
    return 0;
}

然后再运行代码。如果终端使用的是powershell（5.x 或 7.x版本均可），那么大概率会输出乱码，因为powershell默认的编码方式是GBK，显示输出的UTF-8字符串当然是乱码了。

然后在右下角点击UTF-8，选择通过编码保存，选择GB2312格式，然后在重新运行，此时就会发现，终端就没有乱码了，因为输出的编码格式和终端的编码方式对上了。

总结来说，在C/C++中，程序输出（不管是输出到终端还是串口之类的）的字符串编码格式是和文件的编码方式直接挂钩的。

1.1 使用总结

那一般是怎么使用呢？这里还是以嵌入式中常用的串口输出为例。

首先我们要知道什么是字节数据。众所周知，在数据的传输过程中，是不可能直接传输我们人类能够识别的字符的，所有的内容都需要进行编码成二进制数据再进行传输，当然，一般是用十六进制表示，本质是一样的。8位二进制为一个字节。

因此就存在字符和字节数据的映射关系了，比如说规定“我”这个字符对应的二进制（十六进制为）0x01（随便的例子），那么当需要传输“我”这个字符时，那就需要传递0x01这个字节数据，此即编码。然后接收方收到这个字节数据，也按照同样的映射关系把“我”从0x01当中提取出来，此即解码。所以关键点就是两者需要使用相同的映射关系，此即编码方式，如UTF8，UTF16等等。

在C语言当中，数据的传输说实话非常随意。这个也可能是C语言设计的机制。举个例子，如果我想要传输“A”这个字符，我可以 直接传输这个字符'A' ，那么它在传输过程中会被自动按照文件编码方式编码成对应的字节数据；也可以 传输这个字符对应的数值 ，不管是二进制，十进制，十六进制都是可以的。同样，在进行运算的过程当中，字符也是可以直接作为数值进行运算的，取的就是其对应的编码值，即ASCII。

总结来说，C语言当中进行数据传输时，会非常随意，可以说没有字节数据这种概念，因为它基本可以视为就是数值，如果是在编码范围内的，也可以转换为(char()) 需要显示的字符串。