2024-09-27 buildroot C和语言将中文的GBK编码转换为 UTF-8 的代码， printf 显示出来，使用 iconv 库去实现。

news2026/2/20 10:02:39

一、GBK 的英文全称是 "Guobiao Kuozhan"，意为 "National Standard Extended"。它是对 GB2312 编码的扩展，用于表示更多汉字和符号

GBK（国标扩展汉字编码）是一种用于简体中文和繁体中文字符的编码方式，属于汉字编码的扩展，主要用于 Windows 和某些其他操作系统。以下是一些关于 GBK 编码的要点：

编码范围：
- GBK 编码扩展了 GB2312 编码，支持的字符总数达 21,000 多个，涵盖了常用的汉字、符号和标点。
字节结构：
- GBK 编码的字符通常由一个或两个字节组成：
  - ASCII 字符（如英文字母和数字）用单个字节表示（0x00-0x7F）。
  - 汉字和其他字符使用两个字节表示。
兼容性：
- GBK 向下兼容 GB2312，这意味着 GB2312 编码的字符在 GBK 中可以直接使用。
使用场景：
- 在中国大陆的许多软件和操作系统中广泛使用，尤其是在 Windows 平台上。
与其他编码的比较：
- GBK 与 UTF-8 和其他编码（如 ISO-8859-1）相比，主要用于处理中文文本，UTF-8 是一种更通用的编码方式，支持全球所有语言。
转换工具：
- 可以使用工具（如 iconv）进行 GBK 与其他编码（如 UTF-8）之间的转换。
示例：
- 在 C 语言中，可以使用 char 数组表示 GBK 编码的字符串，例如 char gbkStr[] = {0xC1, 0xF5, 0x00}; 表示汉字“刘”。

二、在 UTF-8 编码中，中文字符通常使用 3 个字节表示。以下是一些关于中文 UTF-8 编码的要点：

编码方式：
- 中文字符（如汉字）在 UTF-8 中占用 3 个字节，字节范围通常为：
  - 第一个字节：0xE0 到 0xEF
  - 第二个字节：0xA0 到 0xBF
  - 第三个字节：0x80 到 0xBF
示例：
- 汉字“刘”的 UTF-8 编码为 0xE6 0x88 0x91。可以使用 C 语言中的字符串表示：
  c
  
  Copy code
  
  char utf8Str[] = {0xE6, 0x88, 0x91, 0x00}; // "刘"
兼容性：
- UTF-8 兼容 ASCII 字符集，因此包含 ASCII 字符的文本在 UTF-8 中也是有效的。
使用场景：
- UTF-8 是互联网上最常用的编码方式，广泛用于网页、文档和数据库中，支持多种语言的字符，包括中文。
优点：
- 由于能够表示全球所有字符，UTF-8 在国际化应用中具有明显优势，简化了文本处理和存储。
工具与库：
- 多种编程语言和库都提供了对 UTF-8 的良好支持，可以轻松进行编码和解码。

三、buildroot C语言代码demo，include iconv.sh，同时确保已经编译出libiconv.so

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <iconv.h>

void convertGBKToUTF8(const char *gbkStr, char *utf8Str, size_t utf8StrSize) {
    iconv_t cd = iconv_open("UTF-8", "GBK");
    if (cd == (iconv_t)(-1)) {
        perror("iconv_open");
        exit(1);
    }

    char *inBuf = (char *)gbkStr;
    size_t inBytesLeft = strlen(gbkStr);
    char *outBuf = utf8Str;
    size_t outBytesLeft = utf8StrSize;

    size_t result = iconv(cd, &inBuf, &inBytesLeft, &outBuf, &outBytesLeft);
    if (result == (size_t)(-1)) {
        perror("iconv");
        iconv_close(cd);
        exit(1);
    }

    *outBuf = '\0'; // Null-terminate the UTF-8 string
    iconv_close(cd);
}

int main() {
    char gbkStr[] = {0xC1, 0xF5, 0x00}; // GBK 编码的“刘”
    char utf8Str[100];

    convertGBKToUTF8(gbkStr, utf8Str, sizeof(utf8Str));
    printf("%s\n", utf8Str); // 显示 UTF-8 编码的汉字

    return 0;
}

四、实际测试效果