41 # 编码的问题

news2026/2/8 19:27:54

常见的进制

10 进制：除表示正负的符号外，以 1~9 开头，由 0~9 组成。如 128，+234，-278。
2 进制：以 0b 开头，0b11
8 进制：以 0 或 0o开头，由 0~7 组成的数。如 0126, 050000, 0o666.
16 进制：以 0X 或 0x 开头，由 0~9，A~F 或 a~f 组成。如 0x12A, 0x5a000。

进制的互相转换：js 中提供了相互转换的方法。

编码过程中都是以字节为单位，一个字节是由 8 个 bit 位（二进制）构成，常见的一个字节组成一个字符，双字节组成汉字（gbk），三个字节组成一个汉字（utf8）

转换规则：

把任意进制转换成 10 进制，需要用当前所在的值 * 当前进制的 ^ 第几位

let sum = 0;
for(let i = 0; i < 8; i++) {
    sum += Math.pow(2, i)
}
console.log(sum); // 255

把 10 进制转换成任意进制可以采用取余的方法

将任意进制转换成 10 进制

parseInt(string, radix) 解析一个字符串并返回指定基数的十进制整数，radix 是 2-36 之间的整数，表示被解析字符串的基数。

console.log(parseInt('11', 2)); // 3

将任意进制转成任意进制

Number.prototype.toString()

Number 对象覆盖了 Object 对象上的 toString() 方法，它不是继承的 Object.prototype.toString()。对于 Number 对象，toString() 方法以指定的基数返回该对象的字符串表示。进行数字到字符串的转换时，建议用小括号将要转换的目标括起来，防止出错。

console.log((0x16).toString(2)); // 10110

node 中编码

在 node 中需要进行文件读取，node 中操作的内容默认会存在内存中，内存中的表现形式肯定是二进制的，二进制转换成 16 进制来展现

const fs = require("fs");
const path = require("path");

let r = fs.readFileSync(path.resolve(__dirname, "./test.md"));

console.log(r);
// Buffer 可以和字符串直接互相转换
console.log(r.toString());

在这里插入图片描述

编码的发展史

ASCII 编码：一共定义了128个字符的编码规则，一些常用的符号和字母，进行了一个排号，最大编码就是 127（第一位为空），只会占用一个字节大小。
GB2312：1980 年，中国发布了第一个汉字编码标准，收录了 6763 个常用的汉字和字符，汉字用两个字节，（255 * 255）
GBK：1995 年发布，由于有些汉字是在 GB2312 标准发布之后才简化的，还有一些人名、繁体字、日语和朝鲜语中的汉字也没有包括在内，所以，在 GB2312 的基础上添加了这部分字符，就形成了 GBK ，全称《汉字内码扩展规范》，共收录了两万多个汉字和字符，它完全兼容 GB2312
GB18030：全称《信息技术中文编码字符集》收录七万多个汉字和字符，它在 GBK 的基础上增加了中日韩语中的汉字和少数名族的文字及字符，完全兼容 GB2312，基本兼容 GBK
Unicode：国际标准字符集，它将世界各种语言的每个字符定义一个唯一的编码，以满足跨语言、跨平台的文本信息转换，可以容纳一百多万个字符
UTF8：（在 utf8 中，一个字符占用一个字节，一个汉字占用三个字节）

在这里插入图片描述

编码转换

gbk、utf8 是可以相互转化的，可以使用 iconv-lite

var iconv = require('iconv-lite');

// Convert from an encoded buffer to a js string.
str = iconv.decode(Buffer.from([0x68, 0x65, 0x6c, 0x6c, 0x6f]), 'win1251');

// Convert from a js string to an encoded buffer.
buf = iconv.encode("Sample input string", 'win1251');

// Check if encoding is supported
iconv.encodingExists("us-ascii")

先安装依赖：

npm init -y
npm i iconv-lite

在这里插入图片描述

然后新建文件 test2.txt，里面添加文本 凯小默，然后使用 gbk 编码形式保存。

在这里插入图片描述

再添加 test2.js，添加读取文本代码，可以看到是乱码的

const fs = require("fs");
const path = require("path");

let r = fs.readFileSync(path.resolve(__dirname, "./test2.txt"));

console.log(r);
console.log(r.toString());

在这里插入图片描述

下面添加编码转换：

const fs = require("fs");
const path = require("path");
const iconv = require("iconv-lite");

let r = fs.readFileSync(path.resolve(__dirname, "./test2.txt"));
r = iconv.decode(r, "gbk");
console.log(r);
console.log(r.toString());

在这里插入图片描述

base64

base64 没有加密功能（只是编码转换）

好处：

可以传输数据，不乱码，减少 http 请求（不是所有的图片都转成 base64，体积会变大1/3）

其实就是将 3 * 8 的规则改成了 4 * 6 的方式

let buffer = Buffer.from("凯");
console.log(buffer); // e5 87 af

// 16进制转成二进制
console.log((0xe5).toString(2)); // 11100101
console.log((0x87).toString(2)); // 10000111
console.log((0xaf).toString(2)); // 10101111

// 11100101 10000111 10101111
// 组合起来分成 4 份，每份 6 位，不会超过 64
// 111001 011000 011110 101111

// 再将二进制转为十进制
console.log(parseInt("111001", 2)); // 57
console.log(parseInt("011000", 2)); // 24
console.log(parseInt("011110", 2)); // 30
console.log(parseInt("101111", 2)); // 47

// 57 24 30 47

// 取值表
let str = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";

// 字符串 `凯` base64 编码之后变成了`5Yev`，字节由 3 个变成了 4 个。
console.log(str[57] + str[24] + str[30] + str[47]); // 5Yev