一种别样的Unicode Python编码方式，完美转换表情和阿拉伯语

news2026/2/15 17:24:48

我们可能有时候在处理字符时需要处理到非ASCII的字符，比如将表情、阿拉伯语转换为Unicode字符，从而避免在传输时会出现乱码的情况。

Unicode验证网站：
unicode转换网站

目的：转换下面除ASCII字符外的字符为Unicode字符👇

🔥🎱é🕐  19h📱mação nos stories!link

一、encode方法

看过网上的一些技术文，像以下方法

text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'

上面的确实可以转换，但表情却不行，比如"🔥🎱"，转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下，没办法转换

而我们试试网站自身的编码，同样也是乱码，不能正常解析出来

这个方法显然不管用

二、高代理和低代理对处理方法

为了正确处理表情符号（Unicode Supplementary Characters），处理 Unicode 补充字符（Supplementary Characters），我们需要特别处理这些高代理和低代理对，这些字符的编码范围在 0x10000 到 0x10FFFF 之间，通常用于表示表情符号等。

高代理和低代理对（surrogate pairs）是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面（BMP, Basic Multilingual Plane）包含从 0x0000 到 0xFFFF 的字符，而超出这个范围的字符称为补充字符（Supplementary Characters），它们的代码点范围是从 0x10000 到 0x10FFFF。

由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符，为了表示超出这个范围的字符，Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成：

高代理单元（High Surrogate）：范围是 0xD800 到 0xDBFF，包含 1024 个代码点。
低代理单元（Low Surrogate）：范围是 0xDC00 到 0xDFFF，也包含 1024 个代码点。

由于 UTF-16 不能直接表示这些字符，所以需要使用代理对（surrogate pairs）

补充字符通常为表情符号，编码值一般大于 0xFFFF（即 65535）

补充字符的处理

检查字符是否是补充字符：

if code > 0xFFFF:

补充字符的编码值大于 0xFFFF（即 65535）。

计算高代理：


high_surrogate = 0xD800 + ((code - 0x10000) >> 10)

code - 0x10000：将编码值减去 0x10000，因为补充字符的编码范围是从 0x10000 开始的。
(code - 0x10000) >> 10：将结果右移 10 位，得到高 10 位的值。
0xD800 + ...：将高 10 位的值加上 0xD800（高代理范围的起始值）得到高代理的编码值。
3. 计算低代理：

low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)

code - 0x10000：将编码值减去 0x10000。
(code - 0x10000) & 0x3FF：将结果与 0x3FF 做按位与操作，得到低 10 位的值。
0xDC00 + ...：将低 10 位的值加上 0xDC00（低代理范围的起始值）得到低代理的编码值。
返回高代理和低代理对的 Unicode 转义表示：

return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'

\\u{high_surrogate:04x}：将高代理的编码值格式化为 4 位的十六进制数，并添加 Unicode 转义前缀 \u。
\\u{low_surrogate:04x}：将低代理的编码值格式化为 4 位的十六进制数，并添加 Unicode 转义前缀 \u。
通过这种方式，我们可以将补充字符正确地转换为 Unicode 转义表示，保证它们在 JSON 文件中能以 \uXXXX\uXXXX 的形式表示。

处理非ASCII字符：

对于其他非ASCII字符（编码值大于 127 且小于等于 0xFFFF），直接格式化为 \uXXXX。

elif code > 127:
    return f'\\u{code:04x}'

保留 ASCII 字符：

对于 ASCII 字符（编码值小于等于 127），则直接返回字符本身。

最终代码

unicode_str = '🔥🎱é🕐  19h📱mação nos stories!link'

def encode_non_ascii_chars(input_str):
    def to_unicode_escape(char):
        code = ord(char)
        # 处理补充字符（补充字符，通常是表情符号）
        # 补充字符的 Unicode 编码范围在 0x10000 到 0x10FFFF 之间。因为 UTF-16 不能直接表示这些字符，所以需要使用代理对（surrogate pairs）
        if code > 0xFFFF:  # Supplementary characters
            high_surrogate = 0xD800 + ((code - 0x10000) >> 10)
            low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)
            return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'

        # 处理非ASCII字符
        # 对于其他非ASCII字符（编码值大于 127 且小于等于 0xFFFF），直接格式化为 \uXXXX。
        elif code > 127:  # non-ASCII
            return f'\\u{code:04x}'

        # 对于 ASCII 字符（编码值小于等于 127），直接返回字符本身
        else:
            return char

    return ''.join(to_unicode_escape(char) for char in input_str)


encoded_str = encode_non_ascii_chars(unicode_str)
print(encoded_str) # \ud83d\udd25\ud83c\udfb1\u00e9\ud83d\udd50  19h\ud83d\udcf1ma\u00e7\u00e3o nos stories!link