一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语

news2024/12/25 8:51:40

我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。

Unicode验证网站:
unicode转换网站

目的:转换下面除ASCII字符外的字符为Unicode字符👇

🔥🎱é🕐  19h📱mação nos stories!link

一、encode方法

看过网上的一些技术文,像以下方法

text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'

上面的确实可以转换,但表情却不行,比如"🔥🎱",转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下,没办法转换

而我们试试网站自身的编码,同样也是乱码,不能正常解析出来

这个方法显然不管用

二、高代理和低代理对处理方法

为了正确处理表情符号(Unicode Supplementary Characters),处理 Unicode 补充字符(Supplementary Characters),我们需要特别处理这些高代理和低代理对,这些字符的编码范围在 0x10000 到 0x10FFFF 之间,通常用于表示表情符号等。

高代理和低代理对(surrogate pairs)是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面(BMP, Basic Multilingual Plane)包含从 0x0000 到 0xFFFF 的字符,而超出这个范围的字符称为补充字符(Supplementary Characters),它们的代码点范围是从 0x10000 到 0x10FFFF。

由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符,为了表示超出这个范围的字符,Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成:

  • 高代理单元(High Surrogate):范围是 0xD800 到 0xDBFF,包含 1024 个代码点。

  • 低代理单元(Low Surrogate):范围是 0xDC00 到 0xDFFF,也包含 1024 个代码点。

由于 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)

补充字符通常为表情符号,编码值一般大于 0xFFFF(即 65535)

补充字符的处理

  1. 检查字符是否是补充字符:
if code > 0xFFFF:

补充字符的编码值大于 0xFFFF(即 65535)。

  1. 计算高代理:

high_surrogate = 0xD800 + ((code - 0x10000) >> 10)

code - 0x10000:将编码值减去 0x10000,因为补充字符的编码范围是从 0x10000 开始的。
(code - 0x10000) >> 10:将结果右移 10 位,得到高 10 位的值。
0xD800 + ...:将高 10 位的值加上 0xD800(高代理范围的起始值)得到高代理的编码值。
3. 计算低代理:

low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)

code - 0x10000:将编码值减去 0x10000。
(code - 0x10000) & 0x3FF:将结果与 0x3FF 做按位与操作,得到低 10 位的值。
0xDC00 + ...:将低 10 位的值加上 0xDC00(低代理范围的起始值)得到低代理的编码值。
返回高代理和低代理对的 Unicode 转义表示:

return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'

\\u{high_surrogate:04x}:将高代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
\\u{low_surrogate:04x}:将低代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
通过这种方式,我们可以将补充字符正确地转换为 Unicode 转义表示,保证它们在 JSON 文件中能以 \uXXXX\uXXXX 的形式表示。

处理非ASCII字符:

对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。

elif code > 127:
    return f'\\u{code:04x}'

保留 ASCII 字符:

对于 ASCII 字符(编码值小于等于 127),则直接返回字符本身。

最终代码

unicode_str = '🔥🎱é🕐  19h📱mação nos stories!link'

def encode_non_ascii_chars(input_str):
    def to_unicode_escape(char):
        code = ord(char)
        # 处理补充字符(补充字符,通常是表情符号)
        # 补充字符的 Unicode 编码范围在 0x10000 到 0x10FFFF 之间。因为 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)
        if code > 0xFFFF:  # Supplementary characters
            high_surrogate = 0xD800 + ((code - 0x10000) >> 10)
            low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)
            return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'

        # 处理非ASCII字符
        # 对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。
        elif code > 127:  # non-ASCII
            return f'\\u{code:04x}'

        # 对于 ASCII 字符(编码值小于等于 127),直接返回字符本身
        else:
            return char

    return ''.join(to_unicode_escape(char) for char in input_str)


encoded_str = encode_non_ascii_chars(unicode_str)
print(encoded_str) # \ud83d\udd25\ud83c\udfb1\u00e9\ud83d\udd50  19h\ud83d\udcf1ma\u00e7\u00e3o nos stories!link

可正常转换

推荐文章:

(2024 最新 GPT4、GPT4.0 升级教程)ChatGPT 升级银行卡被拒绝,教你 5 分钟快速升级 chatgpt4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Upload-labs靶场Pass01-Pass21全解

文章目录 Pass-01 前端JSJS绕过上传或者用burp抓包的方式 Pass-02 MIME检测Pass-03 特殊文件后缀黑白名单绕过特殊文件名绕过 Pass-04 .htacess上传Pass-05 user.ini文件上传Pass-06 大小写绕过Pass-07 空格绕过Pass-08 .绕过Pass-09 ::$DATA绕过Pass-10 .空格.绕过Pass-11 双写…

⾃定义类型:联合和枚举详解

本章讲述的是自定义类型中联合和枚举,在本章我们将会认识联合体,枚举的声明,使用,以及联体的大小,枚举类型的优点。 1.联合体 1.联合体类型的声明 像结构体⼀样,联合体也是由⼀个或者多个成员构成&#…

重新设计 Baklib 中的分析数据处理

数据库是任何应用程序性能最关键的部分之一。当谈到 Baklib 时,考虑到高度可扩展的 SaaS 环境,我们总是致力于提高应用程序的性能。 我们不断尝试提高应用程序的性能,在密切监视应用程序是否有任何挫折和改进的同时,我们发现每天…

推动未来的引擎:人工智能大模型的现状与发展

推动未来的引擎:人工智能大模型的现状与发展 一、引言 随着人工智能技术的迅速发展,人工智能大模型作为其中的重要组成部分,正逐渐成为推动科技进步的重要引擎。无论是在自然语言处理、计算机视觉,还是智能推荐等领域&#xff0…

快讯 | 苹果携手OpenAI,ChatGPT即将登陆iOS 18

在数字化浪潮的推动下,人工智能(AI)正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展,捕捉行业动态;提供深入的新闻解读,助您洞悉技术背后的逻辑;汇聚行业专家的见解,…

MATLAB预测模型(3)

一、前言 在MATLAB中,实现不同类型的预测模型,如马尔科夫预测、神经网络预测、模糊预测和灰色预测,需要用到不同的函数和工具箱。下面我将为每种预测模型提供一个基本的示例代码。 二、实现 1. 马尔科夫预测 马尔科夫预测通常用于处理具有无…

四大内存区域揭秘:你真的了解你的程序吗?

我是小米,一个喜欢分享技术的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号“软件求生”,获取更多技术干货! 大家好!我是你们的技术小伙伴小米,今天我们来聊聊操作系统中的进程空间。作为一名技术爱好者,我特别兴奋地为大家拆解一下进程空间的四大区域:栈区…

嵌入式实习--MobaXterm连接开发板与SSH远端服务器详细使用教程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、前期准备二、安装USB串口模块驱动1.1驱动未自动安装 二、MobaXterm安装使用2.1 MobaXterm 软件安装2.2 MobaXterm 软件使用2.2.1连接开发板2.2.2 远程SSH连…

图论-最小生成树

Prim算法 算法描述 dist[i]<-- for(i 0;i<n;i) t<--找到集合外最近的点 用t更新其他点到集合的距离&#xff08;这个集合就是已经确定的最小生成树的点和边&#xff09; st[t] true; dist[i] <-- 无穷 这一步是初始化所有节点到集合的最小距离为无穷大。dist[i] 表…

科普文:微服务之Spring Cloud 服务调用组件Openfeign

一、概述 Feign是声明式Web服务客户端&#xff0c;它使编写Web服务客户端更加容易。 Feign不做任何请求处理&#xff0c;通过处理注解相关信息生成Request&#xff0c;并对调用返回的数据进行解码&#xff0c;从而实现简化HTTP API的开发。 如果要使用Feign&#xff0c;需要创…

项目相关内容 ----- 2实现打印 ---- 图片与字符

目录 1 . 实现图图片的打印 1&#xff09;结构体定义 2&#xff09;画点线 3&#xff09;清屏 4&#xff09;图片显示 5&#xff09;主函数部分 2 . 实现字符的打印 1) 定义BMP位图文件的头部信息以及信息头​ 2&#xff09;实现打印字符的绘制​ 3 . 打印文本内容​ 附…

你会在Vision Pro里编程吗?

你会在Vision Pro里编程吗&#xff1f; Vision Pro作为一位开发者&#xff0c;你会考虑将Vision Pro应用到编程中吗&#xff1f;你认为Vision Pro有可能改变开发者的工作模式与效率吗&#xff1f; 初见Vision Pro有点陌生&#xff0c;不太了解Vision Pro是什么。那么这里先来了…

顶点着色器片段着色器

/* * FileName : OpenGL_Tutorial.cpp * Time : 2024-08-03 10:00:00 * Author : XuMing * Email : 920972751qq.com * description : 使用OpenGL进行顶点输入和着色器编译的详细解析 */#include <glad/glad.h> #include <GLFW/glfw3.…

【论文阅读visual grounding】QRNet论文解读与关键代码实现

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding 论文链接&#xff1a;https://arxiv.org/abs/2203.15442 代码链接&#xff1a;https://github.com/z-w-wang/QRNet Motivation 视觉定位&#xff08;visua…

JavaScript基础——JavaScript变量声明

变量是存储数据的容器&#xff0c;可以变的量&#xff0c;值可以改变&#xff0c;在JavaScript中&#xff0c;变量声明的关键字有var、let&#xff0c;其中&#xff0c;var是ES5的语法&#xff0c;let是ES6的语法&#xff0c;变量需要先声明&#xff0c;在使用。 声明一个age变…

整除分块, CF538 F - A Heap of Heaps

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 F - A Heap of Heaps 二、解题报告 1、思路分析 给定v&#xff0c;k&#xff0c;v的父节点p (v - 2) / k 1 我们令P p - 1&#xff0c;V V - 2 P V / k&#xff0c;我们发现这就是一个整除分块问题…

Ubuntu22.04之有道词典mini窗口无法拖动问题(二百六十五)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 新书发布&#xff1a;《Android系统多媒体进阶实战》&#x1f680; 优质专栏&#xff1a; Audio工程师进阶系列…

混合域注意力机制(空间+通道)

在计算机视觉任务中&#xff0c;空间域注意力通常关注图像中不同位置的重要性&#xff0c;例如突出图像中的关键对象或区域。而通道域注意力则侧重于不同通道&#xff08;特征图&#xff09;的重要性&#xff0c;决定哪些特征对于任务更具判别力。混合域注意力机制结合了空间域…

FIR低通滤波器

FIR低通滤波器 FIR(Finite Impulse Response)滤波器:有限长单位冲激响应滤波器,又称为非递归型滤波器,是数字信号处理系统中最基本的元件,它可以在保证任意幅频特性的同时具有严格的线性相频特性,同时其单位抽样响应是有限长的,因而滤波器是稳定的系统。 MATLAB实现…

详细了解架构师

架构师的核心职责是消除不确定性和降低复杂性&#xff01; 架构师画像 架构师的定位 架构设计环 澄清和技术相关的&#xff0c;比如支持百万级别的&#xff0c;架构师需要澄清&#xff0c;可能只有十万级。 架构师的三个核心能力 架构师的三个关键思维 架构设计流程和架构师…