Python:Python进阶:Python字符串驻留技术

news2024/12/30 1:47:25

Python字符串驻留技术

  • 1.什么是字符串驻留
  • 2. 为什么要驻留字符串
  • 3. Python的字符串驻留
  • 4. Python 字符驻留原理
    • 4.1 如何驻留字符串
    • 4.2 如何清理驻留的字符串
  • 5. 字符串驻留的实现
    • 5.1. 变量、常量与函数名
    • 5.2 字典的键
    • 5.3 任何对象的属性
    • 5.4 显式地驻留
  • 6 字符串驻留的其他发现

由于字符串是任何编程语言中不可或缺的一个部分,因此,如果有快速操作字符串的能力,就有可以迅速的提高整体的性能。
本文,我们将深入研究Python 的内部实现,并了解 Python如何使用一种名为字符串驻留 (string Interning)的技术,实现解释器的高性能。以下是本文的提纲

在这里插入图片描述

1.什么是字符串驻留

  1. 字符串驻留是编译器/解释器的优化方法,它通过 缓存一般性的字符串,从而节省字符串处理任务的空间和时间。
    事实上这种优化方法不会每次都创建一个新的 字符串副本,而是仅为每个适当的不可变值保留一个字符串副本,并使用指针引用之。
  2. string interning 一般译为 “ 字符串驻留或字符串留用” 在某些 语言中可能习惯使用 string pool (字符串常量池)的概念,其实这是对同一种机制的不同表述。
    在这里插入图片描述

2. 为什么要驻留字符串

  1. 首先字符串驻留提升了字符串比较的速度。 如果没有驻留,当我们要比较两个字符串是否相等时,它的时间复杂度将会上升到 o(n) ,即需要检查两个字符串中的每个字符,才能判断他们是否相等。
  2. 但是,如果两个字符串使用的是同一个对象的引用,那么我们只需要判断检查指针是否相同,就足以判断出两个字符串是否相同,不需要逐一检查每个字符串。
  3. 字符串驻留技术减少了内存占用,Python避免内存中 充斥多余的字符串对象,通过享元设计模式共享和重用已经定义的对象,从而优化内存占用。

3. Python的字符串驻留

在Python中使用 is 运算符 ,检查两个对象是否引用同一个内存对象。注意在 Python3.8 版本之后,需要使用 == 来判断两个对象是否相等。

"python" == 'python'  # true
1==2 # false
"Python" == 'python'  # false

4. Python 字符驻留原理

在 CPython 中,字符串的引用被一个名为 interned 的 python字典所存储,访问和管理。该字典在第一调用字符串驻留时,被延迟的初始化,并持有全部已驻留字符串对象的引用。

4.1 如何驻留字符串

在 CPython 中,负责驻留字符串的核心函数是 PyUnicode_InternInplace 它定义在 unicodeobject.c 中,当调用时,它会创建一个准备容纳所有驻留字符串的字典 Interned , 然后登记入参中的对象,然后另其键和值都使用相同的对象引用

void PyUnicode_InternInplace(PyObject **p)
{
	PyObject *s = p;
	........
	// Lazing build the dicrionary to hold interned strings
	if (interned ==NULL) {
    	interned  = PyDict_New();
    	if (interned ==NULL)
    	{
			PyErr_Clear();
			return;
        }
    }
    PyObject *t;
    // make an entry to the interned dictionary for the given object
    t = PyDict_SetDefault(interned, s, s);
    ......
    // set the state of the string to be INTERNED
    _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

4.2 如何清理驻留的字符串

清理函数从 interned 字典中遍历所有的字符串,调整这些对象的引用计数,并把它们标记为 NOT_INTERNED, 使其被垃圾回收,一旦所有的字符串被标记为 NOT_INTERNED,则 interned 字典会被清空并删除。

这个清理函数就是 _PyUnicode_ClearInterned ,在 unicodeobject.c 中定义

void _PyUnicode_ClearInterned(PyThreadState *tstate)
{
	// Get all the keys to the interned dictionary
	PyObject *keys = PyDict_Keys(interned);
	.......
	// Interned Unicode strings are not forcibly deallocated
	// rather ,we give them their stolen references back
	// and then clear and DECREF the interned dict
	for(Py_ssize_t i = 0; i< n; i++)
	{
		PyObject *s = PyList_GET_ITEM(keys,i);
		.....
		switch (PyUnicode_CHECK_INTERNED(s)){
		case SSTATE_INTERNED_IMMORTAL:
			   Py_SET_REFCNT(s,Py_REFCNT(s)+1);
			   break;
		case SSTATE_INTERNED_MORTAL:
		     // Restore the two references(key and balue) ignored
		     // by PyUnicode_InterInPlace()
		     Py_SET_REFCNT(s,Py_REFCNT(s) +2);
		     break;
		case SSTATE_NOTINTERNED:
		default:
			Py_UNREACHABLE();
        }
        // making the string to be  NOT_INTERNED
        _PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED;
	}
	// decreasing the refernece to the initialized and
	// access可以是object
	Py_DECREF(keys);
	// clearing the dictionary
	PyDict_Clear(interned);
	// clearing the object interned
	Py_CLEAR(interned);
}

5. 字符串驻留的实现

这一小节主要讲:Python会驻留哪些字符串

5.1. 变量、常量与函数名

CPython 对常量(例如函数名,变量名,字符串字面量等)执行字符串驻留。

5.2 字典的键

CPthon 还会驻留任何字典对象的字符串键

5.3 任何对象的属性

CPython中对象的属性可以通过 setattr 函数显式地设置,也可以作为类成员的一部分隐式的设置,或者在其数据类型中定义。
CPython会驻留所有这些属性名,以便实现快速的查找。

5.4 显式地驻留

Python还支持通过 sys模块中的 intern 函数进行显示地字符串驻留。

6 字符串驻留的其他发现

只有在编译期的字符串会被驻留,咋解释时或编译时指定的字符串会被驻留,而动态创建的字符串则不会

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/499636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL --- DML

接下来学习第二个部分&#xff1a;根据页面原型以及需求进行相关功能的开发&#xff0c;进而完成数据库的操作。 学习数据库的DML操作 3. 数据库操作-DML-insert&#xff0c;update,delete DML DML英文全称是Data Manipulation Language(数据操作语言)&#xff0c;用来对数据…

176_工具_Power BI 实用工具 pbi-utils 更新至 v1.0.3.1

176_工具_Power BI 实用工具 pbi-utils 更新至 v1.0.3.1 pbi-utils 更新至&#xff1a;v1.0.3.1, 从 v1.0.0.0 到 v1.0.3.1 更新了 8 次。 文档地址&#xff1a;https://jiaopengzi.com/2880.html 主要功能&#xff1a; 快速设置 Power BI 模板&#xff0c;实现高复用。设计…

【大数据基础】Spark+Kafka构建实时分析Dashboard

https://dblab.xmu.edu.cn/post/spark-kafka-dashboard/ https://dblab.xmu.edu.cn/post/8116/ 实验环境准备 Kafka安装 访问Kafka官方下载页面,下载稳定版本0.10.1.0的kafka.此安装包内已经附带zookeeper,不需要额外安装zookeeper.按顺序执行如下步骤: cd ~/下载 sudo tar …

《Markdown编辑器》的使用

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

Simulink 自动代码生成电机控制:方波高频注入仿真到代码生成开发板演示

目录 前言 方波高频注入仿真 生成代码开发板运行 总结 前言 最近换了一个小电机&#xff0c;于是尝试了一下方波高频注入的仿真到代码生成的实验&#xff0c;正弦波注入的方式已经实现 STM32 Simulink 自动代码生成电机控制——脉振高频注入_高频注入代码_卡洛斯伊的博客-…

【Linux】进程信号(下)

文章目录 1.信号处理相关问题内核态与用户态概念的理解为什么要有 用户态和内核态CR3寄存器的使用信号处理的整体过程 1.信号处理相关问题 信号处理&#xff0c;不是可以立即处理的&#xff0c;而是在合适的时候 不懂点击: 信号的产生第三点 什么时候是合适的时候&#xff1f;…

Android Studio下载及安装和Gradle的配置

文章目录 下载安装双击打开exe文件 修改Sdk的位置创建项目修改Gradle的位置 下载 下载地址&#xff1a;官方下载地址 打开后往下拉&#xff0c;直到最后的I agree to the terms. 这里选择的android studio版本是&#xff1a;2021.2.1.16&#xff0c;也可以根据自己的需要下载…

语义分割总结

文章目录 0. 前言1. 数据集2. 经典网络2.1 FCN2.2 U-Net2.3 DeepLab2.4 PSPNet2.5 SegNet2.6 CCNet2.7 SegFormer 3. 损失函数4. 评价指标5. 最新进展&#xff08;2023.4&#xff09; Segment Anything 0. 前言 语义分割是一种计算机视觉领域的图像分割技术&#xff0c;旨在将…

校内赛WP

Web题目镜像如下&#xff1a; docker pull lauaiwin/hzuctf-flaskrce:latest docker pull lauaiwin/hzuctf-ezphp:latest docker pull lauaiwin/hzuctf-babysql:latest docker pull lauaiwin/hzuctf-sign:latest docker pull lauaiwin/hzuctf-ezupload:latestWeb-签到 通过loc…

sentinel 随笔 2-降级处理

0. 像喝点东西&#xff0c;但不知道喝什么 先来段源码&#xff0c;看一下 我们在dashboard 录入的降级规则&#xff0c;都映射到哪些字段上 package com.alibaba.csp.sentinel.slots.block.degrade;public class DegradeRule extends AbstractRule {public DegradeRule(String…

Spring的第十二阶段(03):Spring实现AOP的简单使用

1、获取拦截方法的返回值和抛的异常信息 获取方法返回的值分为两个步骤&#xff1a; 1、在返回值通知的方法中&#xff0c;追加一个参数 Object result 2、然后在AfterReturning注解中添加参数returning“参数名” 获取方法抛出的异常分为两个步骤&#xff1a; 1、在异常通…

Python入门(五)列表(二)

列表&#xff08;二&#xff09; 1.组织列表1.1 使用方法sort()对列表永久排序1.2 使用函数sorted()对列表临时排序1.3 倒着打印列表1.4 确定列表的长度1.5 使用列表时避免索引错误 2.操作列表2.1 遍历整个列表2.1.1 for循环2.1.2 在for循环中执行更多操作2.1.3 在for循环结束后…

用C语言编写,计算并输出下列多项式值 s=1+1/(1+2)+1/(1+2+3)+ ..1/(1+2+3...+50)

C/C语言程序设计题目 用C语言编写&#xff0c;计算并输出下列多项式值 s11/(12)1/(123) …1/(123…50) C语言设计编程代码 #include <stdio.h>int main() {double s 0; // 初始化s的值为0int n 0; // 初始化n的值为0for (int i 1; i < 50; i) {n i; // 累加n的…

scatterlist

在内核驱动程序的很多代码中&#xff0c;都能够看到类似sgdma的内容&#xff0c;sgdma全称为Scatter/Gather DMA(散列/收集 DMA)&#xff0c;内核中抽象了scatterlist和sg table用来描述和管理这种需要做散列和收集的DMA缓冲区。在内核中设计scatterlist&#xff0c;主要出于两…

BDCC - Lambda VS Kappa

文章目录 概述区别Lambda架构:Kappa架构:总结 适用场景:案例:小结 概述 Lambda架构和Kappa架构都是用于处理大数据的架构模式。 Lambda架构使用了批处理和流处理两种不同的处理方式来处理数据。数据首先通过流处理层进行实时处理&#xff0c;然后再通过批处理层进行离线处理&…

开源C#代码生成器,SmartSoftHelp 开发辅助工具

开源代码生成器&#xff0c;支持自定义生成代码&#xff0c;开源生成代码&#xff0c;自己编写生成格式&#xff0c;最方便的代码生成器 下载地址&#xff1a; 百度网盘 请输入提取码

《时间从来不语,却回答了所有问题》笔记三

目录 感悟 经典摘录 假若我再上一次大学 不完满才是人生 走运与倒霉 毁誉 我的座右铭 二月兰 观天池 火车上观日出 感悟 人这个万物之灵却偏偏有了感情&#xff0c;有了感情就有了悲欢。自古及今&#xff0c;海内海外&#xff0c;一个百分之百完满的人生是没有的&…

《Java虚拟机学习》JVM虚拟机是如何执行方法

1. 重载与重写方法 重载 重载 &#xff1a;同一个类中&#xff0c;方法名相同&#xff0c;形参列表不用&#xff0c;与返回值无关 对于重载方法的执行&#xff0c;JVM遵循下面的三条规则&#xff1a; 在不考虑对基本类型自动装拆箱&#xff08;auto-boxing&#xff0c;auto-…

图嵌入表示学习—Graph Embeddings

Embedding Entire Graphs 一、图嵌入向量基本概念 与Node Embeddings不同&#xff0c;Graph Embeddings是对整个图或子图进行编码而忽略其中的节点。应用场景包括异常检测或分子有毒检测。 二、对Node Embeddings求和或求和后平均 如图&#xff0c;首先对图/子图中的节点进行…