深入Python字典

news2024/12/23 18:06:59

在Python中,字典是通过哈希表实现的。也就是说,字典是一个数组,而数组的索引是键经过哈希函数处理后得到的。哈希函数的目的是使键均匀地分布在数组中。由于不同的键可能具有相同的哈希值,即可能出现冲突,高级的哈希函数能够使冲突数目最小化。

字典是通过键(key)索引的,因此,字典也可视作彼此关联的两个数组。下面我们尝试向字典中添加3个键/值(key/value)对:

d = {'a': 1, 'b': 2} 
 
d['c'] = 3 
 
print( d )
 
# {'a': 1, 'b': 2, 'c': 3}  

这些值可通过如下方法访问:

d = {'a': 1, 'b': 2} 

print( d['a'] )
 
print( d['b'] )
 
print( d['c'] )
 
print( d['d'] )
''' 
Traceback (most recent call last): 
 
  File "", line 1, in  
 
KeyError: 'd'  '''

由于不存在 ‘d’ 这个键,所以引发了KeyError异常。

1. 哈希表(Hash tables)

在Python中,字典是通过哈希表实现的。也就是说,字典是一个数组,而数组的索引是键经过哈希函数处理后得到的。哈希函数的目的是使键均匀地分布在数组中。由于不同的键可能具有相同的哈希值,即可能出现冲突,高级的哈希函数能够使冲突数目最小化。Python中并不包含这样高级的哈希函数,几个重要(用于处理字符串和整数)的哈希函数通常情况下均是常规的类型:

print( map(hash, (0, 1, 2, 3)) )
 
# [0, 1, 2, 3] 
 
print( map(hash, ("namea", "nameb", "namec", "named")) )
 
# [-1658398457, -1658398460, -1658398459, -1658398462]  

在以下的篇幅中,我们仅考虑用字符串作为键的情况。在Python中,用于处理字符串的哈希函数是这样定义的:

arguments: string object 
 
returns: hash 
 
function string_hash: 
 
    if hash cached: 
 
        return it 
 
    set len to string's length 
 
    initialize var p pointing to 1st char of string object 
 
    set x to value pointed by p left shifted by 7 bits 
 
    while len >= 0: 
 
        set var x to (1000003 * x) xor value pointed by p 
 
        increment pointer p 
 
    set x to x xor length of string object 
 
    cache x as the hash so we don't need to calculate it again 
 
    return x as the hash  

如果在Python中运行 hash(‘a’) ,后台将执行 string_hash()函数,然后返回 12416037344 (这里我们假设采用的是64位的平台)。

如果用长度为 x 的数组存储键/值对,则我们需要用值为 x-1 的掩码计算槽(slot,存储键/值对的单元)在数组中的索引。这可使计算索引的过程变得非常迅速。字典结构调整长度的机制(以下会详细介绍)会使找到空槽的概率很高,也就意味着在多数情况下只需要进行简单的计算。假如字典中所用数组的长度是 8 ,那么键’a’的索引为:hash(‘a’) & 7 = 0,同理’b’的索引为 3 ,'c’的索引为 2 , 而’z’的索引与’b’相同,也为 3 ,这就出现了冲突。

在这里插入图片描述
可以看出,Python的哈希函数在键彼此连续的时候表现得很理想,这主要是考虑到通常情况下处理的都是这类形式的数据。然而,一旦我们添加了键’z’就会出现冲突,因为这个键值并不毗邻其他键,且相距较远。

当然,我们也可以用索引为键的哈希值的链表来存储键/值对,但会增加查找元素的时间,时间复杂度也不再是 O(1) 了。下一节将介绍Python的字典解决冲突所采用的方法。

2. 开放寻址法( Open addressing )

开放寻址法是一种用探测手段处理冲突的方法。在上述键’z’冲突的例子中,索引 3 在数组中已经被占用了,因而需要探寻一个当前未被使用的索引。增加和搜寻键/值对需要的时间均为 O(1)。

搜寻空闲槽用到了一个二次探测序列(quadratic probing sequence),其代码如下:

j = (5*j) + 1 + perturb; 
 
perturb >>= PERTURB_SHIFT; 
 
use j % 2**i as the next table index;  

循环地5*j+1可以快速放大不影响初始索引的哈希值二进位的微小差异。变量perturb可使其他二进位也不断变化。

出于好奇,我们来看一看当数组长度为 32 时的探测序列,j = 3 -> 11 -> 19 -> 29 -> 5 -> 6 -> 16 -> 31 -> 28 -> 13 -> 2…

关于探测序列的更多介绍可以参阅dictobject.c的源码。文件的开头包含了对探测机理的详细介绍。

在这里插入图片描述

下面我们结合例子来看一看 Python 内部代码。

3. 基于C语言的字典结构

以下基于C语言的数据结构用于存储字典的键/值对(也称作 entry),存储内容有哈希值,键和值。PyObject 是 Python 对象的一个基类。

typedef struct { 
 
    Py_ssize_t me_hash; 
 
    PyObject *me_key; 
 
    PyObject *me_value 
 
} PyDictEntry;  

下面为字典对应的数据结构。其中,ma_fill为活动槽以及哑槽(dummy slot)的总数。当一个活动槽中的键/值对被删除后,该槽则被标记为哑槽。ma_used为活动槽的总数。ma_mask值为数组的长度减 1 ,用于计算槽的索引。ma_table为数组本身,ma_smalltable为长度为 8 的初始数组。

typedef struct _dictobject PyDictObject; 
 
struct _dictobject { 
 
    PyObject_HEAD 
 
    Py_ssize_t ma_fill; 
 
    Py_ssize_t ma_used; 
 
    Py_ssize_t ma_mask; 
 
    PyDictEntry *ma_table; 
 
    PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash); 
 
    PyDictEntry ma_smalltable[PyDict_MINSIZE]; 
 
};  

字典初始化

字典在初次创建时将调用PyDict_New()函数。这里删掉了源代码中的部分行,并且将C语言代码转换成了伪代码以突出其中的几个关键概念。

returns new dictionary object 
 
function PyDict_New: 
 
    allocate new dictionary object 
 
    clear dictionary's table 
 
    set dictionary's number of used slots + dummy slots (ma_fill) to 0 
 
    set dictionary's number of active slots (ma_used) to 0 
 
    set dictionary's mask (ma_value) to dictionary size - 1 = 7 
 
    set dictionary's lookup function to lookdict_string 
 
    return allocated dictionary object  

添加项

添加新的键/值对调用的是PyDict_SetItem()函数。函数将使用一个指针指向字典对象和键/值对。这一过程中,首先会检查键是否是字符串,然后计算哈希值,如果先前已经计算并缓存了键的哈希值,则直接使用缓存的值。接着调用insertdict()函数添加新键/值对。如果活动槽和空槽的总数超过数组长度的2/3,则需调整数组的长度。为什么是 2/3 ?这主要是为了保证探测序列能够以足够快的速度找到空闲槽。后面我们会介绍调整长度的函数。

arguments: dictionary, key, value 
 
returns: 0 if OK or -1 
 
function PyDict_SetItem: 
 
    if key's hash cached: 
 
        use hash 
 
    else: 
 
        calculate hash 
 
    call insertdict with dictionary object, key, hash and value 
 
    if key/value pair added successfully and capacity over 2/3: 
 
        call dictresize to resize dictionary's table  

inserdict() 使用搜寻函数 lookdict_string() 来查找空闲槽。这跟查找键所用的是同一函数。lookdict_string() 使用哈希值和掩码计算槽的索引。如果用“索引 = 哈希值&掩码”的方法未找到键,则会用调用先前介绍的循环方法探测,直至找到一个空闲槽。***轮探测,如果未找到匹配的键的且探测过程中遇到过哑槽,则返回一个哑槽。这可使优先选择先前删除的槽。

现在我们想添加如下的键/值对:{‘a’: 1, ‘b’: 2′, ‘z’: 26, ‘y’: 25, ‘c’: 5, ‘x’: 24},那么将会发生如下过程:

分配一个字典结构,内部表的尺寸为8。
在这里插入图片描述
在这里插入图片描述
以下就是我们目前所得到的:
在这里插入图片描述

8个槽中的6个已被使用,使用量已经超过了总容量的2/3,因而,dictresize()函数将会被调用,用以分配一个长度更大的数组,同时将旧表中的条目复制到新的表中。

在我们这个例子中,dictresize()函数被调用后,数组长度调整后的长度不小于活动槽数量的 4 倍,即minused = 24 = 4ma_used。而当活动槽的数量非常大(大于50000)时,调整后长度应不小于活动槽数量的2倍,即2ma_used。为什么是 4 倍?这主要是为了减少调用调整长度函数的次数,同时能显著提高稀疏度。

新表的长度应大于 24,计算长度值时会不断对当前长度值进行升位运算,直到大于 24,最终得到的长度是 32,例如当前长度为 8 ,则计算过程如8 -> 16 -> 32。

这就是长度调整的过程:分配一个长度为 32 的新表,然后用新的掩码,也就是 31 ,将旧表中的条目插入到新表。最终得到的结果如下:
在这里插入图片描述

4. 删除项

删除条目时将调用PyDict_DelItem()函数。删除时,首先计算键的哈希值,然后调用搜询函数返回到该条目,***该槽被标记为哑槽。

假设我们想要从字典中删除键’c’,我们最终将得到如下结果:
在这里插入图片描述

注意,删除项目后,即使最终活动槽的数量远小于总的数量也不会触发调整数组长度的动作。但是,若删减后又增加键/值对时,由于调整长度的条件判断基于的是活动槽与哑槽的总数量,因而可能会缩减数组长度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/868827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开封Geotrust单域名https证书推荐

Geotrust作为全球领先的数字证书颁发机构之一,拥有多年的数字证书颁发经验,其数字证书被广泛应用于电子商务、在线支付、企业通讯、云计算等领域,为用户提供了安全可靠的保障。而Geotrust旗下的单域名https证书是大多数客户创建网站时的选择之…

最容易理解的C51单片机4位密码锁示例代码(附proteus电路图)

说明:开机启动就是上图这样的,密码正确显示P(pass),密码错误显示E(error) #include "reg51.h" #include "myheader.h" #define uchar unsigned char long int sleep_i0; int pwd[4]{0…

Linux 库文件——静态库和共享库

一、库文件的概念 库是一组预先编译好的方法(.o文件)的集合。Linux系统存储的库的位置一般在:/lib 和 /usr/lib。 在 64 位的系统上有些库也可能被存储在/usr/lib64 下。库的头文件一般会被存储在/usr/include 下或其子目录下。 库有两种&…

一个Demo搞定前后端大文件分片上传、断点续传、秒传

原文链接:https://juejin.cn/post/7266265543412351030 前言 文件上传在项目开发中再常见不过了,大多项目都会涉及到图片、音频、视频、文件的上传,通常简单的一个Form表单就可以上传小文件了,但是遇到大文件时比如1GB以上&…

Leetcode-每日一题【剑指 Offer 28. 对称的二叉树】

题目 请实现一个函数,用来判断一棵二叉树是不是对称的。如果一棵二叉树和它的镜像一样,那么它是对称的。 例如,二叉树 [1,2,2,3,4,4,3] 是对称的。 1 / \ 2 2 / \ / \ 3 4 4 3 但是下面这个 [1,2,2,null,3,null,3] 则不是镜像对称…

利用三维内容编辑器制作VR交互课件,简单好用易上手

随着虚拟现实技术的不断发展,越来越多的教育机构开始尝试将其应用于教育教学中。然而,要实现这一目标并不容易,需要专业的技术支持和开发团队。 为了解决这一问题,广州华锐互动研发了三维内容编辑器,它是一种基于虚拟现…

13.3 目标检测和边界框

锚框的计算公式 假设原图的高为H,宽为W 详细公式推导 以同一个像素点为锚框,可以生成 (n个缩放 m个宽高比 -1 )个锚框 给训练集标注锚框 每个锚框包含的信息有:每个锚框的类别 和 偏移量。 偏移量指的是:真实边界相对于锚框的偏移量。 …

Android系统-ServiceManager1

目录 引言 概念 启动 流程图 main binder_open binder_become_context_manager binder_ioctl binder_ioctl_set_ctx_mgr binder_new_node binder_loop binder_write binder_ioctl binder_ioctl_write_read binder_thread_write binder_parse bio_init bio_in…

新鲜出炉的小工具,将Claude 100K转化为免费可用的OpenAI API

上个月转载了一篇文章,讲的就是刚刚发布的Claude 2.0,可以说是非常强大了:ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用 但是可惜的是,Claude虽然免费使用,但是不开放API给我们…

【uni-app】 .sync修饰符与$emit(update:xxx)实现数据双向绑定

最近在看uni-app文档,看到.sync修饰符的时候,觉得很有必要记录一下 其实uni-app是一个基于Vue.js和微信小程序开发框架的跨平台开发工具 所以经常会听到这样的说法,只要你会vue,uni-app就不难上手 在看文档的过程中,发…

邵阳人自己的民国风情街终于来了!随手一拍即是大片!

在邵阳这座美丽的城市,拥有许多非常有意思并且值得打卡的游玩景区,“丹霞之魂,国之瑰宝”的崀山、“南方呼伦贝尔”之称的高山苔地草原、被联合国誉为“神奇绿洲”的遂宁黄桑等等都是成都这座城市的代表,但在邵阳最有民国风情韵味…

【小吉带你学Git】讲解GitHub操作,码云操作,GitLab操作

🎊专栏【Git】 🍔喜欢的诗句:更喜岷山千里雪 三军过后尽开颜。 🎆音乐分享【如愿】 🌺欢迎并且感谢大家指出小吉的问题🥰 文章目录 🍔GitHub操作⭐安装GitHub插件⭐在idea中设置GitHub账号&…

完成图像反差处理

bmp图像的前54字节为图像头,第19个字节开始4字节为图像宽,第23字节开始4字节为图像高,图像大小为:972*720*3542099574,为宽*高*像素点头,如下: 图像的反差处理

最强自动化测试框架Playwright(10)- 截图

截图 捕获屏幕截图并将其保存到文件中: page.screenshot(path"screenshot.png")可将页面截图保存为screen.png import osfrom playwright.sync_api import Playwright, expect, sync_playwrightdef run(playwright: Playwright) -> None:browser p…

python之matplotlib入门初体验:使用Matplotlib进行简单的图形绘制

目录 绘制简单的折线图1.1 修改标签文字和线条粗细1.2 校正图形1.3 使用内置样式1.4 使用scatter()绘制散点图并设置样式1.5 使用scatter()绘制一系列点1.6 python循环自动计算数据1.7 自定义颜色1.8 使用颜色映射1.9 自动保存图表练习题 绘制简单的折线图 绘制一个简单折线图…

Playable 动画系统

Playable 基本用法 Playable意思是可播放的,可运行的。Playable整体是树形结构,PlayableGraph相当于一个容器,所有元素都被包含在里面,图中的每个节点都是Playable,叶子节点的Playable包裹原始数据,相当于输…

c++ cpp cmake opencv 深度学习模型 推理 前向部署 代码示例示意

参考实现&#xff1a; https://github.com/spmallick/learnopencv/tree/master/AgeGender 文件结构&#xff1a; 具体实现&#xff1a; #include <opencv2/imgproc.hpp> #include <opencv2/highgui.hpp> #include <opencv2/dnn.hpp> #include <tuple&g…

机器学习深度学习——seq2seq实现机器翻译(数据集处理)

&#x1f468;‍&#x1f393;作者简介&#xff1a;一位即将上大四&#xff0c;正专攻机器学习的保研er &#x1f30c;上期文章&#xff1a;机器学习&&深度学习——从编码器-解码器架构到seq2seq&#xff08;机器翻译&#xff09; &#x1f4da;订阅专栏&#xff1a;机…

[数据集][目标检测]道路坑洼目标检测数据集VOC格式1510张2类别

数据集格式&#xff1a;Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件&#xff0c;仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数)&#xff1a;1510 标注数量(xml文件个数)&#xff1a;1510 标注类别数&#xff1a;2 标注类别名称:["keng","…

指针进阶大冒险:解锁C语言中的奇妙世界!

目录 引言 第一阶段&#xff1a;&#x1f50d; 独特的字符指针 什么是字符指针&#xff1f; 字符指针的用途 演示&#xff1a;使用字符指针拷贝字符串 字符指针与字符串常量 小试牛刀 第二阶段&#xff1a;&#x1f3af; 玩转指针数组 指针数组是什么&#xff1f; 指针…