数据结构和算法——哈希查找冲突处理方法(开放地址法-线性探测、平方探测、双散列探测、再散列,分离链接法)

news2024/11/24 19:01:25

目录

开放地址法(Open Addressing)

线性探测(Linear Probing)

散列表查找性能分析

平方探测(Quadratic Probing) 

定理

平方探测法的查找与插入

双散列探测法(Double Hashing) 

再散列(Rehashing)

分离链接法(Separate Chaining)

平均查找次数

分离链接法的散列表实现


常用处理冲突的思路:

  • 换个位置:开放定址法
  • 同一位置的冲突对象组织在一起:链地址法

开放地址法(Open Addressing)

一旦产生了冲突(该地址已有其它元素),就按某种规则去寻找另一空地址

若发生了第i次冲突,试探的下一个地址将增加d_i,基本公式是:h_i(key)=(h(key)+d_i)\: \: mod\: \: TableSize\: \: \: \: (1\leq i< TableSize)

d_i的不同决定了不同的解决冲突方案:线性探测、平方探测、双散列。

  • 线性探测:d_i=i
  • 平方探测:d_i=\pm \: i^2
  • 双散列:d_i=i*h_2(key)

线性探测(Linear Probing)

线性探测法:以增量序列1,2,......,(TableSize-1)循环试探下一个存储地址。

通俗地来讲,就是当发生冲突时,将关键词+1;检测地址是否为空,如果不为空,就继续+1;如果为空,则表明不冲突了。

【例】设关键词序列为{47,7,29,11,9,84,54,20,30},散列表表长TableSize = 13(装填因子\alpha =9/13\approx 0.69);散列函数为:h(key)=key\: \: \: mod\: \: \: 11.

线性探测法处理冲突,列出依次插入后的散列表,并估算查找性能。

为了方便演示,我们先在不考虑冲突的情况下,把所有关键词的散列地址算出来:

关键词(key)4772911984542030
散列地址h(key)3770971098

 发现很多地方是冲突的,这次用线性探测法来试着解决冲突。

操作/地址0123456789101112说明
插入4747无冲突
插入7477无冲突
插入2947729d_1=1
插入111147729无冲突
插入911477299无冲突
插入841147729984d_3=3
插入54114772998454d_1=1
插入2011477299845420d_3=3
插入301130477299845420d_6=6

最终我们整理得到:

H(key)0123456789101112
key1130477299845420
冲突次数060010313

散列表查找性能分析

  • 成功平均查找长度(ASLs)
  • 不成功平均查找长度(ASLu)

ASLs:查找表中关键词的平均查找比较次数(等于其冲突次数加1) 

即将所有元素的查找次数加起来,最后除以元素的个数

ASLs=\frac{1+7+1+1+2+1+4+2+4}{9}=\frac{23}{9}\approx 2.56

ASLu:不在散列表中的关键词的平均查找次数(不成功)

因为取余数的计算方式,所以所有不在散列表的关键词至多有p-1中情况(表不为空),例如例题中的散列函数,假设其表只有一个元素,那么其不在表中的情况就会有10种,我们一样考虑其需要比较几次。

余数为0的情况,表中位置[0]和[1]都不为空,所以需要比较3次;

余数为1的情况,表中位置[1]不为空,所以需要比较2次;

余数为2的情况,表中位置[2]为空,所以只需要比较1次;

余数为3的情况,表中位置[3]不为空,所以需要比较2次;

......

以此类推。

ASLu=\frac{3+2+1+2+1+1+1+9+8+7+6}{11}=\frac{41}{11}\approx 3.73

平方探测(Quadratic Probing) 

平方探测法:以增量序列1^2,{-1}^2,2^2,{-2}^2,......,q^2,{-q}^2q\leq \left \lfloor TableSize/2 \right \rfloor循环试探下一个存储地址。

【例】设关键词序列为{47,7,29,11,9,84,54,20,30},散列表表长TableSize = 11,散列函数为:h(key)=key\: \: mod\: \: 11.用平方探测法处理冲突,列出依次插入后的散列表,并估算ASLs

关键词(key)4772911984542030
散列地址h(key)3770971098
操作/地址012345678910说明
插入4747无冲突
插入7477无冲突
插入2947729d_1=1
插入111147729无冲突
插入911477299无冲突
插入841147847299d_2=-1
插入54114784729954无冲突
插入2011204784729954d_3=4
插入301130204784729954d_3=4

注意:用平方探测法,并不是有空间就一定能检测到的。

定理

如果散列表长度TableSize是某个4k+3(k是正整数)形式的素数时,平方探测法就可以探查到整个散列表空间。

平方探测法的查找与插入

#define MAXTABLESIZE 100000 /* 允许开辟的最大散列表长度 */
typedef int ElementType;    /* 关键词类型用整型 */
typedef int Index;          /* 散列地址类型 */
typedef Index Position;     /* 数据所在位置与散列地址是同一类型 */
/* 散列单元状态类型,分别对应:有合法元素、空单元、有已删除元素 */
typedef enum { Legitimate, Empty, Deleted } EntryType;

typedef struct HashEntry Cell; /* 散列表单元类型 */
struct HashEntry{
    ElementType Data; /* 存放元素 */
    EntryType Info;   /* 单元状态 */
};

typedef struct TblNode *HashTable; /* 散列表类型 */
struct TblNode {   /* 散列表结点定义 */
    int TableSize; /* 表的最大长度 */
    Cell *Cells;   /* 存放散列单元数据的数组 */
};

int NextPrime( int N )
{ /* 返回大于N且不超过MAXTABLESIZE的最小素数 */
    int i, p = (N%2)? N+2 : N+1; /*从大于N的下一个奇数开始 */

    while( p <= MAXTABLESIZE ) {
        for( i=(int)sqrt(p); i>2; i-- )
            if ( !(p%i) ) break; /* p不是素数 */
        if ( i==2 ) break; /* for正常结束,说明p是素数 */
        else  p += 2; /* 否则试探下一个奇数 */
    }
    return p;
}

HashTable CreateTable( int TableSize )
{
    HashTable H;
    int i;

    H = (HashTable)malloc(sizeof(struct TblNode));
    /* 保证散列表最大长度是素数 */
    H->TableSize = NextPrime(TableSize);
    /* 声明单元数组 */
    H->Cells = (Cell *)malloc(H->TableSize*sizeof(Cell));
    /* 初始化单元状态为“空单元” */
    for( i=0; i<H->TableSize; i++ )
        H->Cells[i].Info = Empty;

    return H;
}

Position Find( HashTable H, ElementType Key )
{
    Position CurrentPos, NewPos;
    int CNum = 0; /* 记录冲突次数 */

    NewPos = CurrentPos = Hash( Key, H->TableSize ); /* 初始散列位置 */
    /* 当该位置的单元非空,并且不是要找的元素时,发生冲突 */
    while( H->Cells[NewPos].Info!=Empty && H->Cells[NewPos].Data!=Key ) {
                                           /* 字符串类型的关键词需要 strcmp 函数!! */
        /* 统计1次冲突,并判断奇偶次 */
        if( ++CNum%2 ){ /* 奇数次冲突 */
            NewPos = CurrentPos + (CNum+1)*(CNum+1)/4; /* 增量为+[(CNum+1)/2]^2 */
            if ( NewPos >= H->TableSize )
                NewPos = NewPos % H->TableSize; /* 调整为合法地址 */
        }
        else { /* 偶数次冲突 */
            NewPos = CurrentPos - CNum*CNum/4; /* 增量为-(CNum/2)^2 */
            while( NewPos < 0 )
                NewPos += H->TableSize; /* 调整为合法地址 */
        }
    }
    return NewPos; /* 此时NewPos或者是Key的位置,或者是一个空单元的位置(表示找不到)*/
}

bool Insert( HashTable H, ElementType Key )
{
    Position Pos = Find( H, Key ); /* 先检查Key是否已经存在 */

    if( H->Cells[Pos].Info != Legitimate ) { /* 如果这个单元没有被占,说明Key可以插入在此 */
        H->Cells[Pos].Info = Legitimate;
        H->Cells[Pos].Data = Key;
        /*字符串类型的关键词需要 strcpy 函数!! */
        return true;
    }
    else {
        printf("键值已存在");
        return false;
    }
}
/*​
源代码来自:https://www.icourse163.org/learn/ZJU-93001?tid=1469696455#/learn/content?type=detail&id=1252518398&cid=1282086737   
​*/

在开放地址散列表中,删除操作要很小心。通常只能“懒惰删除”,即需要增加一个“删除标记(Deleted)”,而并不是真正删除它。以便查找时不会“断链”。其空间可以在下次插入时重用

双散列探测法(Double Hashing) 

双散列探测法:d_i=i*h_2(key)h_2(key)是另外一个散列函数,

探测序列成:h_2(key),2h_2(key),3h_2(key),......

对任意的key,h_2(key)\neq 0!!

探测序列还应该保证所有的散列存储单元都应该能够被探测到。选择以下形式有良好的效果:

h_2(key)=p-(key \: \: mod \: \: p)

其中,p < TableSize,p、TableSize都是素数

再散列(Rehashing)

  • 当散列表元素太多(即装填因子\alpha太大)时,查找效率会下降;

比如散列表的大小为11,但此时表中以装填的元素已达到了9个,装填因子就很大了,再进行元素的插入就会很容易发生冲突,实用最大装填因子一般取0.5\leqslant \alpha \leqslant 0.85.

  • 当装填因子过大时,解决的方法是加倍扩大散列表,这个过程叫做“再散列(Rehashing)”。

例如散列表的大小为11,就加倍扩大成23(素数),再将所有元素重新插入。

分离链接法(Separate Chaining)

分离链接法:将相应位置上冲突的所有关键词存储在同一个单链表中。

分离链接法在逻辑上比较容易理解,看以下的例题:

【例】设关键字序列为47,7,29,11,16,92,22,8,3,50,37,89,94,21;散列函数取为:h(key) =key\: \: mod \: \: 11;用分离链接法处理冲突。

struct HashTbl
{
    int TableSize;
    List TheLists;
}*H;

平均查找次数

  • 表中有9个结点只需1次查找
  • 5个结点需要2次查找
  • 查找成功的平均查找次数:

ASLs=\frac{9\times 1+5\times 2}{14}\approx 1.36

分离链接法的散列表实现

#define KEYLENGTH 15                   /* 关键词字符串的最大长度 */
typedef char ElementType[KEYLENGTH+1]; /* 关键词类型用字符串 */
typedef int Index;                     /* 散列地址类型 */
/******** 以下是单链表的定义 ********/
typedef struct LNode *PtrToLNode;
struct LNode {
    ElementType Data;
    PtrToLNode Next;
};
typedef PtrToLNode Position;
typedef PtrToLNode List;
/******** 以上是单链表的定义 ********/

typedef struct TblNode *HashTable; /* 散列表类型 */
struct TblNode {   /* 散列表结点定义 */
    int TableSize; /* 表的最大长度 */
    List Heads;    /* 指向链表头结点的数组 */
};

HashTable CreateTable( int TableSize )
{
    HashTable H;
    int i;

    H = (HashTable)malloc(sizeof(struct TblNode));
    /* 保证散列表最大长度是素数,具体见代码5.3 */
    H->TableSize = NextPrime(TableSize);

    /* 以下分配链表头结点数组 */
    H->Heads = (List)malloc(H->TableSize*sizeof(struct LNode));
    /* 初始化表头结点 */
    for( i=0; i<H->TableSize; i++ ) {
         H->Heads[i].Data[0] = '\0';
         H->Heads[i].Next = NULL;
    }

    return H;
}

Position Find( HashTable H, ElementType Key )
{
    Position P;
    Index Pos;
    
    Pos = Hash( Key, H->TableSize ); /* 初始散列位置 */
    P = H->Heads[Pos].Next; /* 从该链表的第1个结点开始 */
    /* 当未到表尾,并且Key未找到时 */ 
    while( P && strcmp(P->Data, Key) )
        P = P->Next;

    return P; /* 此时P或者指向找到的结点,或者为NULL */
}

bool Insert( HashTable H, ElementType Key )
{
    Position P, NewCell;
    Index Pos;
    
    P = Find( H, Key );
    if ( !P ) { /* 关键词未找到,可以插入 */
        NewCell = (Position)malloc(sizeof(struct LNode));
        strcpy(NewCell->Data, Key);
        Pos = Hash( Key, H->TableSize ); /* 初始散列位置 */
        /* 将NewCell插入为H->Heads[Pos]链表的第1个结点 */
        NewCell->Next = H->Heads[Pos].Next;
        H->Heads[Pos].Next = NewCell; 
        return true;
    }
    else { /* 关键词已存在 */
        printf("键值已存在");
        return false;
    }
}

void DestroyTable( HashTable H )
{
    int i;
    Position P, Tmp;
    
    /* 释放每个链表的结点 */
    for( i=0; i<H->TableSize; i++ ) {
        P = H->Heads[i].Next;
        while( P ) {
            Tmp = P->Next;
            free( P );
            P = Tmp;
        }
    }
    free( H->Heads ); /* 释放头结点数组 */
    free( H );        /* 释放散列表结点 */
}
/*
源代码来自:https://www.icourse163.org/learn/ZJU-93001?tid=1469696455#/learn/content?type=detail&id=1252518398&cid=1282086740
*/

end


学习自:MOOC数据结构——陈越、何钦铭

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/857091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】经典题目(四)

HI&#xff0c;大家好~&#x1f61d;&#x1f61d;这是一篇C语言经典题目的博客。 更多C语言经典题目及刷题篇&#xff0c;可以参考&#xff1a; &#x1f338; 【C语言】经典题目(一) &#x1f338; 【C语言】经典题目(二) &#x1f338; 【C语言】经典题目(三) &#x1f338;…

生信分析pandas数据处理 Python简明教程 | 视频17

开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在&#xff1a;https://github.com/Tong-Chen/Bioinfo_course_python 目录 背景介绍 编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法 数…

ant design pro 中ModalForm的参数open无法控制的问题

根据antd自己的说明&#xff0c;visible这个参数在下个版本会被替换成open&#xff0c;所以今天我试着用open。 但是用了open之后发现这个model弹不出来&#xff0c;用visible是正常的。 那么问题在哪呢&#xff1f;又是在import的位置不对 open可以使用的是&#xff1a; imp…

在2023年及以后可以改善企业业务的五种软件

在当今互通互联的世界&#xff0c;依赖人工流程和传统方法的日子早已过去。目前&#xff0c;各种各样的软件解决方案有助于推动企业走向成功。这些解决方案是重塑客户关系、优化项目工作流程、革新财务管理实践以及通过沉浸式的培训体验增强员工能力的关键。 采用软件解决方案…

政府部门联合开展智能制造试点示范行动,对企业发展有哪些利好?

智能制造&#xff08;也称为工业 4.0 或工业物联网 (IIoT)&#xff09;的试点示范可以为业务发展带来诸多好处。主要优势体现在&#xff1a; 1.提高效率&#xff1a;智能制造集成了自动化、数据分析、人工智能和机器学习等先进技术。这些技术优化了生产流程&#xff0c;从而提…

Ubuntu 20.04 APT 方式安装 mysql 5.7

Ubuntu 20.04 直接 apt 安装的 mysql 是 8.0 &#xff0c;现在需要安装 5.7 版本&#xff0c;还颇费周章&#xff01;按照文档直接点进去那个 MySQL APT Repository 中&#xff08;https://dev.mysql.com/downloads/repo/apt/&#xff09;只显示了 8.0 &#xff0c;没有其他版本…

ClickHouse(十六):Clickhouse MergeTree系列表引擎 - CollapsingMergeTree

进入正文前&#xff0c;感谢宝子们订阅专题、点赞、评论、收藏&#xff01;关注IT贫道&#xff0c;获取高质量博客内容&#xff01; &#x1f3e1;个人主页&#xff1a;含各种IT体系技术&#xff0c;IT贫道_Apache Doris,大数据OLAP体系技术栈,Kerberos安全认证-CSDN博客 &…

风丘科技将亮相 EVM ASIA 2023

风丘科技将首次亮相 EVM ASIA 2023 WINDHILL will debut EVM ASIA 2023 ——可持续移动的未来 —The Future of SUSTAINABLE Mobility EVM ASIA 2023是亚太地区电气化的国际性展会&#xff0c;专注于新能源汽车、充电技术及汽车零件制造等。展会致力于促进包括充电站、交通…

SpringBoot(十)SpringBoot自定义starter

一个月的时间&#xff0c;转眼已经到了我的SpringBoot系列的第十篇文章。还记得我的第二篇文章SpringBoot&#xff08;二&#xff09;starter介绍_springboot的starter_heart荼毒的博客-CSDN博客 曾经介绍过starter。starter除了官方提供的以外&#xff0c;我们也可以自定义。本…

【前端 | CSS】align-items与align-content的区别

align-items 描述 CSS align-items 属性将所有直接子节点上的 align-self 值设置为一个组。align-self 属性设置项目在其包含块中在交叉轴方向上的对齐方式 align-items是针对每一个子项起作用&#xff0c;它的基本单位是每一个子项&#xff0c;在所有情况下都有效果&…

面试热题(路径总和II)

给你二叉树的根节点 root 和一个整数目标和 targetSum &#xff0c;找出所有 从根节点到叶子节点 路径总和等于给定目标和的路径。 叶子节点 是指没有子节点的节点。 在这里给大家提供两种方法进行思考&#xff0c;第一种方法是递归&#xff0c;第二种方式使用回溯的方式进行爆…

携程验证码

今日话题&#xff1a;凑字数水文章。大表哥们感兴趣可以看看。 携程验证类型总共有3种。无感&#xff0c;滑块&#xff0c;点选。 process_type&#xff1a;None为无感 验证接口&#xff1a;https://ic.ctrip.com/captcha/v4/risk_inspect process_type&#xff1a;JIGSAW为…

opencv带GStreamer之Windows编译

目录 1、下载GStreamer和安装2. GSTReamer CMake配置3. 验证是否配置成功 1、下载GStreamer和安装 下载地址如下&#xff1a; gstreamer-1.0-msvc-x86_64-1.18.2.msi gstreamer-1.0-devel-msvc-x86_64-1.18.2.msi 安装目录无要求&#xff0c;主要是安装完设置环境变量 xxx\1…

无涯教程-Perl - getservbyport函数

描述 此功能转换协议PROTO的服务编号PORT,在标量context中返回服务名称,并在列表context中返回名称和相关信息- ($name,$aliases,$port_number,$protocol_name) 该调用基于/etc/services文件返回这些值。 语法 以下是此函数的简单语法- getservbyport PORT, PROTO返回值 …

科学家揭示:爱的能量是光——能够治愈一切!

当你和你的恋人食指相触时&#xff0c;指尖发出的辉光会产生闪电般绚烂的连结&#xff1b; 当你对着亲密的另一半说“我爱你”时&#xff0c;一团物质能量随即从你的胸口释出&#xff0c;飞向另一个人——这听起来像魔幻电影般的场景&#xff0c;却是实实在在的物理现象。 1、人…

uniapp input输入框placeholder文本右对齐

input输入框placeholder文本右对齐 给input标签加上placeholder-class&#xff0c;这个是给placeholder设置样式&#xff0c;右对齐这就是text-align:right;字体颜色之类依次编辑即可。

python——案例13:显示现在的时间

案例13&#xff1a;显示现在的时间import timefor i in range(1):print(time.strftime(%Y-%m-%d %H:%M:%S,time.localtime(time.time())))

GLSL用于图像处理

Pipeline 硬件处理顶点和片段的Pipeline 软件的输入 顶点着色器 顶点的glsl 输入–特殊全局变量 变量 类型 指定函数 描述 gl_ Vertex vec4 glVertex 顶点的全局空间坐标 gl_Color vec4 glColor 主颜色值 gl_SecondaryColor vec4 glSecondaryColor 辅助颜色值 gl_Normal …

布谷鸟配音:智能文字转语音配音软件

这是一款主打文字转语音功能的智能配音软件&#xff0c;它提供了数百种不同风格、具备真人发声效果的配音音效&#xff0c;包含沉稳的男声、温柔的女声、稚嫩的童声&#xff0c;还支持方言和外语配音&#xff0c;可以应用于多种场景&#xff0c;例如在线教育、广告宣传、电子书…

贡献超 10 万代码的新晋 committer,持续参与 Apache IoTDB 社区的“秘籍”是?

资深贡献者成为 Committer&#xff01; 2023 年 5 月 5 日&#xff0c;经 Apache IoTDB 社区投票&#xff0c;周沛辰成为 Apache IoTDB Committer。但其实这位新 committer 已经是 GitHub 代码贡献量突破 10 万&#xff0c;排名靠前的“资深贡献者”了。这位 Apache IoTDB 的“…