​如何实现一个工业级哈希表​

news2024/7/4 4:47:48

1、避免散列表碰撞攻击

在极端情况下,攻击者通过精心构造的数据,使得所有的数据都散列到同一个槽里,如果使用链表冲突解决方法,散列表就会退化为链表,查询时间复杂度就从 O(1) 退化为 O(n)。

可能因为查询操作消耗大量 CPU 或者线程资源,导致系统无法响应其他请求,从而达到拒绝服务攻击(DoS)的目的。

2、如何设计散列函数?

散列函数设计的好坏,决定了散列表冲突的概率大小,也直接决定了散列表的性能。那什么才是好的散列函数呢?

  • 散列函数的设计不能太复杂,过于复杂的散列函数,会消耗很多计算时间,影响到性能。
  • 散列函数生成的值要尽可能随机并且均匀分布,最小化散列冲突,并且散列到每个槽里的数据也会比较平均。

3、装载因子过大了怎么办?动态扩容

装载因子 load fator,散列表中关键字个数和散列表长度之比,用于度量所有关键字填充哈希表后饱和的程度。

装载因子越大,说明散列表中的元素越多,空闲位置越少,散列冲突的概率就越大。不仅插入数据的过程要多次寻址或者拉很长的链,查找的过程也会因此变得很慢。

针对散列表,当装载因子过大时,我们可以进行动态扩容,重新申请一个更大的散列表,将数据搬移到这个新散列表中。

针对散列表的扩容,因为散列表的大小变了,数据的存储位置也变了,所以我们需要通过散列函数重新计算每个数据的存储位置。

装载因子阈值需要选择得当。如果太大,会导致冲突过多;如果太小,会导致内存浪费严重。

4、如何避免低效地扩容?

当有新数据要插入时,我们将新数据插入新散列表中,并且从老的散列表中拿出一个数据放入到新散列表。每次插入一个数据到散列表,我们都重复上面的过程。经过多次插入操作之后,老的散列表中的数据就一点一点全部搬移到新散列表中了。这样没有了集中的一次性数据搬移,插入操作就都变得很快了。

这期间的查询操作怎么来做呢?对于查询操作,为了兼容了新、老散列表中的数据,我们先从新散列表中查找,如果没有找到,再去老的散列表中查找。

通过这样均摊的方法,将一次性扩容的代价,均摊到多次插入操作中,就避免了一次性扩容耗时过多的情况。这种实现方式,任何情况下,插入一个数据的时间复杂度都是 O(1)。

5、如何选择冲突解决方法?

两种主要的散列冲突的解决办法:开放寻址法和链表法。

比如,Java 中 LinkedHashMap 就采用了链表法解决冲突,ThreadLocalMap 是通过线性探测的开放寻址法来解决冲突。

1. 开放寻址法

使用开放寻址法解决冲突的散列表,装载因子的上限不能太大,这种方法比链表法更浪费内存空间。

总结一下,当数据量比较小、装载因子小的时候,适合采用开放寻址法。这也是 Java 中的ThreadLocalMap使用开放寻址法解决散列冲突的原因。

2. 链表法

链表法对内存的利用率比开放寻址法要高:链表结点可以在需要的时候再创建,不需要事先申请好。

总结一下,基于链表的散列冲突处理方法比较适合存储大对象、大数据量的散列表,而且,比起开放寻址法,它更加灵活,支持更多的优化策略,比如用红黑树代替链表。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/456314.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt 制作小程序登录系统(超详细)

在这里我使用的是 Qt4, 在 windows 平台上来实现的。 文章目录 前言一、基本部件的创建二、主界面的绘制:1. 设置各部件文本:2. 界面布局: 三、 信号处理机制四、Qt4 显示汉字:1. 出现乱码现象2. 解决方法 五、设置标题栏的小图标总结 前言 …

C++入门(中篇)

🔥🔥本章重内容 C入门 1. 函数重载C是怎么支持函数名重载的呢? 2.引用2.1引用特性2.2常引用2.3使用场景1. 做参数2. 做返回值 2.4引用和指针的区别 3.内联函数 1. 函数重载 函数重载:是函数的一种特殊情况,C允许在同…

安卓手机(微信小程序)抓蓝牙通信数据包

前言 因为公司需要......所以我就弄了一下,参考了很多别人的文章。 成果:它可以抓取微信小程序、安卓APP的蓝牙数据通信包。 开始 我是小米手机,所以我以我自己手机为例 通信过程操作 第一步 打开开发者选项,打开蓝牙调试日志和蓝牙数据包日志开关(如果两者只有其中…

电动汽车路径规划问题(Electric Vehicle-Routing Problem, EVRP)

今天给大家带来的是电动汽车路径规划问题(Electric Vehicle-Routing Problem, EVRP)的介绍,按照惯例先上目录,其中第三部分的主要内容出自文献“The Electric Vehicle-Routing Problem with Time Windows and Recharging Stations”。 目录 问题简介 …

Ceph入门都精通-设备类型都是hdd ssd设置错误

手动设置class [rootceph02 ~]# ceph osd crush rm-device-class osd.0 osd.1 osd.2 done removing class of osd(s): 0,1,2 [rootceph02 ~]# ceph osd crush set-device-class ssd osd.0 osd.1 osd.2 osd.3 Error EBUSY: osd.3 has already bound to class hdd, can not res…

【LeetCode】416. 分割等和子集

416. 分割等和子集(中等) 方法一: 0-1背包问题的普通解法 思路 首先,对题目做一个等价转换: 「是否可以从数组中选择一些正整数,使这些数的和等于整个数组元素和的一半」。 这样就可以看作一个 0-1背包问题…

【CAN总线】CAN驱动程序分析

文章目录 一.CAN介绍二.CAN的特点二.CAN的错误检测三.OSI七层模型 一.CAN介绍 CAN具有很高的可靠性,广泛应用于:汽车电子,工业自动化,船舶,医疗设备,工业设备等方面。 当只有2个设备,简单通信,可以看成US…

【GoodERP专题】第一章 GoodERP应用专题之good_expense 费用报销 的使用

文章目录 一、模块设计二、模块1.主数据2.费用申请单3.借款单【付款】4.费用报销单【挂账/付款】5.出差申请单6.出差借款单【付款】7.差旅费报销单【挂账/付款】 总结 一、模块设计 费用报销模块是基于GoodERP框架设计的,该模块是为了解决企业内外费用相关报销任务处…

设计模式:结构型模式 - 装饰者模式

文章目录 1.概述2.结构3.案例4.使用场景5.JDK源码解析6.代理和装饰者的区别 1.概述 我们先来看一个快餐店的例子。 快餐店有炒面、炒饭这些快餐,可以额外附加鸡蛋、火腿、培根这些配菜,当然加配菜需要额外加钱,每个配菜的价钱通常不太一样&…

Tars-Cpp 协程实现分析

作者:vivo 互联网服务器团队- Ye Feng 本文介绍了协程的概念,并讨论了 Tars Cpp 协程的实现原理和源码分析。 一、前言 Tars 是 Linux 基金会的开源项目(THE TARS FOUNDATION PROJECTS GitHub),它是基于名字服务使用…

VMware安装

1.首先去官网下载vmware for windows 2.按以下步骤进行点击 1) 2) 3) 4) 5)两个取消勾选 6) 7) 9)会出现重新启动的窗口,重新启动就可以!

z时代,汽车品牌如何玩转年轻化营销?

随着2.6亿Z世代成为消费主力军,越来越多的品牌意识到:抓住年轻消费者,就等于抓住了一个消费时代。但信息大爆炸的背景下,年轻人的关注阈值越来越高。如何在消费新浪潮下,通过营销打通圈层壁垒,刷新Z世代的品…

浏览器页面操作——实时监控网页变化,读取网页内容

浏览器页面操作功能介绍 浏览器页面操作是集简云的一款免费内置应用,它可以定时监控网页变化,精准捕捉所需信息。一键设置指定网页与元素,全自动监测并即时推送通知,助您在第一时间了解网页最新情况,让您更高效便捷地…

搞懂API,创建供外部系统更新数据 API 的最佳方法

在创建一个供外部系统更新本系统数据的 API 时,需要考虑以下几个方面: 身份认证和安全性:首先需要确保 API 能够安全地接收外部系统发送的请求,可以使用身份认证和加密等方式保护 API 的安全性,避免非法和恶意请求。 …

4年的测试工程师,你遇到过自身瓶颈期吗?又是怎样度过的?

从毕业到现在已经快4年啦,一直软件测试行业混迹。我不是牛人,但是自我感觉还算是个合格的测试工程师,有必要写下自己将近4年来的经历,给自我以提示,给刚入行的朋友提供点参考。 貌似这一点适应的行业最广,…

如何雇佣一名全民开发者?

注:全民开发的英文是Citizen Development,由咨询公司Gartner在2010年提出的概念,指非专业开发人员使用低代码或无代码平台创建应用程序,无需IT部门的支持,旨在提高生产力并降低开发成本。 国内普遍将Citizen Developme…

Node服务端开发 【什么是Node】

文章目录 🌟前言🌟Node.js🌟特性:🌟1. 单线程🌟2.异步IO🌟前端中的异步🌟Node中的异步 🌟3.跨平台🌟4.运行速度快 🌟 劣势:&#x1f3…

7.java程序员必知必会类库之数据库连接池

前言 在java中,“池”化的设计思想随处可见,池化的最终目的是为了对象复用,降低系统创建、销毁对象的成本,提升资源的可管理性。 尤其是一些大对象,创建销毁比较消耗资源的对象,池化可以极大提高效率&…

EMQX vs Mosquitto | 2023 MQTT Broker 对比

引言 物联网开发者需要为自己的物联网项目选择合适的 MQTT 消息产品或服务,从而构建可靠高效的基础数据层,保障上层物联网业务。目前市面上有很多开源的 MQTT 产品,在性能功能等方面各有优点。本文将选取目前最为流行的两个开源 MQTT Broker…

最新!芯片行业有哪些知名企业?

01、芯片设计 芯片设计是产业链中重要的一环,影响后续芯片产品的功能、性能和成本,对研发实力要求较高。根据不同的下游应用,可分为四类: (一)集成电路:存储器、逻辑芯片(CPU、GPU&…