海量数据去重的hash,布隆过滤器Bloom Filter,一致性hash

news2024/12/24 14:33:22

文章目录

  • 一、⭐hash函数
    • 如何选取hash函数?
    • 冲突处理
  • 二、⭐海量数据去重布隆过滤器
    • **布隆过滤器介绍**
    • 布隆过滤如何应用
  • 三、⭐一致性哈希
    • 基本原理:
  • 四、⭐一道面试题


一、⭐hash函数

hash函数的作⽤:避免插⼊的时候字符串的⽐较,hash函数计算出来的值通过对数组⻓度的取模能随机分布在数组当中。
  
  hash冲突(hash碰撞):hash(key)=addr,hash 函数可能会把两个或两个以上的不同 key 映射到同一地址。hash函数⼀般返回的是64位整数,将多个⼤数映射到⼀个⼩数组中,必然会产⽣冲突。
  
  负载因子:用来形容散列表的存储密度。数组存储元素的个数 / 数据长度;负载因子越小,冲突越小,负载因子越大,冲突越大。

如何选取hash函数?

选取计算速度快
强随机分布(等概率、均匀地分布在整个地址空间)
murmurhash1,murmurhash2,murmurhash3,siphash(redis6.0当中使⽤,rust等大多数语言选用的hash算法来实现hashmap),cityhash 都具备强随机分布性

siphash 主要解决字符串接近的强随机分布性,所以如果要hash字符串的话,优先选用siphash

冲突处理

链表法
  引用链表来处理哈希冲突,也就是将冲突元素用链表链接起来,这也是常用的处理冲突的⽅式。但是可能出现一种极端情况,冲突元素比较多,该冲突链表过长,这个时候可以将这个链表转换为红黑树。由原来链表时间复杂度 转换为红黑树时间复杂度 ,那么判断该链表过长的依据是多少?可以采⽤超过 256(经验值)个节点的时候将链表结构转换为红黑树结构。
  
开放寻址法
  将所有的元素都存放在哈希表的数组中,不使用额外的数据结构;一般使用线性探查的思路解决

  1. 当插⼊新元素的时,使⽤哈希函数在哈希表中定位元素位置
  2. 检查数组中该槽位索引是否存在元素。如果该槽位为空,则插⼊,否则3
  3. 在 2 检测的槽位索引上加⼀定步⻓接着检查2

这两种都会导致同类hash聚集,也就是近似值它的hash值也近似。那么它的数组槽位也靠近,形成hash聚集。第⼀种同类聚集冲突在前,第⼆种只是将聚集冲突延后。

可以使⽤双重哈希来解决上⾯出现hash聚集现象

二、⭐海量数据去重布隆过滤器

红⿊树和hashtable都不能解决海量数据问题,它们都需要存储具体字符串,如果数据量⼤,提供不了⼏百G的内存;所以需要尝试探寻不存储key的⽅案,并且拥有hashtable的优点(不需要⽐较字符串)。而布隆过滤器就刚好满足这一需求,它不需要存储具体字符串,也不需要比较。时间和空间复杂度都低。

布隆过滤器介绍

布隆过滤器定义:布隆过滤器是⼀种概率型数据结构,它的特点是⾼效的插⼊和查询,能明确告知某个字符串⼀定不存在或者可能存在

优缺点:布隆过滤器相⽐传统的查询结构(例如:hash,set,map等数据结构)更加⾼效,占⽤空间更⼩,但是确定是它返回的结果是概率性的,结果存在一定的误差,误差可控,同时不支持删除操作

构成:位图(bit数组)+ n个hash函数。

布隆过滤器原理
  当一个元素加入位图时:通过 K 个 hash 函数运算将这个元素映射到位图的 K 个点,并将它们置为1
  当检索一个元素时:通过通过 K 个 hash 函数运算检测位图的 K 个点是否都为1,如果都为1,则可能存在;如果有一个不为1,则一定不存在。
在这里插入图片描述
为什么不支持删除操作?因为在位图中每个槽位只有两种状态(0 或者 1),一个槽位被设置为 1 状态,但不确定它被设置了多少次;也就是不知道被多少个 key 哈希映射而来以及是被具体哪个 hash 函数映射而来,所以不支持删除操作。

如果想实现删除操作,可以用两个布隆过滤器,将删除的元素,放入第二个布隆过滤器里面,然后查询的时候去第二个里面查,如果第二个里面能查到说明可能被删除(注意也是存在误差的)。

布隆过滤如何应用

变量关系
  在实际应⽤过程中,布隆过滤器该如何使⽤?要选择多少个hash函数,要分配多少空间的位图,存储多少元素?另外如何控制假阳率(布隆过滤器能明确⼀定不存在,不能明确⼀定存在,那么存在的判断是有误差的,假阳率就是错误判断存在的概率)?

n - - 布隆过滤器中元素的个数,如上图 只有str1和str2 两个元素 那么 n=2。预取存储多少个值
p - - 假阳率,在0-1之间 0.0000001。能够接受的假阳率
m - - 位图所占空间
k - - hash函数的个数

选择k个hash函数
我们发现上面计算出需要30个hash函数,难道我们要去找30个不同的hash函数来吗,显然不该这样。我们应该选择一个 hash 函数,通过给 hash 传递不同的种子偏移值,采用线性探寻的方式构造多个 hash函数。

题外话,面试百度:hash 函数实现过程当中 为什么 会出现 i * 31?
i * 31 = i * (32-1) = i * (1<<5 -1) = i << 5 - i;
31 质数,hash 随机分布性很好

布隆过滤器应用场景

布隆过滤器通常用于判断某个 key 一定不存在的场景,同时允许判断存在时有误差的情况

常见处理场景:① 缓存穿透的解决;② 热 key 限流

缓存场景:为了减轻数据库的访问压力,在server和mysql之间加入缓存来存储热点数据

缓存穿透:server请求数据时,缓存和数据库都没有该数据,最终导致压力全部给到数据库

读取步骤:

先访问redis,如果存在则返回,不存在则 2
访问mysql,如过不存在则返回,存在则 3
将mysql的key写回redis
解决方案:

在redis设置<key,null>以此避免访问mysql,但是如果<key,null>过多会占用内存(可以设置过期时间解决这一问题)
在server端存储一个布隆过滤器,将mysql包含的key都放入布隆过滤器,布隆过滤器能过滤一定不存在的数据

三、⭐一致性哈希

一致性哈希(Consistent Hashing)是一种用于分布式系统的哈希算法,旨在解决由于节点动态增减导致的数据重分布问题。它通过将整个哈希值空间组织成一个环形结构,使得当节点发生变化时,只需重新分配少量的数据,从而提高系统的可扩展性和稳定性。

基本原理:

哈希环的构建: 将哈希函数的输出空间映射到一个逻辑环上,数值从 0 到 2³²-1(或其他范围),首尾相连形成一个环。

节点映射: 对每个节点(如服务器)进行哈希计算,将其映射到环上的某个点,这个点称为节点的哈希值。

数据映射: 对每个数据键进行哈希计算,也将其映射到环上的某个点。

数据存储规则: 数据被存储在从其哈希值顺时针方向遇到的第一个节点上。

优点:

减少数据迁移量: 当节点加入或离开时,只需重新定位受影响节点范围内的数据。

平衡负载: 通过引入虚拟节点,可以使数据和负载更均匀地分布在实际节点上。

高可扩展性和容错性: 系统可以平滑地添加或移除节点,而不会对整体造成重大影响。

虚拟节点

为了解决节点分布不均匀导致的数据倾斜问题,引入了虚拟节点的概念。每个实际节点对应多个虚拟节点,虚拟节点被映射到哈希环上,这样可以更均匀地分配数据。

应用场景:

分布式缓存系统: 如 Memcached 集群,通过一致性哈希来分配缓存键。

分布式存储系统: 如分布式文件系统,将文件块分配到不同的存储节点。

负载均衡: 动态地将请求分配到不同的服务器,提升系统的性能和可靠性。

四、⭐一道面试题

在这里插入图片描述
大文件hash拆成小文件
单台机器hash分流到多台机器


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2194220.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎么把店铺地址弄上高德地图?

随着互联网的高度普及&#xff0c;如今的营销方式也发生了巨大的变化。以前的商家要想提高店铺销售额&#xff0c;只需要在线下举办促销活动就可以吸引周边的顾客上门消费&#xff0c;但现在&#xff0c;商家如果想获取更多客流量&#xff0c;就必须在网上进行曝光&#xff0c;…

性能测试学习6:jmeter安装与基本配置/元件

一.JDK安装 官网&#xff1a;https://www.oracle.com/ 二.Jmeter安装 官网&#xff1a;http://jmeter.apache.org/download_jmeter.cgi 下载zip包&#xff0c;zip后缀那个才是Windows系统的jmeter 三.Jmeter工作目录介绍 四.Jmeter功能 1&#xff09;修改默认配置-汉化 2&am…

市场价值99的likeyun付费进群插件

市场价值99的likeyun付费进群插件 这款是引流宝的付费插件 要搭配引流宝使用 多模版 最近发现好多人再倒卖大佬的付费插件 为了减少这种情况&#xff0c;在征得大佬的同意下决定免费发出来 此版本是付费进群最新1.0版本 不提供后续更新服务&#xff0c;有能力的还是建议支持…

每日OJ题_牛客_乒乓球筐_哈希_C++_Java

目录 牛客_乒乓球筐_哈希 题目解析 C代码 Java代码 牛客_乒乓球筐_哈希 乒乓球筐__牛客网 (nowcoder.com) 描述&#xff1a; nowcoder有两盒&#xff08;A、B&#xff09;乒乓球&#xff0c;有红双喜的、有亚力亚的……现在他需要判别A盒是否包含了B盒中所有的种类&#…

深入理解 Spring Cache 的工作原理及集成其它第三方缓存

目录 1、Spring Cache 简介2、常用注解2.1、常用注解介绍2.2、常用注解的主要参数 3、缓存注解上 SPEL 表达式可使用的元数据4、入门案例4.1、引入依赖4.2、开启缓存功能4.3、使用缓存4.3.1、新建一个 UserServiceImpl4.3.2、新建一个 UserController 5、工作原理5.1、缓存自动…

Java建筑行业智能化管理系统源码,PC端、手机端、大屏端源码,智慧工地管理平台源码,智慧建设平台 智慧住建平台

智慧工地平台全套源码合作 智慧工地是指运用现代信息技术&#xff0c;如物联网&#xff08;IoT&#xff09;、大数据、人工智能&#xff08;AI&#xff09;、云计算、移动互联网等&#xff0c;对传统建筑工地进行智能化改造和管理的新型工地。它通过高度集成的系统和设备&#…

GeoCue与Xer Technologies合作推动无人机测绘技术革新

GeoCue与Xer Technologies合作推动无人机测绘技术革新 近期,LiDAR测绘硬件和软件开发商GeoCue与瑞士长航时混合动力无人机制造商Xer Technologies AG携手合作,成功将GeoCue的TrueView 720 LiDAR和图像传感器集成至Xer X8无人机平台。这一里程碑式的合作不仅标志着无人机测绘技…

Python手绘五星红旗,庆75周年

环境 pip install matplotlib pip install numpy 代码 import matplotlib.pyplot as plt import numpy as np# 中国国旗的标准尺寸比例是 3:2 width, height 300, 200 # 这里可以调整为任何满足3:2比例的尺寸# 创建一个新图形 fig, ax plt.subplots(figsize(width/100, h…

js 字符串下划线转驼峰 驼峰转下划线

一、下划线转驼峰 1、效果 2、示例 function underscoreToCamelCase(str) {return str.replace(/(_\w)/g, function(match) {return match[1].toUpperCase();}).replace(/^_/, ); }// 示例 let snakeCaseStr "hello_world"; let camelCaseStr underscoreToCamelC…

【Diffusion分割】Cold SegDiffusion:医学图像分割的扩散模型

Cold SegDiffusion: A novel diffusion model for medical image segmentation 摘要&#xff1a; 随着深度学习的发展&#xff0c;扩散模型在医学图像分割任务中表现出了卓越的性能。然而&#xff0c;传统的分割扩散模型通常采用随机高斯噪声生成分割掩膜&#xff0c;导致分割…

【华为HCIP实战课程七】OSPF邻居关系排错MTU问题,网络工程师

一、MTU MUT默认1500,最大传输单元,一致性检测 [R3-GigabitEthernet0/0/1]mtu 1503//更改R3的MTU为1503 查看R3和SW1之间的OSPF邻居关系正常: 默认华为设备没有开启MTU一致性检测! [R3-GigabitEthernet0/0/1]ospf mtu-enable //手动开启MTU检测 [SW1-Vlanif30]ospf mtu…

项目——超级马里奥——Day(2)

争取今天晚上能搞一半啊&#xff0c;啊啊啊啊&#xff0c;感觉事多的忙不过来 设计思路&#xff1a; 1&#xff09;创建并完成常量类 ------->一张图片的情况 先完成对图片的封装------>把图片加载一遍 &#xff08;老实说&#xff0c;我也不太知道为什么&#xff0…

Windows 开发工具使用技巧 QT使用安装和使用技巧 QT快捷键

一、QT配置 1. 安装 Qt 开发框架 1、下载 1、进入下载地址 下载地址1 (官方, 需注册账号)&#xff1a; https://www.qt.io/download下载地址2&#xff08;推荐&#xff09;&#xff1a; http://download.qt.io/http://download.qt.io/archive/qt/ &#xff08;或更直接的…

【C++前缀和】1878. 矩阵中最大的三个菱形和|1897

本文涉及的基础知识点 C算法&#xff1a;前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode 1878. 矩阵中最大的三个菱形和 难度分&#xff1a;1897 给你一个 m x n 的整数矩阵 grid 。 菱形和 指的是 grid 中一个正菱形 边界 上的元素之和。本题中的…

ElasticSearch备考 -- Update by query Reindex

一、题目 有个索引task&#xff0c;里面的文档长这样 现在需要添加一个字段all&#xff0c;这个字段的值是以下 a、b、c、d字段的值连在一起 二、思考 需要把四个字段拼接到一起&#xff0c;组成一个新的字段&#xff0c;这个就需要脚本&#xff0c; 这里有两种方案&#xff…

ES 文件浏览器批量下载的链接

在 ES 文件浏览器上的网页上下载文件需要一个一个点击下载&#xff0c;这样非常麻烦&#xff0c;实际上文件在网页上都对应有一个真实的地址&#xff0c;这样通过 For 循环可以打印出下载地址&#xff0c;然后粘贴到迅雷中就可以批量下载了 http://10.0.0.47:5050/download?pa…

【Canvas与徽章】盾形银底红带Best Quality Premium徽章

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>BestQulity金属牌Draft3</title><style type"text/css…

怎么成为年薪53万的AI产品经理?我分析了200份大厂的招聘要求

我在 BOSS 直聘搜索AI产品经理&#xff0c;筛选了公司规模在10000人以上的公司&#xff0c;清洗整理后得到 229 个岗位信息&#xff0c;分析得到如下信息&#xff1a; 按最低薪资算&#xff0c;平均年薪 40.2 万&#xff1b;取薪资范围均值&#xff0c;平均年薪 52.9 万;只有 …

判断两棵树是否相等

判断两棵树是否相等 两棵树是否相等的判断条件&#xff1a; 1. 树的结构一样 2. 对应节点存放的值相等 思路1&#xff1a; 首先对树的结果判断&#xff0c;若结构一样&#xff0c;则进行下一步节点中值的判断&#xff0c;若结构不一样&#xff0c;直接返回false 1.定义一个f…