当阿里面试官问什么是hash?什么是布隆过滤器?什么是一致性hash?看这一篇就够了,很肝!也很干!

news2024/9/24 19:19:29

算法拾遗三十六hash

      • 哈希函数特点
      • hash表设计
      • 布隆过滤器
        • 布隆过滤器三大公式
          • 最终求解公式
      • 一致性哈希
      • 经典数据存储
        • 经典hash缺点及解决方案
        • 虚拟节点

哈希函数特点

输入:任意长度字符串(输入域无穷大)
输出:相对有限
哈希函数无任何随机成分(输入相同,一定导致每次都一样的输出)相同的输入一定有相同的输出
问题点:
哈希碰撞:输入不同,但是出现的输出结果相同

对于大量的输入,它会非常离散的分布在整个输出域上面。固定长度命中点数量差不多。【此时需要hash函数根元数据的输入状况给解耦掉】

import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
import java.security.Security;

import javax.xml.bind.DatatypeConverter;

public class Hash {

	private MessageDigest hash;

	public Hash(String algorithm) {
		try {
			hash = MessageDigest.getInstance(algorithm);
		} catch (NoSuchAlgorithmException e) {
			e.printStackTrace();
		}
	}

	public String hashCode(String input) {
		return DatatypeConverter.printHexBinary(hash.digest(input.getBytes())).toUpperCase();
	}

	public static void main(String[] args) {
		System.out.println("支持的算法 : ");
		for (String str : Security.getAlgorithms("MessageDigest")) {
			System.out.println(str);
		}
		System.out.println("=======");

		String algorithm = "MD5";
		Hash hash = new Hash(algorithm);

		String input1 = "lsdlsdlsdlsdtest1";
		String input2 = "lsdlsdlsdlsdtest2";
		String input3 = "lsdlsdlsdlsdtest3";
		String input4 = "lsdlsdlsdlsdtest4";
		String input5 = "lsdlsdlsdlsdtest5";
		System.out.println(hash.hashCode(input1));
		System.out.println(hash.hashCode(input2));
		System.out.println(hash.hashCode(input3));
		System.out.println(hash.hashCode(input4));
		System.out.println(hash.hashCode(input5));

	}

}

在这里插入图片描述
给定字符串str1和str2以及str3,分别经过一个hash函数得到c1,c2,c3,在0-2的128次方减一上均匀分布,那么我对c1,c2,c3都进行取模运算,得到结果也会在0-9上面均匀分布。

hash表设计

hash表有个初始的桶区域假设为17
在这里插入图片描述
假设插入"abc",25,key是"abc"->计算一个hash值再模一个17得到结果为5
在这里插入图片描述
然后就把"abc"这条记录挂在5号桶里,然后桶通过单链表去放记录:
在这里插入图片描述
假设再来一条记录"bs",17,再通过hash函数计算再模一个17得到9
在这里插入图片描述
如果hash冲突了则顺着值往下挂:
在这里插入图片描述
0-16号桶一定均匀增长,查询的话则通过key的hash值去找对应的桶,再去桶里面找到相应的记录。随着数据的逐步加入,每个桶挂载的数据会越来越多,一定会存在某个时刻觉得查询很慢,这里假设链长度超过6的时候是我觉得慢的时候,那么当我一个桶里面的链长度为6了那么也可以通过hash均匀分布得到其他桶的链长也为6了,那么则直接将桶空间的长度扩展两倍,然后重新计算hash重新挂桶。

布隆过滤器

有一个大集合,集合里面有很多URL黑名单,然后集合非常大,有一百亿的大小,然后每个URL不超过64个字节,然后需要把这个集合抽取成一个服务,以后出现一个URL我都查询一下这个URL是不是黑名单里面的,如果是黑名单里面的就不给用户展示,如果不在黑名单里面就展示。
如果是存入HashSet则需要6400亿字节的空间,就是640G的空间。
这种情况布隆过滤器就正常了,它能节省很多空间,但是布隆过滤器一定有失误率,我们需要通过程序控制失误率【失误率来自于我的URL如果不是黑名单里面的一份子,那么有几率会出现误报,如果我的URL本身就是黑名单里面的一份子那么不会失误】
再举一个例子:
比如说各个搜索引擎公司都要去做爬虫,比如说有一百个爬虫,爬虫1爬取了一个URL那么我需要一个服务去存这个URL,并让其他的爬虫不再爬取这个URL了,后面的爬虫就需要判断我是否爬取了这个URL,如果爬过就不爬了避免资源浪费

布隆过滤器三大公式

布隆过滤器可以看作是一系列逻辑加位图的整体,假设准备长度为m的bit类型数组,则占用m/8Byte空间,假设准备了三个hash函数,如果此时来了一个str1,str1会先执行hash函数1,将执行的结果对m取模,将得到的结果在bit数组上的某个位置标记,然后str1先执行hash函数2,将执行的结果对m取模,将得到的结果在bit数组上的某个位置标记,最后str1会执行hash函数3,将执行的结果对m取模,将得到的结果在bit数组上的某个位置标记。【三个hash函数是独立的不相互影响的】
查询则需要str重新计算3个hash函数看得到的最终位置是否都被标记过。
为防止m数组全被标黑那么m应该定多大?还有为了防止hash碰撞hash函数应该定几个?
如果m定很小,那么当黑名单多了以后,m的每个位置都是被标记了的,如果m定的很大又会存在浪费空间的问题。
布隆过滤器m大小应该考虑三个因素:
1、样本量
2、失误率
3、单样本大小

比如说上面那个黑名单:
样本量:100亿 失误率:1/10000 单样本大小(64个字节)
hash函数和单样本大小无关(因为任何一个样本只要我的hash函数能算一个hash值就行了),也根m的大小无关。
布隆过滤器m的大小求解方式:
给定横坐标m的大小,给定纵坐标表示失误率
在这里插入图片描述
失误率会随着m增加无限变小,那么我需要求得一个多大的m能拿下我业务要求的一个失误率。
hansh函数个数求解:
如果hash函数过少,那么会出现采样不足的问题,导致失误率上升,如果hash函数过多,那么m会被迅速耗尽,失误率也会迅速上升。
当我的n【样本量】和m【布隆过滤器数组大小】都确定了:
我们确定横坐标表示hash函数个数以及纵坐标表示失误率:
在这里插入图片描述
K过少失误率会上去,K过多失误率也会升高,我就取中间的最小。
真实失误率,则是我对前面第一个公式和第二个公式向上取整的结果算的失误率一定比给定的失误率小。

最终求解公式

在这里插入图片描述
当面试官问的时候需要:
你知道三个公式
1、知道m
2、知道K
3、算出p真
面试官会给出样本量,假设是100亿,给出样本量大小64个字节,这个是无关项不用的,先问面试官是否允许有失误率(如果允许则需要知道失误率的大小),从而求得m的大小,同时再问是否支持向上取整,从而得出一个m真实,再通过m真实算出一个向上取整的k真,然后求出一个p真,一定比面试官规定的失误率更低。
K个hash函数在哪找:
需要知道两个hash函数(f1,f2),那么只需要
1)1Xf(1)+f2
2)2Xf(1)+f2
3)3Xf(1)+f2

这样求下去,上面的函数几乎独立的。

一致性哈希

分布式存储结构最常见的结构:
1)哈希域变成环的设计
1)虚拟节点技术

经典数据存储

假设发起一个请求打在某个前端机器,然后前端再将请求的数据打在某个逻辑端的服务器【程序员是在逻辑端做数据存储,不会说某个服务器只存特定的数据】,然后再将请求给存储下来,将数据发送到数据服务器,如果我数据端服务器有三台,那么我的数据应存在哪台数据端服务器,常见是通过hash函数去取模知道存入哪台数据服务器,那么我所有不同的key都会负载均衡的到数据服务器中。则需要选择合适的hashKey做数据存储取模让数据均匀分布,高频的key有一定的量,中频有一定的量,低频有一定的量,这些需要从业务上面去确认

经典hash缺点及解决方案

如果需要对数据端服务器进行扩容,那么则需要对原数据进行迁移,这会非常难受的,原来取模过的信息现在会需要重新取模,数据迁移是全量的,一致性hash可以让它增加减少机器数据迁移不是全量的,而且还能做到负载均衡,现在将hash返回的结果想象成一个环。
比如说hash结果范围为0-2的64次方减一。
在这里插入图片描述
假设一开始有三台机器,每台机器都有它自己的信息【比如IP,HostName,Mac地址】,假设先拿IP来说,可以把IP认为是字符串,我可以用我唯一的hash函数让我的m1,m2,m3上环
在这里插入图片描述
那么我前端请求,发送的数据存入后台的数据服务器上面,那么就将数据通过hash函数进行处理,将数据存入hash环,那么这个数据会存在它顺时针遇到的第一个机器里面。
如果新加一个机器m4,数据迁移的代价则不是全量了
在这里插入图片描述
则只需要迁移原来在m1上面,顺时针调用找最近的是m4的那段数据就好了,数据迁移的代价就很少。
实际业务使用中:
则可以将我数据服务器的机器计算hash,然后做排序,在我的业务逻辑层采用二分法做处理,在最短时间复杂度找到我应该将数据放入哪个数据服务器。

虚拟节点

上面方案一致性hash的问题点:
假设有三台机器,如何一上来就把三台机器的哈希值在环上均分【因为少量hash的时候有可能我算出来的hash值上来就不均,导致数据存储分配不均】
解决方案:
采用虚拟节点技术:
还是三台机器:
给m1分配一千个字符串(a1-a1000)
给m2分配一千个字符串(b-b1000)
给m3分配一千个字符串(c1-c1000)
然后m1,m2,m3有哪些字符串可以查询到,然后哪些字符串属于哪台机器我也可以查到【互相查都方便】
我让m1,m2,m3中的虚拟节点去帮我抢环,环上只放虚拟节点抢来的数据。然后再通过上面一致性hash变成环的方式做数据存储,就能保证数据几乎均分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/810458.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端,js , Error in created hook: TypeError ,有bug了

怎么兄弟,遇到bug了???你开心吗,哈哈哈哈

Linux操作系统1-命令篇

不同领域的主流操作系统 桌面操作系统 Windos Mac os Linux服务器操作系统 Unix Linux(免费、稳定、占有率高) Windows Server移动设备操作系统 Android(基于Linux,开源) ios嵌入式操作系统 Linux(机顶盒、路由器、交换机) Linux 特点:免费、开源、多用户、多任务…

【C/C++】#include<xxx.h>和#include“xxx.h“之间的区别以及寻找gcc和g++的系统头文件目录和系统库文件目录的方法

2023年7月29日&#xff0c;周六晚上 今天下午和晚上花了不少时间去研究这个C/C的头文件以及#include<xxx.h>和#include"xxx.h"之间的区别&#xff0c;收获到了很多的很有用的知识。非常值得花时间来以博客的形式总结这些学习成果。 说实话&#xff0c;我挺想…

python美化图形化界面设计,pythontkinter界面美化

大家好&#xff0c;本文将围绕python美化图形化界面设计展开说明&#xff0c;pythontkinter界面美化是一个很多人都想弄明白的事情&#xff0c;想搞清楚python美化输出模块需要先了解以下几个事情。 1、python如何做界面 PyQt&#xff0c;一个基于Qt的Python接口包&#xff0c…

网络框架重构之路plain2.0(c++23 without module) 综述

原因 plain1.1rc的不足 &#xff11;、命名空间问题 如果看过或者接触过plain的朋友&#xff0c;不难发现命名空间都是以pf_*开头。说起这个的时候&#xff0c;还是要从plain的前身plainserver&#xff08;GitHub - viticm/plainserver: A plain server, simple but stronger.&…

SpringBoot超级详解

1.父工程的父工程 在父工程的父工程中的核心依赖&#xff0c;专门用来版本管理的 版本管理。 2.父工程 资源过滤问题&#xff0c;都帮解决了&#xff0c;什么配置文件&#xff0c;都已经配置好了&#xff0c;资源过滤问题是帮助&#xff0c;过滤解决让静态资源文件能够过滤到…

HCIP OSPF链路状态类型总结

OSPF的LSA OSPF是典型的链路状态路由协议&#xff0c;使用LAS&#xff08;链路状态通告&#xff09;来承载链路状态信息。LSA是OSPF的一个核心内容&#xff0c;如果没有LSA&#xff0c;OSPF 是无法描述网络的拓扑结构及网段信息的&#xff0c;也无法传递路由信息&#xff0c;更…

跟老齐学python:数据分析,python数据分析开源软件

大家好&#xff0c;小编来为大家解答以下问题&#xff0c;python数据分析安装什么软件&#xff0c;python数据分析模块如何用&#xff0c;现在让我们一起来看看吧&#xff01;

百题千解计划【CSDN每日一练】收件邮箱(使用Python、Java、JavaScript解决)无敌的Python正则表达式、零宽负向断言

天真的人,不代表没有见过世界的黑暗,恰恰因为见到过,才知道天真的好。———三毛 🎯作者主页: 追光者♂🔥 🌸个人简介: 💖[1] 计算机专业硕士研究生💖 🌟[2] 2022年度博客之星人工智能领域TOP4🌟 🏅[3] 阿里云社区特邀专家博主🏅 🏆…

25.10 matlab里面的10中优化方法介绍—— 函数fmincon(matlab程序)

1.简述 关于非线性规划 非线性规划问题是指目标函数或者约束条件中包含非线性函数的规划问题。 前面我们学到的线性规划更多的是理想状况或者说只有在习题中&#xff0c;为了便于我们理解&#xff0c;引导我们进入规划模型的一种情况。相比之下&#xff0c;非线性规划会更加贴近…

开发集成工具pre-commit详解介绍

文章目录 pre-commit简介安装使用安装pre-commit脚本 pre-commit 官网-使用介绍 官网-可使用的钩子列表 简介 pre-commit&#xff1a;帮助你提高代码质量的工具 pre-commit是一个帮助开发人员提高代码质量的工具。它通过在提交代码之前运行一系列检查来实现这一点。这些检…

【并发编程】ForkJoinPool工作原理分析

目录 前置内容课程内容一、由一道算法题引发的思考1.算法题2.什么是归并排序法 二、什么是Fork/Join框架1.基本介绍2.ForkJoinPool2.ForkJoinPool构造函数及参数解读3.任务提交方式4.工作原理图5.工作窃取6.和普通线程池之间的区别7.ForkJoinTask 学习总结 前置内容 Q1&#x…

数学建模学习(7):Matlab绘图

一、二维图像绘制 1.绘制曲线图 最基础的二维图形绘制方法&#xff1a;plot -plot命令自动打开一个图形窗口Figure&#xff1b; 用直线连接相邻两数据点来绘制图形 -根据图形坐标大小自动缩扩坐标轴&#xff0c;将数据标尺及单位标注自动加到两个坐标轴上&#xff0c;可自定…

类和对象|六个默认成员函数|const成员函数|运算符重载

文章目录 默认成员构造函数1. 构造函数1.1 概念1.2 特性 2. 析构函数2.1 概念2.2 特性 3. 拷贝构造函数3.1 概念3.2 特性 4. 运算符重载4.1 赋值重载4.2 自增自减重载4.3 取地址操作符重载 5. const成员函数6. 取地址重载 默认成员构造函数 上一节我们说过&#xff0c;空类的大…

行为型:发布订阅模式

定义   发布订阅模式是基于一个事件&#xff08;主题&#xff09;通道&#xff0c;希望接收通知的对象Subscriber&#xff08;订阅者&#xff09;通过自定义事件订阅主题&#xff0c;被激活事件的对象 Publisher &#xff08;发布者&#xff09;通过发布主题事件的方式通知订…

STM32F103利用CubeMX配置开启定时中断

1、外部晶振8MHz&#xff0c;下载方式SWD模式&#xff0c;需求配置定时器1&#xff0c;产生每100ms一次中断 新建工程、配置晶振、选择下载方式等略 2、查阅资料&#xff0c;STM32F103的时钟树分配 3、配置CubeMX的时钟树 4、配置定时器-开启定时中断 5、配置定时时间 &…

VoxPoser:使用大语言模型(GPT-4)来对机器人操作的可组合三维值图【论文解读】

这是最近斯坦福的李飞飞团队的一篇论文:VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models 主要是通过大语言模型LLM和视觉语言模型VLM结合&#xff0c;来对机器人做各种日常操作&#xff0c;我们可以先来看下实际效果&#xff1a;大语言模型…

使用LangChain构建问答聊天机器人案例实战(一)

使用LangChain构建问答聊天机器人案例实战 现场演示GPT-4代码生成 本节我们会通过一个综合案例,跟大家讲解LangChain,这个案例产生的代码会直接在浏览器中运行,并且会输出结果,如图14-1所示,用户问:“What was the highest close price of IBM?”(“IBM的最高收盘价是…

【Linux命令200例】mdel删除指定目录下的多个文件

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;全栈领域新星创作者✌&#xff0c;2023年6月csdn上海赛道top4。 &#x1f3c6;本文已收录于专栏&#xff1a;Linux命令大全。 &#x1f3c6;本专栏我们会通过具体的系统的命令讲解加上鲜活的实操案例对各个命令进行深入…

基于注解手写Spring的IOC(上)

一、思路 先要从当前类出发找到对应包下的所有类文件&#xff0c;再从这些类中筛选出类上有MyComponent注解的类&#xff1b;把它们都装入Map中&#xff0c;同时类属性完成MyValue的赋值操作。 二、具体实现 测试类结构&#xff1a; 测试类&#xff1a;myse、mycontor、BigSt…