C++——哈希练习题

news2025/1/10 11:10:20

文章目录

  • 一、编程题
    • 1.在长度 2N 的数组中找出重复 N 次的元素
    • 2. 两个数组的交集
  • 二、面试题
    • 给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。【腾讯】
    • (一)位图应用
      • 1. 给定100亿个整数,设计算法找到只出现一次的整数?
      • 2. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?
      • 3. 位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
    • (二)布隆过滤器
      • 1. 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出
      • 2. 如何扩展BloomFilter使得它支持删除元素的操作
    • (三)哈希切割
      • 1. 给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?
      • 2.与上题条件相同,如何找到top K的IP?

一、编程题

1.在长度 2N 的数组中找出重复 N 次的元素

链接

给你一个整数数组 nums ,该数组具有以下属性:
nums.length == 2 * n.
nums 包含 n + 1 个 不同的 元素
nums 中恰有一个元素重复 n 次
找出并返回重复了 n 次的那个元素

示例 1:
输入:nums = [1,2,3,3]
输出:3

示例 2:
输入:nums = [2,1,2,5,3,2]
输出:2

示例 3:
输入:nums = [5,1,5,2,5,3,5,4]
输出:5

class Solution {
public:
    int repeatedNTimes(vector<int>& nums) {
        unordered_map<int,int> countMap;
        for(auto e : nums)
        countMap[e]++;
        
        for(auto& kv : countMap)
        {
            if(kv.second == nums.size()/2)
            return kv.first;        
        }                                        
        return -1;

    }
};

nbsp;

2. 两个数组的交集

链接

给定两个数组 nums1 和 nums2 ,返回 它们的交集 。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 。

示例 1:
输入:nums1 = [1,2,2,1], nums2 = [2,2]
输出:[2]

示例 2:
输入:nums1 = [4,9,5], nums2 = [9,4,9,8,4]
输出:[9,4]
解释:[4,9] 也是可通过的

class Solution {
public:
vector<int> intersection(vector<int>& nums1, vector<int>& nums2) {
// 用unordered_set对nums1中的元素去重
unordered_set<int> s1;
for (auto e : nums1)
s1.insert(e);
// 用unordered_set对nums2中的元素去重
unordered_set<int> s2;
for (auto e : nums2)
s2.insert(e);
// 遍历s1,如果s1中某个元素在s2中出现过,即为交集
vector<int> vRet;
for (auto e : s1)
{
if (s2.find(e) != s2.end())
vRet.push_back(e);
}
return vRet;
}
};

 
 

二、面试题

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。【腾讯】

这40亿个不重复的无符号整数占的空间:约等于15-16G

不能使用:
搜索树和哈希表都不太行(内存中存不下)
排序(O(NlogN)),利用二分查找: logN(数据太大,只能放在磁盘文件上,不好支持二分查找)

方法:
1.遍历,时间复杂度O(N)
2.位图解决——直接定址法 512MB
数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以使用一
个二进制比特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0
代表不存在。(比特位映射标记值)
效率很高

 

(一)位图应用

1. 给定100亿个整数,设计算法找到只出现一次的整数?

kv的统计次数搜索模型
0次 00
1次 01
2次 10

//位图是标准库中的一个容器
template<size_t N>
class twobitset
{
public:
void set(size_t x)
{
bool inset1 = _bs1.test(x);
bool inset2 = _bs2.test(x);

// 00
if (inset1 == false && inset2 == false)
{
// -> 01
_bs2.set(x);
}
else if (inset1 == false && inset2 == true)
{
// ->10
_bs1.set(x);
_bs2.reset(x);
}

}

void print_once_num()
{
for (size_t i = 0; i < N; ++i)
{
if (_bs1.test(i) == false && _bs2.test(i) == true)
{
cout << i << endl;
}
}
}

private:
bitset<N> _bs1;
bitset<N> _bs2;
};

void test_bit_set3()
{
int a[] = { 3, 4, 5, 2, 3, 4, 4, 4, 4, 12, 77, 65, 44, 4, 44, 99, 33, 33, 33, 6, 5, 34, 12 };

twobitset<100> bs;
for (auto e : a)
{
bs.set(e);
}

bs.print_once_num();
}

 

2. 给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

在这里插入图片描述

 

3. 位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

类似题目1;

需要四种状态:
0次 00
1次 01
2次 10
3次 11
再添加一段代码:

else if (inset1 == true && inset2 == false)
{
// ->11
_bs1.set(x);
_bs2.set(x);
}

 
 

(二)布隆过滤器

1. 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出

精确算法和近似算法
比如:网络请求、sql语法——本质:字符串

近似:一个文件放到布隆里,再从另外一个文件里看在不在。没有去重和有误判

精确:
哈希切分
假设每个query是30字节,100亿query需要多少空间?——3000亿字节,约等于300G
假设两个文件是A和B。一个是300G
A:依次读取文件A中的query,i = Hash(query)%1000,这个query就进去Ai小文件
B:依次读取文件B中的query,i = Hash(query)%1000,这个query就进去Bi小文件
放到内存的两个set中,编号相同的Ai和Bi小文件找交集即可

核心:因为哈希保证相同query一定进入相同编号的小文件

 

2. 如何扩展BloomFilter使得它支持删除元素的操作

多个位表示一个位置,做计数处理——这就可以支持删除,但是空间消耗更多,布隆的优势就削弱了。

 
 

(三)哈希切割

统计次数+topk

1. 给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?

读取每个ip,i = Hash(ip)%500,这个ip就进入第i个小文件
核心:相同的ip一定进入同一个小文件
依次使用map<string,int>对每个小文件统计次数
不是平均切割

 

2.与上题条件相同,如何找到top K的IP?

建一个k个值为<io,count>的小堆

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/111034.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ :STL:初识

1&#xff1a;STL初识 1.1 STL的诞生 STL 诞生来源 长久依赖&#xff0c;软件界一直希望建立一种可重复利用的东西C 的面向对象和泛型思想&#xff0c;目的就是复用性的提升大多数情况下&#xff0c;数据结构和算法都未能有一套标准&#xff0c;导致被迫从事大量重复的工作为了…

多线程问题(一)

目录 一、为什么引入线程&#xff1f; 二、线程和进程的区别 三、创建线程的五种方式 1、创建类继承Thread类 2、创建类实现Runnable接口 3、构造Thread类的匿名内部类 4、构造Runnable的匿名内部类 5、使用lambda表达式 四、start方法与run方法的区别 五、线程…

Promise对象的使用

一、什么是Promise Promise 是异步编程的一种解决方案&#xff0c;比传统的解决方案&#xff08;回调函数和事件&#xff09;更合理和更强大。从语法上说&#xff0c;Promise 是一个对象&#xff0c;从它可以获取异步操作的消息。Promise 提供统一的 API&#xff0c;各种异步操…

攻略丨在小红书高效种草,品牌要问的7个问题

这个圣诞节&#xff0c;小羊人和冬阴功&#xff08;这个冬天依然阴着的打工人&#xff09;们各怀心事&#xff0c;最有圣诞氛围的地方要数小红书了。打开首页就能看到&#xff0c;宅家自制光影圣诞树&#xff0c;被安利好利来蛋糕&#xff0c;再往下滑一滑&#xff0c;还有圣诞…

[开源工具]2022免费临时邮箱(Temp Free Mail)

2022免费临时邮箱Temp Free Mail1、10分钟邮箱2、45分钟邮箱3、60分钟邮箱4、24小时邮箱5、5日邮箱6、其他临时邮箱7、无时间限制临时邮箱8、临时邮箱常见问题答疑临时邮箱&#xff0c;英文名称 Temp Mail&#xff0c;也被称为一次性邮箱或匿名邮箱&#xff0c;根据它的邮件有效…

Vue - npm 批量升级依赖包

参考&#xff1a; npm 如何更新项目最新依赖包 一行命令更新所有 npm 依赖包 npm 升级依赖包 批量升级有风险&#xff01;&#xff01;&#xff01;升级需谨慎&#xff01;&#xff01; 常规的包升级方式 npm update (包) 检查项目可升级的包 方式一 该命令将检查每个已安装的…

初识C++ - 类与对象(下篇·下)

目录 再谈构造函数 隐式类型的转换 explicit关键字 单参数 多参数 static静态 一道关于static的题目 友元 友元函数 友元类 内部类 匿名对象 拷贝对象时的一些编译器优化 结束语 再谈构造函数 1.1 构造函数体赋值 在创建对象时&#xff0c;编译器通过调用构造函…

服装进销存管理软件哪个比较好用?

做好库存是服装行业是保障店铺正常运营重要方面。如果只是靠人工清点记录服装库存情况、手工记账&#xff0c;会花费大量的人员和精力&#xff0c;还不能保证一定的效率和准确率。而且服装业具有鲜明的行业特性&#xff1a;服装款式多、季节性强、颜色/尺码等等&#xff0c;如果…

Influxdb双写服务influxdb-relay部署配置【离线】

Background Influxdb社区版未提供集群方案&#xff0c;官方提供的集群模式为闭源收费版本&#xff0c;具体收费明细不太清楚哈&#xff0c;有知道的请留言告知哈。官方开源的influxdb-relay仅仅支持双写功能&#xff0c;并未支持负载均衡能力&#xff0c;仅仅解决了数据备份的问…

【C++初阶】友元(友元函数友元类)、内部类、匿名对象、拷贝对象时的优化

&#x1f31f;hello&#xff0c;各位读者大大们你们好呀&#x1f31f; &#x1f36d;&#x1f36d;系列专栏&#xff1a;【C学习与应用】 ✒️✒️本篇内容&#xff1a;友元函数和友元类的概念和基础应用&#xff0c;简单介绍内部类、匿名对象、拷贝对象时的部分编译器优化情况…

Java守护线程简述

Java守护线程简述前言前置知识线程JVM退出代码测试查看子线程是否继承父线程的类型守护线程在程序退出时的表现普通线程在程序退出时的表现总结前言 最近再看《Java并发编程实战》&#xff0c;正好有一小节关于守护线程的知识&#xff0c;这里做一点小总结。 前置知识 这里只…

云原生之Dockerfile简介和基础实践

dockerfile简介和基础实践一、Dockerfile简介1.1、Dockerfile解决的问题1.2、docker build 构建流程1.3、关键字介绍二、Dockerfile 实践2.1、基本语法实践 --- golang问题检查2.2、基本语法实践 --- gcc总结后言一、Dockerfile简介 Dockerfile是一个创建镜像所有命令的文本文…

为行业赋能 助力行业客户业务大放异彩

近日&#xff0c;2022亚马逊云科技re:Invent全球大会已完美落幕&#xff0c;在大会上发布了很多重磅新品&#xff0c;包括云原生数据战略、硬件创新、高性能计算等等在各行各业中的创新应用&#xff0c;下面就来看看医疗与生命科学、市场调研和数据分析、汽车行业&#xff0c;他…

如何理解UML2.5.1(04篇)

第一步&#xff1a; 这里发现UML2.5.1中的一处错误&#xff1a; 图四、Figure9.10中的一处错误。 错误就在于最下面一个关联右端点处的标记redefines&#xff0c;有了这个标记&#xff0c;就应该意味着此关联特化了某个关联&#xff0c;但是如果我们用“A_ownedAttribute_class…

在Android端集成OpenCV的三种方式

1.Opencv Android SDK 基于Opencv C本地代码&#xff0c;通过Java语言接口使用JNI技术调用C本地方法的SDK开发包。 &#xff08;1&#xff09;etc:各类模型文件存储地址 &#xff08;2&#xff09;java:Java版本的Android SDK相关文件 &#xff08;3&#xff09;native:JNI层…

【QGIS入门实战精品教程】3.4:QGIS创建GeoPackage地理数据库及数据入库案例详解

GeoPackage(以下简称gpkg),内部使用SQLite实现的一种单文件、与操作系统无关的地理数据库。在QGIS中可以很方便的实现GeoPackage的创建与连接等操作。 一、QGIS创建GeoPackage 1. 创建数据库 QGIS创建GeoPackage的方法与ArcGIS中创建File GDB的类似,选择一个目标文件夹,…

Adobe Acrobat XI 一进去就闪退;解决Acrobat的闪退问题

一、原因分析 闪退是因为网络中校验版权时出现问题 二、解决办法 域名欺骗&#xff0c;添加伪造的host条目 1. 进入C:\Windows\System32\drivers\etc 找到hosts文件 2. 右机hosts&#xff0c;选择属性&#xff0c;在安全选项里&#xff0c;点击高级&#xff1a; 3. 在ho…

Hive+Spark离线数仓工业项目实战--数仓设计及数据采集(1)

数仓设计及数据采集 1. **数据仓库设计** - 建模&#xff1a;维度建模&#xff1a;【事实表、维度表】 - 分层&#xff1a;ODS、DW【DWD、DWM、DWS】、APP - **掌握本次项目中数仓的分层** - ODS、DWD、DWB、DWS、ST、DM 2. 业务系统流程和数据来源 - 数据源…

Webpack5搭建Vue环境 | Webpack

文章目录webpack打包其他资源图片资源file-loader文件的命名规则url-loaderwebpack5 asset方式字体文件的打包PluginCleanWebpackPluginHtmlWebpackPluginDefinePluginCopyWebpackPluginmode配置webpack打包其他资源 图片资源 虽然此时我未安装file-loader 但是我正常显示了图片…

SHOP++ V9.1商城系统:可视化装修,0基础也能打造高颜值商城!

SHOP B2B2C商城系统新版本V9.1 新增的店铺装修功能是一款针对电商的DIY装修工具。可以快速装修店铺。能同时满足不同用户的使用需求。 一、页面可视化编辑组件 电商大潮异军突起的今天&#xff0c;如何让你的商品页面快速的抓住顾客的眼球&#xff0c;是促成订单转化的重要因素…