海量数据小内存！只出现两次的数以及中位数怎么找

海量数据小内存！只出现两次的数以及中位数怎么找

news2026/2/11 16:56:11

文章目录

- 题目一
- 题目二

实际上类似的题目类似的解法在之前已经有介绍过

海量数据小内存！如何找到高频数
海量数据小内存！从未出现过的数在哪里

题目一

如何在 40 亿个无符号整数中找到出现次数只有两次的那些数，在只提供 1 G 内存的条件下

解答

方法一【分流】：

单纯的将这些无符号整数放到 HashMap 中，大概率是会爆内存的，我们可以选择将这些无符号整数分流到很多个小文件中，然后使用 HashMap 对小文件中的数出现的频率进行统计，将只出现过两次的数保存到结果文件中

那么分流的方法就是，遍历这 40 亿个无符号整数，给他们都调用一个 Hash 函数，将结果模上小文件数，就可以实现将这些数均匀的分散的分流到小文件中

至于需要模上多少，即小文件的数量有多少，那就取决于提供的内存有多少，支持存多少条 Hash 记录。

比如，一条 Hash 记录至少 8 字节，就算会有其他的空间消费，我们就算一条记录 16 个字节，那么 1 G 可以申请 0.6 亿的数据，那么可以将 40 亿个数分成 70 个文件。其实，只要空间够用，分配较为合理，都是可以的

在这里插入图片描述

方法二【位图】：

根据之前的文章，我们可以知道，位图中的一个位是可以表示数有没有出现过的，比如出现过就标记为 1，始终没有出现过就一直都是 0。

那么现在想要表示出现两次的数，那么我们就可以使用两位来表示。00 表示该数从未出现过，01表示该数只出现过 1 次，10，表示该数出现过两次，11 表示该数出现超过两次。

40 亿个数，每个数使用两位，那么也就 80 亿位，即 10 亿字节，如果按照 1024 进行换算，消耗的内存是不会超过 1 G的

题目二

如何在 40 亿个无符号整数中找到中位数，在只提供 10 KB 的内存的条件下

解答

我们就把提供的 10 KB 内存统统用来申请无符号整形数组，看看最多能够不申请多少大小，并且数组的大小得是 2 的某次方，计算可得可申请大小为 2048 的无符号整形数组 array

在这里插入图片描述

那么我们就将无符号整数的范围（0~2³²-1）分成 2048 份，一定能够均分，每份包含的数据大小为 2 的 21 次方

在这里插入图片描述

然后，我们就需要遍历这 40 亿个数，计算各个值应该属于哪个范围，将数组 array 对应下标的值加一，比如 500 这个数，显而易见应该属于 0 ~ Y-1 这个范围，所以 array[0]++

遍历完全后，我们将每个范围的值进行累加，看看哪个范围刚好让累加值等于或者刚好超过 20 亿，那么中位数一定在那个范围中

在这里插入图片描述

如上图所示，可以发现累加到 array[2] 时，值刚好突破了 20 亿，那么就可以确定中位数就在 array[2] 所代表的的数值范围内。

接下来就是将目标范围内的数据（7亿）继续等分成 2048 份（每份范围大小为 2 的 10 次方），由于 array[0] 和 array[1] 的累加和为 15 亿，那么中位数就是 array[2] 中的第 5 亿个数（从小到大）

在这里插入图片描述

和上面的步骤一样，将中位数定在了 array[1] 区间范围内的数中，以此类推，最后总能找到目标数

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/103469.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Map集合概述、API 遍历方式（键值对集合）

Map集合概述、API 遍历方式（键值对集合）

注意： Map集合和Collection集合是两个不同类型的集合 Map集合体系特点： 常用API： 根据键找出值： map.get(key); 取所有键的集合和取所有值得集合： 因为key是无序不重复无索引，所以放入set集合&#xff…

阅读更多...

锂电池电压和电量的关系

锂电池电压和电量的关系

锂电池电压和电量之间，有一定的对应关系，通过对开路电压的测量，可以大致得出电池的剩余电量。不过用电压测量电量的方式有一定的不稳定性，例如放电电流、环境温度、循环、放电平台、电极材料等，都会给最后结果的准确与否带来影响。电压和电量的对应关系是： 100%----4.…

阅读更多...

【算法】常用查找算法(顺序查找、二分查找、插值查找、斐波那契查找)

【算法】常用查找算法(顺序查找、二分查找、插值查找、斐波那契查找)

目录查找算法1.线性(顺序)查找(1)思路(2)代码实现(java)2.二分(折半)查找(1)思路(2)代码实现(java)3.插值查找(1)思路(2)代码实现(java)4.斐波那契(黄金分割法)查找(1)思路(2)代码实现(java)查找算法 1.线性(顺序)查找 (1)思路判断序列中是否包含某个元素，找到提…

阅读更多...

Vue3引入Lottie动画以及遇到的坑

Vue3引入Lottie动画以及遇到的坑

之所以写这个问题是因为原本我认为非常小的一件事却困扰了我一整天，所以我打算写一个博客记录一番。国外动画网址：Lottie 将来用到的lottie组件库网址： Vue3-lottie 我目前用的第二个： Vue3-lottiejs 1. 我在引入Lottie的时…

阅读更多...

【Python机器学习】决策树与随机森林的讲解及决策树在决策决策问题中实战（图文解释附源码）

【Python机器学习】决策树与随机森林的讲解及决策树在决策决策问题中实战（图文解释附源码）

需要源码请点赞关注收藏后评论区留言私信~~~ 在生活中人们经常应用决策树的思想来做决定分类的建模过程与上面做决定的过程相反，事先不知道人们的决策思路，需要通过人们已经做出的大量决定来“揣摩”出其决策思路，也就是通过大量数据来归纳道…

阅读更多...

嵌入式分享合集124

嵌入式分享合集124

一、19个常用的5V转3.3V技巧 01 使用LDO稳压器标准三端线性稳压器的压差通常是 2.0-3.0V。要把 5V 可靠地转换为 3.3V，就不能使用它们。压差为几百个毫伏的低压降 （Low Dropout， LDO）稳压器，是此类应用的理想选择。图…

阅读更多...

常见的CSS布局方法

常见的CSS布局方法

常见的CSS布局方法「1. 单栏布局」常见的单列布局有两种： header,content 和 footer 等宽的单列布局header 与 footer 等宽,content 略窄的单列布局header,content 和 footer 等宽的单列布局先通过对 header,content,footer 统一设置 width：1000px;或者 max-width：1…

阅读更多...

DHCP报文

DHCP报文

一. 介绍 DHCP（Dynamic Host Configuration Protocol，动态主机配置协议）是一个局域网的网络协议，使用UDP协议工作，统一使用两个IANA分配的端口：67（服务器端），68&#xff…

阅读更多...

Django学习Day5

Django学习Day5

由于前两天核酸阳的，一直发烧，故没有学习，csdn也没有进行更新。今天身体基本恢复，继续Django的学习旅程。也希望各位读者重视个人的身体健康，做好自己健康的第一负责人。 1.关于针对模型类的数据库修改方法补充在mo…

阅读更多...

二苯基环辛炔-氨基；DBCO-NH2科研实验用试剂DBCO-Amine；CAS：1255942-06-3

二苯基环辛炔-氨基；DBCO-NH2科研实验用试剂DBCO-Amine；CAS：1255942-06-3

英文名称：DBCO-Amine DBCO-NH2 中文名称：二苯基环辛炔-氨基 CAS：1255942-06-3 分子式：C18H16N2 分子量：276.3 外观：固体粉末溶剂：溶于 DMSO, DMF, DCM, THF, Chloroform 储存条件&…

阅读更多...

什么是容器安全性，您如何提升自己的安全性？

什么是容器安全性，您如何提升自己的安全性？

容器无疑已成为部署应用程序的流行方式。这很棒，因为与部署到虚拟机相比，它们具有大量优势。其中一些优点包括便携、不可变和轻量级。您可以控制运行服务的容器内部的内容，这可以产生清晰、可审计的跟踪。对于安全专业人员来说，…

阅读更多...

模型复杂度与硬件性能的衡量

模型复杂度与硬件性能的衡量

1. 模型复杂度的衡量参数数量（Params）：指模型含有多少参数，直接决定模型的大小，也影响推断时对内存的占用量单位通常为 M，通常参数用 float32 表示，所以模型大小是参数数量的 4 倍左右参数数…

阅读更多...

数据结构C语言版 —— 树和二叉树的概念

数据结构C语言版 —— 树和二叉树的概念

树和二叉树一、树 1. 树的概念树(Tree)是n(n>0)n(n>0)n(n>0)个节点的有限集，在任意一颗非空树中： (1) 有且仅有一个特定的称为根(Root)的节点，根节点是没有前驱节点的。 （2）当 n>1n > 1n>1时…

阅读更多...

_11LeetCode代码随想录算法训练营第十一天-C++队列的应用

_11LeetCode代码随想录算法训练营第十一天-C++队列的应用

_11LeetCode代码随想录算法训练营第十一天-C队列的应用 239.滑动窗口最大值347.前K个高频元素 239.滑动窗口最大值整体思路要实现一个单调递减队列： 对于滑动窗口的滑动，移除前面的元素，加入后面的元素。当移除前面的元素时&#xff0…

阅读更多...

监控物联网卡该如何选择，你都踩过哪些坑？

监控物联网卡该如何选择，你都踩过哪些坑？

不知道大家有没有发现在自己的身边不知不觉多了很多新玩意，例如智能自动售货机、共享单车、智能监控设备等，它们让大家的生活变得越来越方便，那么大家知道它们为什么能起到这么大的作用吗，其实得得益于一个叫做物联网卡的东西。前…

阅读更多...

通过kubeode安装k8s

通过kubeode安装k8s

文章目录通过kubeode安装k8s1、准备vmdk文件2、创建虚拟机3、进入虚拟机4、配置yum源5、清理6、增加node服务器7、修改Ip8、下载下载通道01 走普通家庭宽带下载点下载通道02 走群友无私赞助电信机房专线服务器--高速稳定下载----强烈推荐下载并解压9、一键安装通过kubeode安装…

阅读更多...

字符串函数剖析（1）

字符串函数剖析（1）

带你玩转字符串 1.strlen函数不一样的细节 1.1模拟实现strlen函数 2.strcpy函数的巧妙 2.2strcpy的模拟实现 3.strcmp函数的巧妙 3.2strcmp的模拟实现详解strlen的细节首先了解strlen 函数的参数 size_t strlen ( const char * str );size_t 是什么东西呢&#xff1f…

阅读更多...

链表-------数据结构

链表-------数据结构

链表(重点): 链表是物理存储结构上面非连续的存储结构，数据元素的逻辑顺序是通过链表中的引用链接次序实现的 1)在顺序表中，我们不光引入了一段连续的内存，还引入了一块连续的内存空间，叫做usedsize，来表示对应数组中…

阅读更多...

PMP每年考几次，费用如何？

PMP每年考几次，费用如何？

PMP每年考四次，整个考证一次通关大致需要 7000 元左右，主要是下面几项费用： 部分学习笔记： 一、考证费用分为基础费用报班费用基础费用：报名费续证费用（补考费 / 退考费） 报名费 3900 元是固…

阅读更多...

【软件测试】测试人的内卷，掀起血雨腥风......

【软件测试】测试人的内卷，掀起血雨腥风......

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜）前言铺天盖地的职场内卷…

阅读更多...

推荐文章

最新文章