小米教你：2GB内存搞定20亿数据的高效算法

小米教你：2GB内存搞定20亿数据的高效算法

news2026/2/13 3:02:16

我是小米，一个喜欢分享技术的29岁程序员。如果你喜欢我的文章，欢迎关注我的微信公众号“软件求生”，获取更多技术干货！

Hello，大家好！我是小米，今天要和大家聊聊一个非常有意思的算法实战问题——在2GB内存中，如何在20亿个整数中找到出现次数最多的数。这个问题涉及到大数据处理和算法优化，特别适合喜欢钻研技术的你！让我们一起来探讨一下吧！

问题描述

我们有一个包含20亿个整数的大文件，目标是在有限的内存（2GB）内找到出现次数最多的整数。通常情况下，我们可以使用哈希表对每个出现的数进行词频统计，哈希表的key是某个整数，value记录整数出现的次数。

假设每个整数是32位（4B），每个出现次数的记录也是32位（4B），那么一条哈希表记录需要占用8B的内存。当哈希表记录数达到2亿个时，需要16亿个字节（1.6GB）内存。而我们要处理的是20亿个记录，至少需要16GB的内存，显然不符合题目要求。

解决方案

为了解决这个问题，我们可以利用哈希函数将20亿个数的大文件分成16个小文件。这样ÿ

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1992252.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Three.js利用webgl着色器控制顶点位置打造波浪形状

Three.js利用webgl着色器控制顶点位置打造波浪形状

<template> </template><script setup> import * as THREE from three import gsap from gsap //导入轨道控制器 import { OrbitControls } from three/examples/jsm/controls/OrbitControls // 导入 dat.gui import { GUI } from three/addons/libs/lil-gui…

阅读更多...

02 Canal的安装使用

02 Canal的安装使用

1 下载Canal Cannal下载地址如下：https://github.com/alibaba/canal/releases,这里选择Canal 1.1.4版本下载。2 上传解压 #首先创建目录 “/software/canal” [rootnode3 ~]# mkdir -p /software/canal#将Canal安装包解压到创建的canal目录中 [rootnode3 ~]# tar …

阅读更多...

反序列化--serial

反序列化--serial

去vulhub上下载此靶机：https://www.vulnhub.com/entry/serial-1,349/ 用Vmware新建虚拟机打开用kali扫描ip arp-scan -l 访问扫描到的靶机ip访问按F12 ---》网络---》cookie得到一串编码 base64解码 dirb http://靶机ip 扫描目录访问backup目录解压得到三个p…

阅读更多...

node_sass安装失败，但又不想重装python2和降低node的版本，如何解决？

node_sass安装失败，但又不想重装python2和降低node的版本，如何解决？

github下载对应的sass安装包，地址：https://github.com/sass/dart-sass/releases下载后解压到对应的文件夹，比如我的地址 E:\dart-sass配置环境变量：系统变量-->path变量-->新建。如下图

阅读更多...

【Material-UI】Checkbox组件：颜色设置详解

【Material-UI】Checkbox组件：颜色设置详解

文章目录一、Checkbox 组件与颜色设置概述1. 组件介绍2. 基本用法二、Checkbox 颜色设置的关键特性1. 使用预定义颜色2. 自定义颜色三、Checkbox 颜色设置的实际应用场景1. 表单中的状态指示2. 设置页面中的选项分类3. 自定义主题四、注意事项1. 无障碍支持2. 一致的用户体…

阅读更多...

【Tessent IJATG Users Manual】【Ch5】IJTAG Network Insertion

【Tessent IJATG Users Manual】【Ch5】IJTAG Network Insertion

The IJTAG Network Insertion FlowIJTAG Network Insertion ExampleModification of the IJTAG Network Insertion Flow How to Edit or Modify a DftSpecificationEdit or Modify MethodDftSpecification Examples IJTAG Network Insertion 可以将已有的 instrument 连接起来&…

阅读更多...

怀山府交付，怀柔主城品质生活完美呈现

怀山府交付，怀柔主城品质生活完美呈现

时间是美好的质造者，也是美好的检阅者。越秀天恒怀山府，作为越秀地产进驻北京的开篇之作，承载着越秀地产深厚的匠心传承与府系产品的卓越品质，以时间为笔，四季为墨，7月26日，终于迎来了盛大交付…

阅读更多...

【数据结构与算法 | 力扣+二叉搜索树篇】力扣450， 98

【数据结构与算法 | 力扣+二叉搜索树篇】力扣450， 98

1. 力扣450：删除二叉搜索树的节点 1. 题目： 给定一个二叉搜索树的根节点 root 和一个值 key，删除二叉搜索树中的 key 对应的节点，并保证二叉搜索树的性质不变。返回二叉搜索树（有可能被更新）的根节点的引…

阅读更多...

开个技术外挂｜用自动建模工具巧妙解决电子产品连续跌落被摔的损伤，再也不怕手滑了

开个技术外挂｜用自动建模工具巧妙解决电子产品连续跌落被摔的损伤，再也不怕手滑了

啪嗒，这是心碎的声音消费电子、网络设备、家电等行业需要对产品进行不同区域的多次跌落试验，以研究产品在已有损伤的情况下，再次发生跌落，产生的影响。连续跌落仿真计算，可以对多次跌落产生的损伤累计进行查验&#x…

阅读更多...

CMU15445 (Fall 2023) Project 1 - Buffer Pool 思路分享

CMU15445 (Fall 2023) Project 1 - Buffer Pool 思路分享

文章目录写在前面Task 1 - LRU-K Replacement PolicyTask 2 - Disk SchedulerTask 3 - Buffer Pool ManagerNewPageFetchPageUnpinPageDeletePageFlushPage 写在最后写在前面操作系统为应用程序提供了默认的缓存机制，DBMS作为应用程序，为什么不使用默…

阅读更多...

2024年中级消防设施操作员（考前冲刺）证模拟考试题库及中级消防设施操作员（考前冲刺）理论考试试题

2024年中级消防设施操作员（考前冲刺）证模拟考试题库及中级消防设施操作员（考前冲刺）理论考试试题

题库来源：安全生产模拟考试一点通公众号小程序 2024年中级消防设施操作员（考前冲刺）证模拟考试题库及中级消防设施操作员（考前冲刺）理论考试试题是由安全生产模拟考试一点通提供，中级消防设施操作员&#…

阅读更多...

7.2 继承与多态：Python 面向对象编程的魔法

7.2 继承与多态：Python 面向对象编程的魔法

欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏： 工💗重💗hao💗：野老杂谈 ⭐️ 全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.…

阅读更多...

idea中怎么使用git把项目提交到远程仓库

idea中怎么使用git把项目提交到远程仓库

git的版本控制在gitignore中添加这些文件可以在与远程仓库进行操作的时候忽略掉这些文件夹使用Git进行项目代码的版本控制，具体操作： 1). 创建Git本地仓库当Idea中VS变成Git(G)： 说明本地仓库创建成功。 2). 创建Git远程仓库 1、gi…

阅读更多...

Deep-Live-Cam：只需单张图像即可实现人脸替换；零一万物、月之暗面再掀国产大模型资本战丨 RTE 开发者日报

Deep-Live-Cam：只需单张图像即可实现人脸替换；零一万物、月之暗面再掀国产大模型资本战丨 RTE 开发者日报

开发者朋友们大家好： 这里是　「RTE 开发者日报」　，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement） 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、…

阅读更多...

萤石开放平台开发票流程

萤石开放平台开发票流程

若您已经在开放平台完成充值，可通过以下方式自助开票一、PC端开票进入开放平台首页，登入账号，进入价格页面，点击首页右下方的“开票指引”入口二、萤石云视频APP 萤石云APP：底部导航栏“我的”——点击“订单”…

阅读更多...

如何编写一个有效的OKR（带有示例）

如何编写一个有效的OKR（带有示例）

客户经常问我们的一个问题是：”我如何写出有效的目标和关键结果？ 我如何写出有效的目标和关键结果？ 一开始，要弄清楚不同的要素是很困难的，而且有这么多的指导和风格，你很难知道自己是否做对了。在这篇…

阅读更多...

【Nacos无压力源码领读】(三) Nacos 配置中心与热更新原理详解敢说全网最细

【Nacos无压力源码领读】(三) Nacos 配置中心与热更新原理详解敢说全网最细

本文将从 Nacos 配置中心的基本使用入手, 详细介绍 Nacos 客户端发布配置, 拉取配置, 订阅配置的过程以及服务器对应的处理过程; 配置订阅以及热更新原理相关的部分, 我看了主流的博客网站, 绝对没有比这更详细的讲解; 如果在阅读过程中对文中提到的 SpringBoot 启动过程以及…

阅读更多...

k8s 与 docker 安装 Syncthing 文件同步服务器

k8s 与 docker 安装 Syncthing 文件同步服务器

Syncthing是一个开源文件同步工具，可以在多台设备之间实时同步文件或文件夹，官方网站：https://syncthing.net/ 下载地址：https://syncthing.net/downloads/ ，如果是windows一般推荐下载图形界面SyncTrayzor, 但我这边都…

阅读更多...

视频循环存储的实现

视频循环存储的实现

目录 1. 三方工具 2. 视频存储的实现 2.1 分段存储 - 比如每15分钟 2.2 对齐到15分钟整边界 2.3 循环存储的实现 video_space_daemon.sh 3.封装 3.1 主执行程序，修订版 3.2 创建服务 3.3 service关联的执行脚本文件 4.额外的工作附录A: ffmpeg视频存储…

阅读更多...

中电金信三步法全面助力银行数字化营销体系建设

中电金信三步法全面助力银行数字化营销体系建设

存量用户竞争时代精细化经营、个性化服务与多场景覆盖成为银行经营的重要策略营销数字化转型不可或缺但是，与所有转型的曲折、阵痛等特征一样，银行构建数字化营销运营体系过程中，亦走过一些弯路，包括： 缺少顶层…

阅读更多...

推荐文章

最新文章