C++:使用位图处理海量数据

news2024/9/30 11:27:48

目录

一. 什么是位图

1.1 海量数据处理问题

1.2 位图的概念

二. 位图的实现 

2.1 成员变量及成员函数

2.2 成员函数的实现

2.3 位图模拟实现完整代码

三. 关于位图处理海量数据的几个面试题


一. 什么是位图

1.1 海量数据处理问题

问题:假设有30亿个不重复的无符号整形(size_t)数据,先给定一个数据x,要求判断其是否在这30亿个数据之中,可以使用什么方法?

  • 分析:一个size_t类型的数据占用4bytes的内存,30亿个就需要占用4*30=120亿byte的内存,1GB=1024MB=1024*1024KB=1024*1024*1024bytes,即:1GB≈10^9bytes。由此进行估算,30亿个无符号整形数据大约需要占用11~12GB的存储空间,显然内存无法容纳这些数据。
  • 我们常见的查找数据的方法有:搜索树(红黑树)、哈希表、排序后二分查找等。
  • 如果采用搜索树(红黑树)或哈希表,红黑树存储一个数据需要附带指向两个子节点、一个父亲节点的指针,还要附带节点颜色,这样没存储一个size_t数据就要附带4个4bytes的数据,需要5倍与数据的内存,显然内存存不下这些数据。
  • 如果采用哈希表,每个数据要附带一个_next指针,也需要2~3倍的空间,内存也无法容纳。
  • 如果采用排序+二分查找,由于数据量太大只能存储在磁盘文件,外排序和在磁盘文件中二分查找效率低下。

通过分析,搜索树、哈希表、排序+二分这些传统方法都不再适用于海量数据。问题要求我们判断一个数据x是否存在于海量数据中,并不一定要存下这些数据,只要记录某个数据是否在海量数据中存在即可。位图可以很好地解决上面的问题。

1.2 位图的概念

位图就是存放某种状态的数据结构,适用于海量数据、无重复数据的情况。对于size_t类型的数据,假设最大值为N,那么位图的大小就要有N个bits位,每个bits位有1和0两种状态,用于表示某个数据是否存在。

对于位于0~N的无符号整形数据,每个数据都对应一个bits位,记录其是否存在。注意:位图所占用的空间不取决于数据量,而是取决于数据的范围。

如无符号整数的范围是0~2^32-1,那么位图就需要2^32个bit位。这样,只需要2^32bytes/512MB的空间,就能记录有哪些数据出现在30亿个无符号整形数据中。

由于动态申请内存空间无法以bit为单位进行申请,因此,一般以char为单位申请,8bit为一组,第0组从右向左表示0~7,第1组从右向左表示8~15,...,以此类推。 

图1.1 位图的结构

二. 位图的实现 

2.1 成员变量及成员函数

  • 成员变量:vector<char>类型的成员变量_bits,用于记录每个bit位是0还是1。
  • 成员函数:void set(size_t x) -- 向位图中插入数据,void reset(size_t x) -- 删除位图中的某个数据,bool test(size_t x) -- 检查某个数据是否存在。

位图类还包含一个非类型模板参数N,用于表示数据范围,即:需要为位图开多少个比特位的内存空间。

不需要显示地定义析构函数,因为bitset类只有一个vector类型的成员变量,编译器默认生成的析构函数会去调用自定义类型的析构函数。

代码2.1:位图类的声明

template<size_t N>
class bitset
{
public:
	bitset();   //构造函数
	void set(size_t x);  //向位图插入数据函数
	void reset(size_t x);  //删除位图中的数据函数
	bool test(size_t x);  //判断x是否出现

private:
	std::vector<char> _bits;
};

2.2 成员函数的实现

构造函数

构造函数的工作是为_bits分配内存空间,假设需要N个bit位,由于C++语法的限制不能按bit动态申请内存空间,那么只能按char来申请,1char为8个bit位,那就要开辟 N/8+1个char的内存空间,这里+1是为了防止N/8向下取整导致空间不足。

代码2.2:构造函数

		bitset()   //构造函数
		{
			//非类型模板参数表示范围,即:位图中记录的整形数据的最大值
			//一个bit对应一个整形数据,1表示这个整数存在,0表示不存在
			//1个char占用8bit,因此,要开辟 N/8+1 个char类型的空间
            //+1是为了避免N/8向下取整造成空间不足
			_bits.resize(N / 8 + 1, 0);
		}

数据插入函数set

找出待插入数据x对于第几组char,对应第几个bit位后,将那个bit位置1即可。

代码2.3:set函数

		void set(size_t x)  //向位图插入数据函数
		{
			size_t i = x / 8;    //x在第i个char的bit位中
			size_t j = x % 8;    //x对应第i个char的第j位

			_bits[i] |= (1 << j);
		}

数据删除函数reset

找到x对应的bit位,然后将其置0即可。

代码2.4:reset函数

		void reset(size_t x)  //删除位图中的数据函数
		{
			size_t i = x / 8;
			size_t j = x % 8;

			//如何原来存在(对应位置为1),那么变为0
			//如果不存在(对应位置为0),那么保持0不变
			_bits[i] &= ~(1 << j);
		}

检查数据是否存在函数test

找到x对应的bit位,判断这个bit为是否为1即可。

代码2.5:test函数

		bool test(size_t x)  //判断x是否出现
		{
			size_t i = x / 8;
			size_t j = x % 8;

			return (_bits[i] & (1 << j)) != 0;
		}

2.3 位图模拟实现完整代码

//头文件BitSet.h

#include<vector>
namespace zhang
{
	template<size_t N>    
	class bitset
	{
	public:
		bitset()   //构造函数
		{
			//非类型模板参数表示范围,即:位图中记录的整形数据的最大值
			//一个bit对应一个整形数据,1表示这个整数存在,0表示不存在
			//1个char占用8bit,因此,要开辟 N/8+1 个char类型的空间,+1是为了避免N/8向下取整造成空间不足
			_bits.resize(N / 8 + 1, 0);
		}

		void set(size_t x)  //向位图插入数据函数
		{
			size_t i = x / 8;    //x在第i个char的bit位中
			size_t j = x % 8;    //x对应第i个char的第j位

			_bits[i] |= (1 << j);
		}

		void reset(size_t x)  //删除位图中的数据函数
		{
			size_t i = x / 8;
			size_t j = x % 8;

			//如何原来存在(对应位置为1),那么变为0
			//如果不存在(对应位置为0),那么保持0不变
			_bits[i] &= ~(1 << j);
		}

		bool test(size_t x)  //判断x是否出现
		{
			size_t i = x / 8;
			size_t j = x % 8;

			return (_bits[i] & (1 << j)) != 0;
		}

	private:
		std::vector<char> _bits;
	};
}

三. 关于位图处理海量数据的几个面试题

问题1:给50亿个无符号整数,如何找出只出现一次的数据

一般情况下,在位图中一个数据对应一个bit位记录数据是否出现。我们可以对其进行改造,一个无符号数据对应两个bit位,2个bit可以表示4种情况:00 -- 没有出现、01 -- 出现一次、10 -- 出现两次、11 -- 出现3次及以上。

我们可以新定义一个名为two_bitset的类,其中包含两个bitset类型的成员变量,_bit1用于表示高一位,_bit2用于表示低一位。

图3.1 双位图结构

代码3.1:two_bitset类

namespace zhang
{
	template<size_t N>
	class two_bitset
	{
	public:
		//不需要显示定义默认构造函数,编译的会自动调用_bits1和_bits2的默认构造函数

		//一个数据对应两个比特位,_bits1对应高一位,_bits2对应低一位
		// 00 -- 出现0次,01 -- 出现1次,10 -- 出现2次,11 -- 出现3次及以上
		void set(size_t x)
		{
			bool inBits1 = _bits1.test(x);
			bool inBits2 = _bits2.test(x);

			if (inBits1 == false && inBits2 == false)
			{
				// 00 -> 01
				_bits2.set(x);
			}
			else if (inBits1 == false && inBits2 == true)
			{
				// 01 -> 10
				_bits2.reset(x);
				_bits1.set(x);
			}
			else if (inBits1 == true && inBits2 == false)
			{
				// 10 -> 11
				_bits2.set(x);
			}
			else
			{
				//11:不进行任何处理
			}
		}

		void PrintOnceNum()   //打印只出现了一次的数字
		{
			for (size_t i = 0; i <= N; ++i)
			{
				bool inBit1 = _bits1.test(i);
				bool inBit2 = _bits2.test(i);

				if (!inBit1 && inBit2)
				{
					std::cout << i << " ";
				}
			}
			std::cout << std::endl;
		}

	private:
		zhang::bitset<N> _bits1;
		zhang::bitset<N> _bits2;
	};
}

问题2:两个具有100亿个整形数据的文件,如何只使用1G内存,找到两个文件的交集

使用两张位图,每张位图记录一个文件中出现的数据。如果两个位图中同一个位置处的bit位均为1,那么这个位置对应的整形在两个文件中均出现过,遍历整个位图,找到全部的1,就能得到两个大文件的交集。

消耗内存的空间:整形数据的范围是0~2^32-1,一张位图要用2^32bit(0.5G)内存空间,两张位图就需要1G,满足问题要求。

问题三:1个文件有100亿个int,1G内存,找出出现次数不超过2次的所有整数

整个问题其实就是问题1的变形,只需使用两张位图,找出对应bit位不是11(出现三次及以上)的整形数据即可,在two_bitset类中添加成员函数PrintNotMoreThanTwo来实现。

代码3.2:PrintNotMoreThanTwo成员函数

		void PrintNotMoreThanTwo()   //打印出现次数不超过两次的数据
		{
			for (size_t i = 0; i <= N; ++i)
			{
				bool inBit1 = _bits1.test(i);
				bool inBit2 = _bits2.test(i);

				// !(inBit1 && inBit2)保证出现不超过2次(≥3次)
				// inBit1 || inBit2 保证数据出现至少一次
				if (!(inBit1 && inBit2)
					&& (inBit1 || inBit2))
				{
					std::cout << i << " ";
				}
			}
			std::cout << std::endl;
		}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/545335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QT 学习笔记1 创建一个简单的cmd窗口界面

QT creator最大的特点是把界面和逻辑分开了 视频&#xff1a; 3、开发工具-QtCreator 目录 0、新建一个应用项目的步骤 一、设计相关&#xff1a; 1、控件 布局 Layouts 垫子 Spacers ​编辑 按钮 Buttons 单元视图 Item Views(Model-Based) 单元控件 Item Widgets(…

2023年美、英仍是最受欢迎的留学目标国家,硕士占比76%

2023年申请出国留学的时间已经不远了&#xff0c;要想顺利实现留学梦想&#xff0c;希望你能够把握好以下几个要点&#xff1a; 首先&#xff0c;要清楚自己的留学目标&#xff0c;要考虑到自己的学习能力、英语水平、专业设置、学费等因素&#xff0c;以便挑选一个最合适的国…

startActivityForResult被标记为废弃?Activity Result API闪亮登场!

本文已同步发表于我的微信公众号&#xff0c;搜索 代码说 即可关注&#xff0c;欢迎与我沟通交流。 文章目录 startActivityForResult()被标记为过时registerForActivityResult替代方案使用示例ActivityResultContract 场景自定义ActivityResultContract 源码浅析registerForAc…

(4.2)STM32中断系统

目录 1.中断基本概念 2.中断的意义 3.中断处理过程 4. 中断体系结构 5.NVIC 6.EXTI 1.中断基本概念 在处理器中&#xff0c;中断相当于对于突发事件的处理过程。 当遇到内部/外部的紧急事件需要处理时&#xff0c;暂时中止当前程序&#xff0c;转而去处理紧急事件&#xff0c; …

使用 ESP32 UWB DW3000进行测距和定位

什么是超宽带及其工作原理? UWB 是一种类似于蓝牙或 Wi-Fi 的短距离无线通信协议。它还使用无线电波进行通信并以非常高的频率运行。顾名思义,它还使用几 GHz 的宽频谱。可以将其想象成一种雷达,可以连续扫描整个房间并像激光束一样精确锁定物体以发现其位置并传输数据。 超…

08-用户权限控制

1、用户权限控制 权限控制是什么:控制用户对系统资源(URI)的操作。 前端的权限控制:对页面或页面元素的权限控制。 > 页面访问权限:哪些页面可以访问、哪些页面元素可见等等。 > 操作权限:如页面按钮是否可点击、是否可以增删改查等等 后端的权限控制:对接口及…

网络协议之HTTP详细解释

文章目录 前言一.Web发展的阶段二.http协议初识2.1 概念2.2 http的发展史2.3 http协议的作用2.4http协议的格式 三.抓包工具的介绍什么是抓包抓包工具的原理抓包工具的使用和下载- 具体下载过程:- 使用过程 四.HTTP请求请求行请求报头 五.HTTP响应状态行响应报头响应正文 前言 …

Java+Redis实现撤销重做功能

文章目录 1.背景2.需求分析3.实现逻辑分析4.统一过期时间设置5.初始图表栈6.记录图表变化7.撤销操作8.重做操作9.删除图表处理 1.背景 ​ 在一个编辑页面中&#xff0c;存在多个图表&#xff0c;对图表的配置操作允许撤销和重做&#xff1b;撤销和重做只是针对页面中图…

马斯克宣布将卸任推特 CEO:已找到接班人,自己要去当 CTO

作者 | 李冬梅 来源 | AI前线 ID | ai-front 当地时间 5 月 11 日&#xff0c;马斯克在特推上发文宣布&#xff0c;他将在 6 个星期后正式卸任推特 CEO 一职&#xff0c;并且已经找到了一位女性接班人&#xff0c;自己将转到技术岗位。 马斯克在推文中写道&#xff1a;“很…

Yolov5轻量级:EfficientViT, better speed and accuracy

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention 论文:https://arxiv.org/abs/2305.07027 代码:Cream/EfficientViT at main microsoft/Cream GitHub 🏆🏆🏆🏆🏆🏆Yolo轻量化模型🏆🏆🏆🏆🏆🏆 近些年对视觉Tra…

Java【网络原理3】TCP 协议的确认应答、超时重传机制

文章目录 前言一、确认应答1, 什么是确认应答2, 序列号和确认应答号 二、超时重传1, 什么是超时重传 总结 前言 各位读者好, 我是小陈, 这是我的个人主页, 希望我的专栏能够帮助到你: &#x1f4d5; JavaSE基础: 基础语法, 类和对象, 封装继承多态, 接口, 综合小练习图书管理系…

【redis】redis为什么这么快?高性能设计之epoll和I/O多路复用深度解析

系列文章目录 文章目录 系列文章目录前言一、before 学习I/O多路复用之前多路复用 需要解决的问题 一对一性能差结论 需要让一个进程同时处理多个连接 二、I/O多路复用模型1、是什么&#xff1f;一句话 2、redis单线程如何处理那么多并发客户端连接&#xff0c;为什么单线程&am…

Edge插件之WeTab,画面优美,可以免费使用chatgpt,很难不爱

目录 一、普通的edge新标签页 二、安装WeTab插件 1.WeTab插件的安装非常简单&#xff0c;只需在百度搜索wetab&#xff0c;进入官网&#xff1a; 2.进入官网&#xff0c;点击edge图标&#xff0c;进入插件下载页面&#xff1a; 3.这里由于我是已经安装成功&#xff0c;显示…

无法上网问题解决过程

下班&#xff0c;收到一同事在群里说&#xff0c;环境里有冒充网关的mac的&#xff0c;现在无法上网&#xff0c;让arp -s ip mac地址&#xff0c;先绑定正确的网关mac地址&#xff0c;先临时使用&#xff0c;等第二天上班再查找原因。 不能上网原因&#xff1a; 1、环境…

Cloud Studio 内核升级之触手可及

前言 Cloud Studio是基于浏览器的集成式开发环境&#xff08;IDE&#xff09;&#xff0c;为开发者提供了一个永不间断的云端工作站。用户在使用 Cloud Studio 时无需安装&#xff0c;随时随地打开浏览器就能使用。云端开发体验与本地几乎一样&#xff0c;上手门槛更低&#x…

IMU和GPS融合定位(ESKF)

说明 1.本文理论部分参考文章https://zhuanlan.zhihu.com/p/152662055和https://blog.csdn.net/brightming/article/details/118057262 ROS下的实践参考https://blog.csdn.net/qinqinxiansheng/article/details/107108475和https://zhuanlan.zhihu.com/p/163038275 理论 坐标…

三年测试,月薪才12k,想跳槽又不太敢.....

在我们的身边&#xff0c;存在一个普遍现象&#xff1a;很多人从事软件测试岗&#xff0c;不计其数&#xff0c;经历的心酸难与外人道也。可是技术确难以提升、止步不前&#xff0c;薪资也只能看着别人水涨船高&#xff0c;自己却没有什么起色。 虽然在公司里属于不可缺少的一…

java学习笔记

java学习笔记 直接写出来的人可以理解的数据&#xff0c;在java中叫做字面量。 字面量分类&#xff1a; 数据类型分类&#xff1a; 不同的数据类型分配了不同的内存空间&#xff0c;不同的内存空间&#xff0c;所存储的数据大小是不一样的。 数据类型内存占用和取值范围…

JavaSE入门必读篇——详解数组

文章目录 数组的概念1.什么是数组呢&#xff1f;2.如何创建数组3.遍历数组4.扩展&#xff1a;快速批量初始化 数组原理内存图1. 内存概述2.Java虚拟机的内存划分3.其存储方式图4.认识null 二维数组二维数组初始化遍历二维数组 数组常见异常1. 数组越界异常2. 数组空指针异常 Ja…

Windows下编译安装gRPC

gRPC是Google基于HTTP/2协议开发的一套开源、跨平台的高性能RPC框架&#xff0c;可用于连接微服务架构内的各种服务&#xff0c;亦可以连接客户端与后端服务。 Ref. from gRPC gRPC is a modern open source high performance Remote Procedure Call (RPC) framework that can…