一. 什么是位图

1.1 海量数据处理问题

问题：假设有30亿个不重复的无符号整形(size_t)数据，先给定一个数据x，要求判断其是否在这30亿个数据之中，可以使用什么方法？

分析：一个size_t类型的数据占用4bytes的内存，30亿个就需要占用4*30=120亿byte的内存，1GB=1024MB=1024*1024KB=1024*1024*1024bytes，即：1GB≈10^9bytes。由此进行估算，30亿个无符号整形数据大约需要占用11~12GB的存储空间，显然内存无法容纳这些数据。
我们常见的查找数据的方法有：搜索树（红黑树）、哈希表、排序后二分查找等。
如果采用搜索树（红黑树）或哈希表，红黑树存储一个数据需要附带指向两个子节点、一个父亲节点的指针，还要附带节点颜色，这样没存储一个size_t数据就要附带4个4bytes的数据，需要5倍与数据的内存，显然内存存不下这些数据。
如果采用哈希表，每个数据要附带一个_next指针，也需要2~3倍的空间，内存也无法容纳。
如果采用排序+二分查找，由于数据量太大只能存储在磁盘文件，外排序和在磁盘文件中二分查找效率低下。

通过分析，搜索树、哈希表、排序+二分这些传统方法都不再适用于海量数据。问题要求我们判断一个数据x是否存在于海量数据中，并不一定要存下这些数据，只要记录某个数据是否在海量数据中存在即可。位图可以很好地解决上面的问题。

1.2 位图的概念

位图就是存放某种状态的数据结构，适用于海量数据、无重复数据的情况。对于size_t类型的数据，假设最大值为N，那么位图的大小就要有N个bits位，每个bits位有1和0两种状态，用于表示某个数据是否存在。

对于位于0~N的无符号整形数据，每个数据都对应一个bits位，记录其是否存在。注意：位图所占用的空间不取决于数据量，而是取决于数据的范围。

如无符号整数的范围是0~2^32-1，那么位图就需要2^32个bit位。这样，只需要2^32bytes/512MB的空间，就能记录有哪些数据出现在30亿个无符号整形数据中。

由于动态申请内存空间无法以bit为单位进行申请，因此，一般以char为单位申请，8bit为一组，第0组从右向左表示0~7，第1组从右向左表示8~15，...，以此类推。

二. 位图的实现

2.1 成员变量及成员函数

成员变量：vector<char>类型的成员变量_bits，用于记录每个bit位是0还是1。
成员函数：void set(size_t x) -- 向位图中插入数据，void reset(size_t x) -- 删除位图中的某个数据，bool test(size_t x) -- 检查某个数据是否存在。

位图类还包含一个非类型模板参数N，用于表示数据范围，即：需要为位图开多少个比特位的内存空间。

不需要显示地定义析构函数，因为bitset类只有一个vector类型的成员变量，编译器默认生成的析构函数会去调用自定义类型的析构函数。

代码2.1：位图类的声明

template<size_t N>
class bitset
{
public:
	bitset();   //构造函数
	void set(size_t x);  //向位图插入数据函数
	void reset(size_t x);  //删除位图中的数据函数
	bool test(size_t x);  //判断x是否出现

private:
	std::vector<char> _bits;
};

2.2 成员函数的实现

构造函数

构造函数的工作是为_bits分配内存空间，假设需要N个bit位，由于C++语法的限制不能按bit动态申请内存空间，那么只能按char来申请，1char为8个bit位，那就要开辟 N/8+1个char的内存空间，这里+1是为了防止N/8向下取整导致空间不足。

代码2.2：构造函数

		bitset()   //构造函数
		{
			//非类型模板参数表示范围，即：位图中记录的整形数据的最大值
			//一个bit对应一个整形数据，1表示这个整数存在，0表示不存在
			//1个char占用8bit，因此，要开辟 N/8+1 个char类型的空间
            //+1是为了避免N/8向下取整造成空间不足
			_bits.resize(N / 8 + 1, 0);
		}

数据插入函数set

找出待插入数据x对于第几组char，对应第几个bit位后，将那个bit位置1即可。

代码2.3：set函数

		void set(size_t x)  //向位图插入数据函数
		{
			size_t i = x / 8;    //x在第i个char的bit位中
			size_t j = x % 8;    //x对应第i个char的第j位

			_bits[i] |= (1 << j);
		}

数据删除函数reset

找到x对应的bit位，然后将其置0即可。

代码2.4：reset函数

		void reset(size_t x)  //删除位图中的数据函数
		{
			size_t i = x / 8;
			size_t j = x % 8;

			//如何原来存在(对应位置为1)，那么变为0
			//如果不存在(对应位置为0)，那么保持0不变
			_bits[i] &= ~(1 << j);
		}

检查数据是否存在函数test

找到x对应的bit位，判断这个bit为是否为1即可。

代码2.5：test函数

		bool test(size_t x)  //判断x是否出现
		{
			size_t i = x / 8;
			size_t j = x % 8;

			return (_bits[i] & (1 << j)) != 0;
		}

2.3 位图模拟实现完整代码

//头文件BitSet.h

#include<vector>
namespace zhang
{
	template<size_t N>    
	class bitset
	{
	public:
		bitset()   //构造函数
		{
			//非类型模板参数表示范围，即：位图中记录的整形数据的最大值
			//一个bit对应一个整形数据，1表示这个整数存在，0表示不存在
			//1个char占用8bit，因此，要开辟 N/8+1 个char类型的空间，+1是为了避免N/8向下取整造成空间不足
			_bits.resize(N / 8 + 1, 0);
		}

		void set(size_t x)  //向位图插入数据函数
		{
			size_t i = x / 8;    //x在第i个char的bit位中
			size_t j = x % 8;    //x对应第i个char的第j位

			_bits[i] |= (1 << j);
		}

		void reset(size_t x)  //删除位图中的数据函数
		{
			size_t i = x / 8;
			size_t j = x % 8;

			//如何原来存在(对应位置为1)，那么变为0
			//如果不存在(对应位置为0)，那么保持0不变
			_bits[i] &= ~(1 << j);
		}

		bool test(size_t x)  //判断x是否出现
		{
			size_t i = x / 8;
			size_t j = x % 8;

			return (_bits[i] & (1 << j)) != 0;
		}

	private:
		std::vector<char> _bits;
	};
}

三. 关于位图处理海量数据的几个面试题

问题1：给50亿个无符号整数，如何找出只出现一次的数据

一般情况下，在位图中一个数据对应一个bit位记录数据是否出现。我们可以对其进行改造，一个无符号数据对应两个bit位，2个bit可以表示4种情况：00 -- 没有出现、01 -- 出现一次、10 -- 出现两次、11 -- 出现3次及以上。

我们可以新定义一个名为two_bitset的类，其中包含两个bitset类型的成员变量，_bit1用于表示高一位，_bit2用于表示低一位。

代码3.1：two_bitset类

namespace zhang
{
	template<size_t N>
	class two_bitset
	{
	public:
		//不需要显示定义默认构造函数，编译的会自动调用_bits1和_bits2的默认构造函数

		//一个数据对应两个比特位，_bits1对应高一位，_bits2对应低一位
		// 00 -- 出现0次，01 -- 出现1次，10 -- 出现2次，11 -- 出现3次及以上
		void set(size_t x)
		{
			bool inBits1 = _bits1.test(x);
			bool inBits2 = _bits2.test(x);

			if (inBits1 == false && inBits2 == false)
			{
				// 00 -> 01
				_bits2.set(x);
			}
			else if (inBits1 == false && inBits2 == true)
			{
				// 01 -> 10
				_bits2.reset(x);
				_bits1.set(x);
			}
			else if (inBits1 == true && inBits2 == false)
			{
				// 10 -> 11
				_bits2.set(x);
			}
			else
			{
				//11:不进行任何处理
			}
		}

		void PrintOnceNum()   //打印只出现了一次的数字
		{
			for (size_t i = 0; i <= N; ++i)
			{
				bool inBit1 = _bits1.test(i);
				bool inBit2 = _bits2.test(i);

				if (!inBit1 && inBit2)
				{
					std::cout << i << " ";
				}
			}
			std::cout << std::endl;
		}

	private:
		zhang::bitset<N> _bits1;
		zhang::bitset<N> _bits2;
	};
}

问题2：两个具有100亿个整形数据的文件，如何只使用1G内存，找到两个文件的交集

使用两张位图，每张位图记录一个文件中出现的数据。如果两个位图中同一个位置处的bit位均为1，那么这个位置对应的整形在两个文件中均出现过，遍历整个位图，找到全部的1，就能得到两个大文件的交集。

消耗内存的空间：整形数据的范围是0~2^32-1，一张位图要用2^32bit（0.5G）内存空间，两张位图就需要1G，满足问题要求。

问题三：1个文件有100亿个int，1G内存，找出出现次数不超过2次的所有整数

整个问题其实就是问题1的变形，只需使用两张位图，找出对应bit位不是11（出现三次及以上）的整形数据即可，在two_bitset类中添加成员函数PrintNotMoreThanTwo来实现。

代码3.2：PrintNotMoreThanTwo成员函数

		void PrintNotMoreThanTwo()   //打印出现次数不超过两次的数据
		{
			for (size_t i = 0; i <= N; ++i)
			{
				bool inBit1 = _bits1.test(i);
				bool inBit2 = _bits2.test(i);

				// !(inBit1 && inBit2)保证出现不超过2次（≥3次）
				// inBit1 || inBit2 保证数据出现至少一次
				if (!(inBit1 && inBit2)
					&& (inBit1 || inBit2))
				{
					std::cout << i << " ";
				}
			}
			std::cout << std::endl;
		}