【位图】面对海量数据,如何压缩空间?定位数据?

news2025/1/13 10:03:08

目录

一、腾讯面试题

二、解决办法——位图

2.1、那么什么是位图?

三、位图的模拟实现

3.1、位图的构造

3.2、存放数据

3.3、检测数据是否存在

3.4、设置某个数据的对应位为0

四、位图模拟代码(完整)


一、腾讯面试题

        给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。

思考:

        思路一:没有学习位图之前,我们一般最快能反应到使用哈希表的办法来解决,但是是有40亿的整形数据,这是一个什么概念?一个整形占4个字节,相当于要占用16G的内存空间,但生活中有多少电脑有这么大的内存空间?就算你是16G内存,难道你打开编译器编写代码不占空间?所以这个想法显然走不通;

        思路二: “排序+二分查找” 的办法来解决,时间复杂度上,排序最快也就是O(NlogN),二分查找logN,但是依然面临一个问题——内存存不下,二分查找依然是在内存中查找,但是16G的数据都存不了,还查个...所以很难受,根本查不了;

二、解决办法——位图

        

        我们可以这样规划空间,一个字节是32位,可以把每一位都利用起来,也就是说,一个 bit位表示一个数字,32位用可以来存放32个不同的数字,怎么存?可以通过映射的方式,1表示这意味数字存在,0表示不存在,具体的如下图:

2.1、那么什么是位图

        位图就是用每一位来存放某种状态,适用于 海量数据,无重复整数 的场景,通常用来判断某个数据是否存在;

2.2、有什么好处

        ——大大节省了空间

        例如上述栗子,10个整数本来需要40个字节,而用位图表示只需要3个字节,那么40亿个整数就只占512M的大小了~

三、位图的模拟实现

3.1、位图的构造

        默认初始化为一个字节,当然要也可以手动指定,而且一般需要多给一个字节,具体原因在注释当中;

如下代码:


public class MyBitSet {
    public byte[] elem;
    //记录当前位图中,存放了多少个有效数据
    public int usedSize;

    /**
     * 默认初始化位为一个字节
     */
    public MyBitSet() {
        this.elem = new byte[1];
    }

    /**
     * 指定构造方法中的初始化位数
     * 一般会多给一个字节,因为如果是12,那么12%8=4,不能整除,还多出来4个bit位
     * 所以多给一个也无所谓(不要那么抠)
     */
    public MyBitSet(int n) {
        this.elem = new byte[n / 8 + 1];
    }
}

3.2、存放数据

        创建一个set方法用来存放数据,首先要先判断数据是否小于0,若小于0就是不符合要求的,直接抛出异常;

怎么存放数据呢?如下图:

最后还要注意,若数据过大,需要考虑扩容(否则会越界访问);

代码如下:

    /**
     * 设置某一位为1(1为有效)
     * @param val
     */
    public void set(int val) {
        if(val < 0) {//必须是大于等于零的整数
            throw new IndexOutOfBoundsException();
        }
        //先确定val在elem的哪一个下标的哪一个bit位
        int arrayIndex = val / 8;
        //扩容
        if(arrayIndex > elem.length - 1) {
            elem = Arrays.copyOf(elem, arrayIndex + 1);
        }
        int bitIndex = val % 8;
        elem[arrayIndex] |= (1 << bitIndex);//不能是异或,会修改原来的值
        usedSize++;
    }

3.3、检测数据是否存在

         创建一个get方法,先检验val值是否小于零,小于直接抛异常,然后还是通过除8模8,左移1的方式确定位置,与 存放数据 不同, 这回使用 按位与,若按位与得到的数字为0,则说明原来这一位就是0,数字不存在,返回false,反之则存在,返回true;

如下代码:


    /**
     * 判断当前位是不是1
     * @param val
     * @return
     */
    public boolean get(int val) {
        if(val < 0) {//必须是大于等于零的整数
            throw new IndexOutOfBoundsException();
        }
        //先确定val在elem的哪一个下标的哪一个bit位
        int arrayIndex = val / 8;
        int bitIndex = val % 8;

        if((elem[arrayIndex] & (1 << bitIndex)) != 0) {
            return true;
        }
        return false;
    }

3.4、设置某个数据的对应位为0

        

        创建一个reSet方法,先检验val值是否小于零,小于直接抛异常;怎么设置为某一位为0呢,好像直接按位与、或、异或都不行,实际上我们可以这样做,按原来的方法,除8模8,左移1的方式确定位置,然后给这个数据取反,再 按位与等 这一字节,就可以了,如下图:

 代码如下:

    /**
     * 将对应位置 设置为0
     * @param val
     */
    public void reSet(int val) {
        if(val < 0) {//必须是大于等于零的整数
            throw new IndexOutOfBoundsException();
        }
        //先确定val在elem的哪一个下标的哪一个bit位
        int arrayIndex = val / 8;
        int bitIndex = val % 8;

        elem[arrayIndex] &= ~(1 << bitIndex);
        usedSize--;
    }

四、位图模拟代码(完整)

public class MyBitSet {
    public byte[] elem;
    //记录当前位图中,存放了多少个有效数据
    public int usedSize;

    /**
     * 默认初始化位为一个字节
     */
    public MyBitSet() {
        this.elem = new byte[1];
    }

    /**
     * 指定构造方法中的初始化位数
     * 一般会多给一个字节,因为如果是12,那么12%8=4,不能整除,还多出来4个bit位
     * 所以多给一个也无所谓(不要那么抠)
     */
    public MyBitSet(int n) {
        this.elem = new byte[n / 8 + 1];
    }

    /**
     * 获取当前位图存储的数据量
     */
    public int getUsedSize() {
        return this.usedSize;
    }


    /**
     * 设置某一位为1(1为有效)
     * @param val
     */
    public void set(int val) {
        if(val < 0) {//必须是大于等于零的整数
            throw new IndexOutOfBoundsException();
        }
        //先确定val在elem的哪一个下标的哪一个bit位
        int arrayIndex = val / 8;
        //扩容
        if(arrayIndex > elem.length - 1) {
            elem = Arrays.copyOf(elem, arrayIndex + 1);
        }
        int bitIndex = val % 8;
        elem[arrayIndex] |= (1 << bitIndex);//不能是异或,会修改原来的值
        usedSize++;
    }

    /**
     * 判断当前位是不是1
     * @param val
     * @return
     */
    public boolean get(int val) {
        if(val < 0) {//必须是大于等于零的整数
            throw new IndexOutOfBoundsException();
        }
        //先确定val在elem的哪一个下标的哪一个bit位
        int arrayIndex = val / 8;
        int bitIndex = val % 8;

        if((elem[arrayIndex] & (1 << bitIndex)) != 0) {
            return true;
        }
        return false;
    }

    /**
     * 将对应位置 设置为0
     * @param val
     */
    public void reSet(int val) {
        if(val < 0) {//必须是大于等于零的整数
            throw new IndexOutOfBoundsException();
        }
        //先确定val在elem的哪一个下标的哪一个bit位
        int arrayIndex = val / 8;
        int bitIndex = val % 8;

        elem[arrayIndex] &= ~(1 << bitIndex);
        usedSize--;
    }

}

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159394.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Authing 入选 2022 中国产业数字化领军企业

1 月 10 日&#xff0c;产业互联网第一媒体产业家联合数字化报、IT 桔子正式发布了【中国产业数字化领军企业榜单】&#xff0c;评选出 16 个互联网赛道中的领军企业。作为身份认证与访问管理领跑者&#xff0c;Authing 凭借在 SaaS 领域的技术创新与产品优势&#xff0c;成功入…

6.4、域名系统 DNS

1、DNS的作用 如下所示&#xff0c;因特网中的某台主机要访问某台 Web 服务器 只需在用户主机中运行某个游览器软件&#xff0c;在其地址栏中输入要访问的 Web 服务器的域名&#xff0c;并按下回车键即可访问到 Web 服务器所提供的内容 我们在用户主机中使用 ping 命令测试 We…

【小练】day1

day1 选择题 1. 以下for循环的执行次数是&#xff08;&#xff09;。 for(x0,y0;(y123)&&(x<4););A 是无限循环 B 循环次数不定 C 4 D 3 本题主要考察for for(初始化部分&#xff1b;条件判断部分&#xff1b;调整部分) 初始化部分只执行一次。 &&&a…

大数据分析案例-基于多元线性回归算法构建广告投放收益模型

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…

走好这三步,不再掉进云上安全的沟里!

序言一直以来&#xff0c;公有云安全是横亘在广大用户面前的一道鸿沟。云安全&#xff08;Cloud Security&#xff09;是指用于控制云计算的安全性、合规性和其他使用风险的过程、机制和服务。公有云提供商们都强调安全是其最高优先级工作&#xff0c;动辄就发布上百页的云上安…

谁还没个技术呢~PYTHON制作观看软件

前言 大家早好、午好、晚好吖 ❤ ~ 以前没钱时&#xff0c;我是这样嘚&#xff1a; 朋友说好一生一起走&#xff0c;账号先借我来耍耍 现在没钱时&#xff0c;我是这样嘚&#xff1a; 涨价就涨价&#xff0c;怎么还搞搞限制账号登录这一出呢~ 这年头~谁还没点技术不是,看我…

复盘一下slam中常用的几种点云类型

使用livox雷达常涉及至少3种点云格式&#xff0c;一个是livox官方定义的custom格式&#xff0c;另外两个就是激光、视觉常用的pcl类型和ros类型。之前总结过Livox雷达驱动程序发布点云格式CustomMsg和pcl::PointXYZI、pcl::PointXYZINormal之间的关系&#xff0c;现在再来复盘一…

【TypeScript】TS进阶-泛型(八)

&#x1f431;个人主页&#xff1a;不叫猫先生 &#x1f64b;‍♂️作者简介&#xff1a;前端领域新星创作者、阿里云专家博主&#xff0c;专注于前端各领域技术&#xff0c;共同学习共同进步&#xff0c;一起加油呀&#xff01; &#x1f4ab;系列专栏&#xff1a;vue3从入门到…

【Linux】工具使用

文章目录一、Linux 软件包管理器 yum二、 Linux开发工具&#xff08;1&#xff09; Linux编辑器-vim使用&#xff08;2&#xff09;简单vim配置三、Linux编译器-gcc/g使用四、动态库和静态库五、Linux调试器-gdb使用六、Linux项目自动化构建工具-make/Makefile(1)make/Makefile…

如何才能精通 Redis?

为什么我要讲 Redis&#xff1f; 已经出过这么多主题的书籍和课程了&#xff0c;这次我为什么要选择 Redis 这个主题呢&#xff1f; 那自然是因为 Redis 是我们实际开发中不可或缺的组件之一&#xff0c;也是目前全球最流行的 KV 数据库。相信小伙伴们在工作中也会频繁接触到…

【入门篇】2 # 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度

说明 【数据结构与算法之美】专栏学习笔记。 为什么引入这些时间复杂度 先看下面代码 // n 表示数组 array 的长度 int find(int[] array, int n, int x) {int i 0;int pos -1;for (; i < n; i) {if (array[i] x) {pos i;break;}}return pos; }上面代码中如果没有 …

Redis序列化和java存入Redis数据序列化反序列化总结

背景&#xff1a; 最近考虑java代码数据在保存redis时&#xff0c;通常要配置序列化&#xff0c;才能保存到redis中&#xff0c;然而我们知道Redis中也有序列化&#xff08;RDB和AoF两种形式&#xff09;&#xff0c;有点混淆总结一下。 java中数据保存redis过程序列化的原因是…

图解:什么是二叉查找树?

文章目录1. 二叉查找树的概念2. 二叉查找树的实现&#x1f351; 定义节点&#x1f351; 函数接口总览&#x1f351; 构造函数&#x1f351; 拷贝构造&#x1f351; 赋值重载&#x1f351; 析构函数&#x1f351; 查找操作&#x1f345; 动图演示&#x1f345; 非递归实现&#…

【机器学习】线性回归(实战)

线性回归&#xff08;实战&#xff09; 目录一、准备工作&#xff08;设置 jupyter notebook 中的字体大小样式等&#xff09;二、构建实验所需的数据&#xff08;以下实验将基于此数据&#xff09;三、实现线性回归的两种方式方法一&#xff1a;通过直接求解得到拟合方程参数&…

Python金融风控模型案例实战大全

大家好&#xff0c;我是Toby老师&#xff0c;今天介绍 《Python金融风控模型案例实战大全》。 1.《Python金融风控模型案例实战大全》程覆盖多个核心知识点&#xff0c;包括风控建模全流程知识介绍&#xff0c;信用评分卡&#xff0c;信用评分卡知识包含个人信用评分卡和企业信…

ifconfig-显示和配置网络

ifconfig是linux中用于显示或配置网络设备&#xff08;网络接口卡&#xff09;的命令&#xff0c;英文全称是network interfaces configuring。配置网卡的IP地址语法例&#xff1a;ifconfig eth0 192.168.0.1 netmask 255.255.255.0 系统命令 语法 ifconfig [网络设备][down up…

读Go语言精进之路

主要是摘取书中&#xff0c;个人感觉比较重要的内容。 文章目录第一部分 熟知Go的一切理解Go的设计哲学使用Go语言原生编程思维写Go代码第二部分 项目结构、代码风格和标识符命名第三部分 声明、类型、语句与控制结构13 了解切片的底层原理14 了解Map实现原理并高效使用15. str…

Word处理控件Aspose.Words功能演示:在 C# .NET 中将 DOC/DOCX 转换为 PNG

Aspose.Words 是一种高级Word文档处理API&#xff0c;用于执行各种文档管理和操作任务。API支持生成&#xff0c;修改&#xff0c;转换&#xff0c;呈现和打印文档&#xff0c;而无需在跨平台应用程序中直接使用Microsoft Word。此外&#xff0c; Aspose API支持流行文件格式处…

Linux系统中常见的压缩命令和特殊权限说明

✅作者简介&#xff1a;热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏&#xff1a;Java案例分…

PHP多进程(二)之pcntl_wait

上篇文章我们说到父进程应该回收子进程结束之后产生的数据,这样才会不浪费系统资源。 一个程序启动之后&#xff0c;变成了一个进程&#xff0c;进程在以下情况会退出 1&#xff09;运行到最后一行语句 2) 运行时遇到return 时 3) 运行时遇到exit()函数的时候 4) 程序异常的时…