【蓄水池问题】太 nice 了!我中奖啦!

news2024/11/19 1:44:48

小伙伴们中过奖么?

是不是都是 中奖绝缘体 呢?

今天我们就来聊一聊关于中奖的 概率 问题~

先思考两个问题

如果让你从规模为 N 的数据序列中,随机选取出 k 个不重复的数据,你会怎么做呢?

  • 是不是很简单,知道了总数 N ,等概率随机选择 k 个即可,每个数据被选到的概率均为 k / N k/N k/N

问题变一下:那如果从始至终都不知道 N 的具体大小呢?也就是说,数据流长度 N 很大,数据会源源不断的到来,且 N 直到处理完所有数据之前都不可知。

如何在这样的情况下,随机选取 k 个数据,保证当前已经到来的前 i 个元素中每一个元素被选中的概率相等,均为 k / i k/i k/i ,当处理完所有数据结束时,概率自然就变为了 k / N k/N k/N 呢?

两者区别一句话总结:能否提前知道 总数据量 N 。


这就引出了今天要探讨的问题:蓄水池算法

蓄水池算法

在一个很大,未知总量的数据流中,抽取 k 个样本,并保证每个样本的选取概率都是 相等并随机 的。

算法思路

  1. 构建一个可容纳 k 个样本的数组容器。
  2. 当数据量不足 k 个时,全部选取放入数组中。
  3. 当数据量超过 k 个时(假设是第 i 个元素),以 k / i k/i k/i 的概率选择进入数组中,并以 1 / k 1/k 1/k 的概率随机替换掉数组中的一个样本元素。
  4. 无论样本数据 N 何时结束,均能保证所选元素概率均为 k / N k/N k/N

即:保证在动态情况下,已经到来的每个样本元素被选中的概率相等

证明

i ≤ k i≤k ik 时,前 m 个元素,每个被选到的概率均为 k / m k/m k/m


i > k i>k ik 时,前 m 个元素,每个被选到的概率也均为 k / m k/m k/m

由以上两种情况的证明,我们可以得出结论:

每个元素被选到的概率均等,均为 k / N k/N k/N


以上我们证明了该方法的正确性:能够在未知数据量的情况下,依然保证在新元素到来时被选中的概率相等。

代码

public static class RandomBox {
    // 存放被选的元素数组
    private int[] arr;
    // 抽取 k 个样本
    private int k;
    // 目前到达的样本总数
    private int m;

    // 初始化
    public RandomBox(int capacity) {
        arr = new int[capacity];        
        k = capacity;        
        m = 0;
    }

    // 等概率随机 1 ~ max 之间的一个数
    private int rand(int max) {
        return (int) (Math.random() * max) + 1;
    }

    // 新到一个元素后,进行选择
    public void add(int num) {
        // 总量+1
        m++;
        // 没超过k时,直接选入
        if (m <= k) {
            arr[m - 1] = num;
        } else {
            // 以 k/i 的概率选择进入数组
            if (rand(m) <= k) {
                // 随机替换掉其中一个元素,概率 1/k
                arr[rand(k) - 1] = num;
            }
        }
    }
    
}

实际意义

这个算法在现实中有什么意义呢?
抽奖

参与活动中大奖

今天所有参与活动的小伙伴都有几率中奖哦,今晚24:00整开奖~

假设设置了 10 个奖品,但不知道有多少个人会来参与活动,当 24:00 整时,要公布获奖名单。

此时,就可以选择“蓄水池算法”,活动结束后,遍历一遍结果数组 arr[10],所有在数组中的 10 个人就是最终的获奖者。每个人的中奖几率均为 10/今天参与活动的总人数 ,确保了活动的公平性。

你中过奖么😜
~ 点赞 ~ 关注 ~ 星标 ~ 不迷路 ~!!!

关注
回复「ACM紫书」获取 ACM 算法书籍 ~
回复「算法导论」获取 算法导论第3版 ~

点赞、转发
让你的小伙伴们一起来学算法吧!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1637052.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

商务口才的谈话技巧(3篇)

商务口才的谈话技巧&#xff08;3篇&#xff09; 商务口才的谈话技巧&#xff08;一&#xff09; 在商务沟通中&#xff0c;有效的谈话技巧至关重要。首先&#xff0c;倾听是建立信任和理解的基础。真正聆听对方的观点和需求&#xff0c;不仅能让对方感受到尊重&#xff0c;还能…

C++协程库封装

操作系统&#xff1a;ubuntu20.04LTS 头文件&#xff1a;<ucontext.h> 什么是协程 协程可以看作轻量级线程&#xff0c;相比于线程&#xff0c;协程的调度完全由用户控制。可以理解为程序员可以暂停执行或恢复执行的函数。将每个线程看作是一个子程序&#xff0c;或者…

代码随想录算法训练营第59天|503.下一个更大元素II、42. 接雨水

503.下一个更大元素II 题目链接&#xff1a;下一个更大元素II 题目描述&#xff1a;给定一个循环数组 nums &#xff08; nums[nums.length - 1] 的下一个元素是 nums[0] &#xff09;&#xff0c;返回 nums 中每个元素的 下一个更大元素 。 数字 x 的 下一个更大的元素 是按数…

TDengine写入2000万数据查询体验

最近在寻找时序数据库&#xff0c;想应用在公司的项目上。 上一篇文章实验了InfluxDB:windows上使用influx2.7学习,还学习了flux语言&#xff0c;最后发现宽表查询比较困难&#xff0c;就放弃了&#xff0c;于是决定试试国产时序数据库TDengine 参考 官方文档&#xff1a;htt…

OpenSSH 漏洞补丁更新笔记

OpenSSH 漏洞补丁更新笔记 相关背景OpenSSH 8.8 以后版本弃用RSA 以及影响centos 更新openssh9.7p1通过rpm包进行安装 Ubuntu更新openssh-9.5p1前置条件下载的源码包导入服务器后操作 相关背景 客户通过第三方扫漏工具发现服务器centos8和Ubuntu22.04有OpenSSH 相关高危漏洞 扫…

Linux 第十八章

&#x1f436;博主主页&#xff1a;ᰔᩚ. 一怀明月ꦿ ❤️‍&#x1f525;专栏系列&#xff1a;线性代数&#xff0c;C初学者入门训练&#xff0c;题解C&#xff0c;C的使用文章&#xff0c;「初学」C&#xff0c;linux &#x1f525;座右铭&#xff1a;“不要等到什么都没有了…

【C#】基础知识

0.参考 C#语言入门详解 1.几种打印hello_world的方式 1.1 console控制台 新建一个console&#xff0c;直接打印&#xff1a; Console.WriteLine("Hello_world");启动一闪而过&#xff0c;在vs调试中选择开始执行不调试&#xff08;without debug&#xff09;。 …

el-tabs作为子组件使用页面空白

文章目录 前言一、问题展示二、源码分析三、解决方案 前言 如果el-tabs是子组件&#xff0c;父组件传值value / v-model为空字符&#xff0c;这个时候在watch中监听value / v-model就会发现监听的数据会被调用为‘0’。一定是作为子组件引用&#xff0c;且在watch进行监听&…

5.C++动态内存管理(超全)

目录 1 .C/C 内存分布 2. C语言中动态内存管理方式&#xff1a;malloc/calloc/realloc/free 3. C内存管理方式 3.1 new/delete操作内置类型 3.2 new和delete操作自定义类型 3.3 operator new函数 3.4 定位new表达式(placement-new) &#xff08;了解&#xff09; 4. 常…

开发一个语音聊天社交app小程序H5需要多少钱?

社交&#xff0c;即时通讯APP系统。如何开发一个社交App||开发一个即时通信应用是一项复杂而充满挑战的任务&#xff0c;需要考虑多个技术、开发时间和功能方面的因素。以下是一个概要&#xff0c;描述了从技术、开发时间和功能角度如何开发这样的应用&#xff1a; 1. 技术要点…

Centos7.9系统MySQL5.7.32升级为5.7.44(生成环境操作)

1.背景 由于客户进行等保漏扫和渗透&#xff0c;生成环境mysql数据库被扫描出了 高危漏洞。 如图&#xff1a;部分漏洞 查看漏洞详细信息&#xff0c;建议升级到指定版本解决&#xff1a; 说明&#xff1a; 本文仅适合使用当前数据库为 RPM 安装方式 2.升级前准备 查看环…

STM32-HAL库12-STM32F407VGT6的PWM主从定时器,发送指定数量脉冲

STM32-HAL库12-STM32F407VGT6的PWM主从定时器&#xff0c;发送指定数量脉冲 一、所用材料 STM32F407VGT6自制双伺服电机控制板&#xff1b; 一川A1系列伺服电机驱动器&#xff08;电0.73KW电机&#xff09;&#xff1b; 二、所学内容 实现PWM发送指定个数脉冲&#xff0c;以…

Noisy:一款功能强大的DNS和HTTPS网络流量噪声生成工具

关于Noisy Noisy是一款功能强大的DNS和HTTP/S网络流量噪音生成工具&#xff0c;该工具基于Python开发&#xff0c;可以帮助广大研究人员在进行常规网络浏览时&#xff0c;在后台生成随机的HTTP/DNS网络流量噪声&#xff0c;并以此来提升网络通信数据的安全性和隐蔽性。 支持的…

Hikyuu-教程-如何利用 FINANCE 指标计算市盈率

本篇主要讲解如何利用 FINANCE 指标计算市盈率&#xff0c;其他市净率等指标可以参考此文实现。 获取历史财务字段信息 调用 sm.get_history_finance_all_fields() 方法获取历史财务信息对应字段的索引号和名称 In [2]: sm.get_history_finance_all_fields() Out[2]: [(0, 基…

Bert基础(二十一)--Bert实战:文本摘要

一、介绍 1.1 文本摘要简介 文本摘要&#xff08;Text Summarization&#xff09;&#xff0c;作为自然语言处理&#xff08;NLP&#xff09;领域的一个分支&#xff0c;其核心目标是从长篇文档中提取关键信息&#xff0c;并生成简短的摘要&#xff0c;以提供对原始内容的高度…

Rust中的并发性:Sync 和 Send Traits

在并发的世界中&#xff0c;最常见的并发安全问题就是数据竞争&#xff0c;也就是两个线程同时对一个变量进行读写操作。但当你在 Safe Rust 中写出有数据竞争的代码时&#xff0c;编译器会直接拒绝编译。那么它是靠什么魔法做到的呢&#xff1f; 这就不得不谈 Send 和 Sync 这…

Apache SeaTunnel k8s 集群模式 Zeta 引擎部署指南

SeaTunnel提供了一种运行Zeta引擎(cluster-mode)的方法&#xff0c;可以让Kubernetes在本地运行Zeta引擎&#xff0c;实现更高效的应用程序部署和管理。在本文中&#xff0c;我们将探索SeaTunnel k8s运行zeta引擎(cluster-mode模式)的更多信息&#xff0c;了解如何更好地利用Ze…

大数据技术就业和发展前景怎么样

大数据技术的就业和发展前景极为乐观&#xff0c;具有行业需求旺盛、就业多样性、可持续发展潜力等特点&#xff0c; 上大学网 &#xff08;www.sdaxue.com&#xff09;整理出了大数据技术的就业和发展前景以下几个关键趋势&#xff0c;供大家参考&#xff01; 行业需求旺盛&…

[华为OD] C卷 5G网络 现需要在某城市进行5G网络建设,已经选取N个地点设置5G基站 200

题目 现需要在某城市进行5G网络建设&#xff0c;已经选取N个地点设置5G基站&#xff0c;编号固定为1到N,接 下来需要各个基站之间使用光纤进行连接以确保基站能互联互通&#xff0c;不同基站之间架设光纤的成 本各不相同&#xff0c;且有些节点之间已经存在光纤相连&#…

数据仓库Data Warehouse

数据仓库Data Warehouse 数仓是一种思想,数仓是一种规范,数仓是一种解决方案 1. 数据处理方式 数据处理大致可以分成两大类: 联机事务处理OLTP(on-line transaction processing)联机分析处理OLAP(On-Line Analytical Processing)1.1. OLTP OLTP的全称是On-line Transa…