【有啥问啥】多臂老虎机(Multi-Armed Bandit,MAB)算法详解

news2025/1/12 20:56:04

MAB

多臂老虎机(Multi-Armed Bandit,MAB)算法详解

1. 引言

多臂老虎机(Multi-Armed Bandit,MAB)问题源自概率论和决策论,是一个经典的决策优化问题。最早提出的形式是赌场中的老虎机问题:一个玩家面对多台老虎机(即“多臂老虎机”),每台老虎机的回报率(奖励分布)是未知的。玩家需要决定如何分配有限的资源(如投币次数)在这些老虎机之间,以最大化总回报。

多臂老虎机问题的核心挑战在于如何在“探索”(尝试不同的老虎机以获取更多信息)和“利用”(使用当前认为最优的老虎机获取回报)之间权衡。这个问题在现代机器学习和人工智能中有着广泛的应用,比如在线广告推荐、A/B 测试和个性化推荐系统。

2. 问题定义

假设我们面对 K K K 台老虎机,每台老虎机的奖励分布都是未知的。目标是通过多个回合的选择,最大化累计奖励。具体定义如下:

  • K K K 台老虎机,各自的奖励分布为 r 1 , r 2 , … , r K r_1, r_2, \dots, r_K r1,r2,,rK。这些分布可以是二项分布、正态分布或其他。
  • 每轮玩家可以选择一台老虎机进行尝试,获得奖励 r i r_i ri,其中 r i r_i ri 来自老虎机 i i i 的奖励分布。
  • 目标是找到最优策略 π \pi π,在有限的尝试次数内最大化累计奖励。

2.1 奖励分布

奖励分布是多臂老虎机问题中的关键因素。常见的奖励分布包括二项分布(用于模拟二值奖励,如广告点击与否)、正态分布(用于模拟连续奖励,如销售额)等。不同的奖励分布会影响算法的性能和选择策略。

2.2 累积后悔(Cumulative Regret)

在多臂老虎机问题中,通常引入“后悔”这一概念,用来衡量探索与利用的效率。假设每次选择最优的老虎机可以获得的奖励是 r ∗ r^* r,则在时间步 t t t 的后悔为:

R t = r ∗ − r π ( t ) R_t = r^* - r_{\pi(t)} Rt=rrπ(t)

其中 r π ( t ) r_{\pi(t)} rπ(t) 为选择的老虎机在 t t t 时获得的奖励。累积后悔 R ( T ) R(T) R(T) 定义为在时间 T T T 内的总和:

R ( T ) = ∑ t = 1 T ( r ∗ − r π ( t ) ) R(T) = \sum_{t=1}^T \left( r^* - r_{\pi(t)} \right) R(T)=t=1T(rrπ(t))

最优的策略应当最小化累积后悔。

3. 主要挑战:探索与利用的平衡

多臂老虎机问题的主要难点在于“探索与利用”(exploration vs. exploitation)的平衡:

  • 探索(Exploration):玩家需要对尚不确定的老虎机进行尝试,以获取更多的信息,识别最优老虎机。
  • 利用(Exploitation):一旦找到看似最优的老虎机,玩家应最大化其回报,避免浪费资源在次优选择上。

3.1 探索的必要性

如果完全利用现有信息,可能永远不会发现潜在更优的选择,导致长期回报的损失。若过度探索,又会减少对已知高回报选择的利用。因此,设计合理的算法以平衡这两者,是该问题的核心挑战。

4. 经典算法

4.1 ε-贪婪算法 (ε-Greedy Algorithm)

ε-贪婪算法是解决探索与利用平衡问题的一种简单但有效的方法。核心思想是:

  • 以概率 1 − ϵ 1 - \epsilon 1ϵ 选择当前认为最优的老虎机(利用阶段)。
  • 以概率 ϵ \epsilon ϵ 随机选择任意一台老虎机进行探索。

在初期, ϵ \epsilon ϵ 通常较大,以促进探索;随着时间推移, ϵ \epsilon ϵ 可以逐渐减小,以增加对最优解的利用。

举个栗子
假设你面前有三台老虎机,你不知道哪一台能带来最大的奖励,但根据历史数据,你知道其中某一台通常能提供更高的奖励。使用ε-贪婪算法,你会经常玩你认为表现最好的那台老虎机(贪婪选择),但同时也会偶尔尝试其他两台老虎机(随机探索)。这样做是为了避免因为过于贪心而选择次优解,从而有机会发现更好的奖励来源。

代码示例

import numpy as np

class EpsilonGreedy:
    def __init__(self, n_arms, epsilon):
        self.n_arms = n_arms
        self.epsilon = epsilon
        self.counts = np.zeros(n_arms)
        self.values = np.zeros(n_arms)

    def select_arm(self):
        if np.random.rand() > self.epsilon:
            return np.argmax(self.values)
        else:
            return np.random.randint(0, self.n_arms)

    def update(self, chosen_arm, reward):
        self.counts[chosen_arm] += 1
        n = self.counts[chosen_arm]
        value = self.values[chosen_arm]
        self.values[chosen_arm] = ((n - 1) / n) * value + (1 / n) * reward

4.2 上置信界算法(UCB1)

上置信界(Upper Confidence Bound, UCB)算法是一种具理论保证的多臂老虎机算法,采用“乐观面对未知”的策略。它不仅考虑当前的平均回报,还通过公式引入不确定性的估计。公式如下:

A t = arg ⁡ max ⁡ i ( μ i ^ + 2 log ⁡ t n i ) A_t = \arg\max_{i} \left( \hat{\mu_i} + \sqrt{\frac{2 \log t}{n_i}} \right) At=argimax(μi^+ni2logt )

其中:

  • μ i ^ \hat{\mu_i} μi^ 是老虎机 i i i 的平均回报。
  • t t t 是当前的时间步。
  • n i n_i ni 是老虎机 i i i 被选择的次数。

UCB1 在理论上对探索与利用的平衡做了合理估计,具有较好的累积后悔上界。

举个栗子
继续使用老虎机的例子,UCB算法会考虑每个老虎机带来的平均奖励以及其不确定性。它不仅会看当前已知的最好表现的老虎机,还会考虑其他老虎机可能提供的更高奖励的潜力。这种策略在探索和利用之间找到了一个更精细的平衡,尤其是在面对多个相似表现的老虎机时。

代码示例

class UCB1:
    def __init__(self, n_arms):
        self.n_arms = n_arms
        self.counts = np.zeros(n_arms)
        self.values = np.zeros(n_arms)

    def select_arm(self):
        total_counts = np.sum(self.counts)
        if 0 in self.counts:
            return np.argmin(self.counts)
        ucb_values = self.values + np.sqrt(2 * np.log(total_counts) / self.counts)
        return np.argmax(ucb_values)

    def update(self, chosen_arm, reward):
        self.counts[chosen_arm] += 1
        n = self.counts[chosen_arm]
        value = self.values[chosen_arm]
        self.values[chosen_arm] = ((n - 1) / n) * value + (1 / n) * reward

4.3 汤普森采样(Thompson Sampling)

汤普森采样是一种基于贝叶斯推断的方法,它通过对每个老虎机的奖励分布进行采样来选择动作。该算法对每个老虎机维护一个奖励分布的贝叶斯后验概率,每次从这些分布中采样,并选择回报率最高的老虎机。

举个栗子
想象你正在玩三台老虎机,每台老虎机的奖励都遵循一定的概率分布。Thompson采样会根据这些分布的历史信息来决定如何平衡探索和利用。具体来说,它会根据每台老虎机的历史数据和当前信念进行采样,并基于采样的结果来选择下一步要玩的老虎机。这种方式能够在连续的实验中自适应地调整其信念,并在探索和利用之间保持灵活平衡。

代码示例

class ThompsonSampling:
    def __init__(

self, n_arms):
        self.n_arms = n_arms
        self.successes = np.zeros(n_arms)
        self.failures = np.zeros(n_arms)

    def select_arm(self):
        samples = [np.random.beta(self.successes[i] + 1, self.failures[i] + 1) for i in range(self.n_arms)]
        return np.argmax(samples)

    def update(self, chosen_arm, reward):
        if reward == 1:
            self.successes[chosen_arm] += 1
        else:
            self.failures[chosen_arm] += 1

5. 现实应用场景

  1. 在线广告推荐:在广告推荐中,多臂老虎机算法可以用来优化广告展示策略。不同的广告对应着不同的点击率(奖励分布),而推荐系统需要不断调整展示的广告组合,以获得更高的点击率。

  2. A/B 测试:多臂老虎机问题在 A/B 测试中的应用尤为广泛。在测试不同版本的网站、APP 或产品特性时,如何平衡对新版本的探索与已有版本的利用,是一个典型的多臂老虎机问题。

  3. 医疗试验:在医疗领域,特别是药物试验中,多臂老虎机算法可以帮助研究人员在探索不同治疗方法(不同的“老虎机”)的同时,尽可能提高患者的治疗效果(最大化“奖励”)。通过平衡不同治疗方法的探索和有效治疗的利用,能使更多患者在试验中获得最优疗效,同时加速找到最佳治疗方案。

  4. 推荐系统个性化:在个性化推荐中,多臂老虎机算法能够动态调整推荐策略,以更好地满足用户的偏好。例如,视频流媒体平台可以使用该算法在推荐内容时平衡探索新的视频类别与继续推荐用户喜好的内容之间的关系。

  5. 金融投资组合管理:在投资决策中,多臂老虎机算法可以帮助投资者在未知风险的情况下进行不同资产的投资组合选择,逐步优化收益率。探索不同的投资组合以识别最优投资策略,同时有效利用已有的信息最大化收益,是该算法的典型应用。

6. 扩展与改进

多臂老虎机问题的基本算法已经在多个领域取得成功,但在实际应用中,往往需要针对具体场景进行扩展和改进。以下是一些常见的扩展方向:

6.1 上下文多臂老虎机 (Contextual Bandits)

在标准的多臂老虎机问题中,奖励分布不依赖于上下文信息。然而在很多应用中,奖励往往受到某些上下文的影响,比如用户的个性化特征。在上下文多臂老虎机模型中,每次决策时都有相关的上下文输入,算法需要根据这些上下文信息来选择最优的臂。

常见的算法如线性 UCB上下文汤普森采样,它们可以将上下文信息与回报关联,从而提供更具个性化和智能化的决策。

6.2 延迟反馈与非平稳环境

在许多实际场景中,奖励反馈并不是即时的,比如在线广告点击的反馈可能会延迟,或者奖励分布会随着时间发生变化。这种延迟反馈或非平稳环境对多臂老虎机问题提出了新的挑战。应对这些情况的算法包括引入时间衰减机制或动态更新策略,适应奖励分布的变化。

6.3 多任务多臂老虎机

在某些应用中,存在多个相关的多臂老虎机问题。例如,多个广告系列或不同用户群的推荐问题都可以看作相互关联的多臂老虎机问题。通过共享信息和资源,可以利用多任务学习的思想,提高整体的探索效率,减少累积后悔。

7. 总结

多臂老虎机问题作为经典的探索与利用平衡问题,不仅在理论上具有深远的意义,也在许多现实应用中得到了广泛应用。从最基础的 ε-贪婪算法到复杂的上下文多臂老虎机算法,每一种方法都有其适用的场景和优势。

在未来,随着更多新兴领域如自动驾驶、智能医疗和个性化营销的发展,多臂老虎机算法的应用范围和影响力将进一步扩大。为不同的应用场景设计定制化的多臂老虎机算法,将是研究者和工程师们关注的重点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2159409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

若依vue3.0表格的增删改查文件封装

一、因若依生成的文件没进行封装,维护起来比较麻烦。所以自己简单的进行封装了一下 gitee代码(文件)地址:https://gitee.com/liu_yu_ting09/ruo_yi.git 二、封装的方法(下面绿色按钮进行全局封装一个JeecgListMixin.js…

【解密 Kotlin 扩展函数】扩展函数的底层原理(十八)

导读大纲 1.1.1 从 Java 调用扩展函数1.1.2 扩展函数无法重载 1.1.1 从 Java 调用扩展函数 在编译器底层下,扩展函数是一种静态方法,它接受接收器对象作为第一个参数 调用它不涉及创建适配器对象或任何其他运行时开销这使得从 Java 使用扩展函数变得非常简单 调用静态方法并传…

《深度学习》卷积神经网络CNN 实现手写数字识别

目录 一、卷积神经网络CNN 1、什么是CNN 2、核心 3、构造 二、案例实现 1、下载训练集、测试集 代码实现如下: 2、展示部分图片 运行结果: 3、图片打包 运行结果: 4、判断当前使用的CPU还是GPU 5、定义卷积神经网络 运行结果&a…

吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)2.3-2.4

目录 第四门课 卷积神经网络(Convolutional Neural Networks)第二周 深度卷积网络:实例探究(Deep convolutional models: case studies)2.3 残差网络(ResNets)(Residual Networks (ResNets))2.4 残差网络为什么有用&am…

武汉正向科技 格雷母线检测方式 :车检,地检

正向科技|格雷母线原理运用-车检,地检 地上检测方式 地址编码器和天线箱安装在移动站上,通过天线箱发射地址信号,地址解码器安装在固定站(地面)上,在固定站完成地址检测。 车上检测方式 地址编码器安装在…

【OpenCV】场景中人的识别与前端计数

1.OpenCV代码设计讲解 突发奇想,搞个摄像头,识别一下实验室里面有几个人,计数一下(最终代码是累加计数,没有优化),拿OpenCV来玩一玩 首先,还是优先启动电脑摄像头,本项…

react hooks--useCallback

概述 useCallback缓存的是一个函数,主要用于性能优化!!! 基本用法 如何进行性能的优化呢? useCallback会返回一个函数的 memoized(记忆的) 值;在依赖不变的情况下,多次定义的时候,返回的值是…

MySQL record 07 part

索引 注意,是排序,有序就会加快查找的速度。 优势: 劣势 索引会单独占用存储空间索引虽然可以提高排序和查找的速度,但同时也会降低更新、删除、新增数据的速度,因为MySQL此时既要更改表,也要维护更改表后…

ubuntu安装无线网卡驱动(非虚拟机版)

本文不是基于虚拟机,是双系统 太夸张了 实验室居然没网线 只有一个师兄留下来的无线网卡 装完了ubuntu结果没网 make都用不了 然后搜了下大概发现是没有预装gcc和make 参考如下 https://zhuanlan.zhihu.com/p/466440088 https://wwsk.lanzouj.com/iAj4t2ao46zc…

电脑配置不够,想玩老头环可以上ToDesk云电脑体验一下

最近,《艾尔登法环》游戏更新了好多新东西,让玩家特别兴奋。比如说,FromSoftware工作室一直在改进游戏,让游戏运行得更稳、更流畅。而且,《艾尔登法环:黄金树幽影》这个扩展包一出,游戏世界变得…

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘attribute‘

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

调用JS惰性函数问题

第一次调用这个函数时 console.log(a) 会被执行,打印出 a,全局变量 a 被重定义并被赋予了新的函数,当再一次调用时,console.log(b) 被执行。 用处:因为各浏览器之间的行为差异,经常会在函数中包含了大量的…

Kafka技术详解[1]:简介与基础概念

目录 1. Kafka入门 1.1 概述 1.1.1 初识Kafka 1.1.2 消息队列 1.1.3 生产者-消费者模式 1.1.4 消息中间件对比 1.1.5 ZooKeeper 1. Kafka入门 1.1 概述 1.1.1 初识Kafka Kafka是由Scala和Java语言开发的高吞吐量分布式消息发布和订阅系统,也是大数据技术领…

《汇编语言》第14章——实验 14访问CMOS RAM

编程,以“年/月/日 时:分:秒”的格式,显示当前的日期、时间 assume cs:code data segment db 2024/09/23 00:00:00,$ data endscode segment start:mov ax,datamov es,axcall get_hms_funccall get_ymd_funcmov dh,12 ;dh中存放…

黑马头条day3-2 自媒体文章管理

前边还有一个 素材列表查询 没什么难度 就略过了 查询所有频道和查询自媒体文章也是和素材列表查询类似 就是普通的查询 所以略过了 文章发布 这个其实挺复杂的 一共三张表 一个文章表 一个素材表 一个文章和素材的关联表 区分修改与新增就是看是否存在id 如果是保存草稿…

实现一个基于nio的discard server

写在前面 源码 。 为了能够进一步的熟悉下nio相关的api操作,本文来实现一个基于nio的discard server。 discard server的意思是,server接收到来自client的一个消息之后,直接就将连接关闭,即discard。 1:正戏 1.1&…

MySQL深度探索:掌握触发器自动化与精细用户权限管理,提升数据库效能与安全

作者简介:我是团团儿,是一名专注于云计算领域的专业创作者,感谢大家的关注 座右铭: 云端筑梦,数据为翼,探索无限可能,引领云计算新纪元 个人主页:团儿.-CSDN博客 目录 前言&#x…

gitlab集成CI/CD,shell方式部署

目录 1.首先安装好gitlab和gitlab-runner,这两个,看我以往的教程 2.注册新的 Runner 3. 步骤 3.1 Enter the GitLab instance URL (for example, https://gitlab.com/): 3.2 Enter the registration token: 3.3 Enter a description for the runner: 3…

【2024.09】关于 UMLS 在支持大型语言模型提出的诊断生成中的作用

生物医学信息学杂志 链接:https://www.sciencedirect.com/science/article/abs/pii/S1532046424001254?via%3Dihub On the role of the UMLS in supporting diagnosis generation proposed by Large Language Models Author links open overlay panelMajid Afsh…

线上搭子小程序:随时随地找搭子!

搭子作为当下流行的一种社交方式,受到了年轻人的讨论关注,不管做什么都可以找不同的“搭子”。追剧、考试、健身、减肥、旅游等都可以找到志趣相投的搭子,满足年轻人的社交需求。 在互联网的发展下,年轻人找搭子也逐渐倾向于线上…