Dropout作为贝叶斯近似: 表示深度学习中的模型不确定性

news2024/10/6 12:21:59

摘要

深度学习工具在应用机器学习领域受到了极大的关注。然而,这些用于回归和分类的工具并没有捕捉到模型的不确定性。相比之下,贝叶斯模型提供了一个基于数学的框架来推理模型的不确定性,但通常会带来令人望而却步的计算成本。本文提出了一种新的理论框架,将深度神经网络中的dropout训练作为深度高斯过程中的近似贝叶斯推理。该理论的一个直接结果是为我们提供了用dropout神经网络来模拟不确定性的工具——从现有的模型中提取信息,这些信息到目前为止已经被抛弃了。这在不牺牲计算复杂性或测试准确性的情况下减轻了深度学习中表示不确定性的问题。我们对dropout不确定性的性质进行了广泛的研究。以MNIST为例,对回归和分类任务的各种网络结构和非线性进行了评估。与现有的最先进的方法相比,我们在预测对数似然和RMSE方面取得了相当大的进步,并通过消除深度强化学习中dropout的不确定性来完成。

论文:
Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning
作者:Yarin Gal Yarin Gal
单位:University of Cambridge

摘要

用于回归和分类的标准深度学习工具不能捕捉模型的不确定性。在分类中,在网络末端获得的预测概率(softmax输出)经常被错误地解释为模型置信度。即使具有很高的softmax输出,模型的预测也可能是不确定的。1).通过softmax(实线1b)传递函数的点估计(实线1a)会导致对远离训练数据的点进行不合理的高置信度外推。例如,X 将被分类为概率为1的第1类。然而,通过softmax(阴影区域1b)传递分布(阴影区域1a)可以更好地反映远离训练数据的分类不确定性。

模型不确定性对于深度学习从业者来说也是必不可少的。有了模型置信度,我们可以明确地处理不确定输入和特殊情况。例如,在分类的情况下,模型可能返回一个具有高度不确定性的结果。在这种情况下,我们可能决定将输入传递给人工进行分类。这可能发生在邮局,根据邮政编码分拣信件,或在核电厂的系统负责关键基础设施(琳达等人,2009)。不确定性在强化学习(RL)中也很重要(Szepesvari´,2010)。有了不确定性信息,智能体可以决定何时开发和何时探索其环境。RL的最新进展是利用神经网络进行q值函数逼近。这些函数用来估计代理可以采取的不同行动的质量。贪心搜索通常用于智能体以一定概率选择其最佳行为,并以其他方式进行探索。通过对智能体q值函数的不确定性估计,可以使用诸如汤普森抽样(Thompson - son, 1933)之类的技术来更快地学习。

贝叶斯概率论为我们提供了基于数学的工具来推断模型的不确定性,但这些通常伴随着令人望而却步的计算成本。我们表明,在神经网络中使用dropout(及其变体)可以被解释为一个众所周知的概率模型的贝叶斯近似:高斯过程(GP) (Rasmussen & Williams, 2006)。深度学习中的许多模型都使用Dropout来避免过拟合(Srivastava et al., 2014),我们的解释表明Dropout近似地集成了模型的权重。我们开发了工具来表示现有的dropout神经网络的模型不确定性-提取迄今为止被丢弃的信息。这在不牺牲计算复杂性和测试精度的情况下,减轻了深度学习中表示模型不确定性的问题。

在本文中,我们给出了一个完整的理论处理高斯过程和dropout之间的联系,并开发了必要的工具来表示深度学习中的不确定性。我们对dropout神经网络和convnets在回归和分类任务上获得的不确定性的性质进行了广泛的探索性评估。我们比较了不同模型结构和非线性回归中得到的不确定性,并以MNIST为具体例子说明了模型不确定性对于分类任务是必不可少的。然后,与现有的最先进的方法相比,我们展示了预测对数似然和RMSE的相当大的改进。最后,我们在一个类似于深度强化学习的实际任务中,对强化学习环境下的模型不确定性进行了定量评估。

作为贝叶斯近似的Dropout

我们表明,具有任意深度和非线性的神经网络,在每个权重层之前应用dropout,在数学上相当于概率深度高斯过程的近似值(Damianou & Lawrence, 2013)(在其协方差函数参数上被边缘化)。我们要强调的是,在文献中没有对dropout的使用进行简化假设,并且推导出的结果适用于任何使用dropout的网络架构,正如它在实际应用中出现的那样。此外,我们的研究结果也适用于其他类型的dropout。我们表明,dropout目标实际上最小化了近似分布和深度高斯过程的后验之间的Kullback-Leibler散度(在其有限秩协方差函数参数上被边缘化)。由于篇幅限制,我们请读者参阅附录,以深入回顾dropout、高斯过程和变分推理(第2节),以及dropout及其变化的主要推导(第3节)。这里总结了结果,下一节我们将获得dropout神经网络的不确定性估计。

让y为具有L层和损失函数E(·,·)的NN模型的输出,如softmax损失或欧几里得损失(平方损失)。我们用W_i表示神经网络的权重矩阵Ki × Ki-1,通过bi得到每一层i =1的Ki维偏置向量,…, l .对于1≤i≤N个数据点,我们用yi表示观察到的输出对应于输入xi,输入和输出集为X, y .在NN优化过程中经常添加正则化项。我们经常使用由一些权重衰减λ加权的L2正则化,从而产生最小化目标(通常称为成本),
在这里插入图片描述
对于dropout,我们对每个输入点和每层(除了最后一层)的每个网络单元的二进制变量进行采样。对于第1层,每个二进制变量的取值为1,概率为pi。对于给定的输入,如果对应的二进制变量的取值为0,则丢弃一个单位(即其值设置为0)。我们在反向传递中使用相同的值将导数传播到参数。

与非概率神经网络相比,深度高斯过程是统计学中一个强大的工具,它允许我们对函数上的分布进行建模。假设我们有这样的协方差函数

在这里插入图片描述
具有一些单元非线性σ(·)和分布p(w),p(b)。

在附录的第3节和第4节中,**我们展示了具有L层和协方差函数K(x, y)的深度高斯过程可以通过在gp协方差函数的谱分解的每个分量上放置变分分布来近似。**这种光谱分解将深度GP的每一层映射到显式表示的隐藏单元层,下面将简要解释。

让每一行Wi按照上面的p(w)分布。假设每个GP层的维数为Ki的向量mi。当精度参数τ> 0时,深度GP模型(有限秩协方差函数参数ω)的预测概率可参数化为
在这里插入图片描述

方程(2)中的后验分布p(ω|X, Y)是不可处理的。我们使用q(ω),一个列随机设为零的矩阵上的分布,来近似可处理后验。我们定义q(ω)为:

在这里插入图片描述
给出一些概率pi和矩阵Mi作为变分参数。二进制变量z_i,j =0对应于第i层的单位j 变分分布q(ω)是高度多模态的,在矩阵Wi的行(对应于稀疏频谱GP近似中的频率)上引起强联合相关性。

我们最小化上面的近似后验q(ω)和全深度GP的后验p(ω|X, Y)之间的KL散度。这个KL是我们的最小化目标

在这里插入图片描述
用蒙特卡罗单样本积分法近似求和中的每一项N ~ q(ω)得到一个无偏估计。
给定模型精度τ,我们将结果按常数1/τ N缩放以获得目标
在这里插入图片描述
对于精度超参数τ和长度尺度L的适当设置,我们恢复了eq.(1)。n的结果实现了伯努利分布 z i , j n z^n_{i,j} zi,jn等价于dropout情况下的二进制变量。

获取模型不确定性

在此基础上,我们得到了模型不确定性可以从dropout神经网络模型中得到的结果。根据附录2.3节,我们的近似预测分布由式给出
在这里插入图片描述
我们将进行矩匹配,并根据经验估计预测分布的前两个矩。更具体地说,我们从伯努利分布中抽取了T组实现向量在这里插入图片描述
我们估计
在这里插入图片描述
在附录中的C项之后。我们把这个蒙特卡罗估计称为MC dropout。在实践中,这相当于在网络中执行T次随机正向传递并平均结果。

这一结果已在以前的文献中作为模型平均提出。对于这个结果,我们给出了一个新的推导,它也允许我们推导出基于数学的不确定性估计。Srivastava等人(2014,第7.5节)通过经验推导得出,MC dropout可以通过平均网络的权重来近似(在测试时将每个Wi乘以pi,称为标准dropout)。

我们用同样的方法来估计第二个原始矩:
在这里插入图片描述
为了得到模型的预测方差,我们有:
在这里插入图片描述
在这里插入图片描述
它等于T的样本方差随机正向通过神经网络加上逆模型精度。
注意y *是一个行向量,因此和是外积的和。给定权重衰减λ(和我们的先验长度尺度l),我们可以从恒等式中找到模型精度在这里插入图片描述
我们可以通过eq.(2)的蒙特卡罗积分来估计我们的预测对数似然。这是对模型拟合平均值和不确定性的程度的估计(参见附录中的4.4节)。对于回归,这是由:
在这里插入图片描述
我们的预测分布q(y∗|x∗)预计是高度多模态的,上面的近似只是对其性质的一瞥。这是因为每个权重矩阵列上的近似变分分布是双峰的,因此每层权重的联合分布是多峰的附录3.2)。

注意dropout NN模型本身没有改变。为了估计预测均值和预测不确定性,我们简单地收集随机正演通过模型的结果。因此,该信息可以用于使用dropout训练的现有NN模型。此外,前向传递可以同时进行,从而使其恒定的运行时间与标准dropout相同。

实验

接下来,我们对dropout神经网络和convnets在回归和分类任务上获得的不确定性估计的性质进行了广泛的评估。我们比较了从不同模型架构和非线性中获得的不确定性,都是在额外的任务上,并以MNIST (LeCun & Cortes, 1998)为例表明模型不确定性对分类任务很重要。然后,我们表明,与现有的最先进的方法相比,使用dropout的不确定性,我们可以在预测对数似然和RMSE方面获得相当大的改进。

在这里插入图片描述
莫纳罗亚火山不同模式二氧化碳浓度数据集的预测平均值和不确定性。红色是观察到的函数(蓝色虚线的左边);蓝色是预测平均值±两个标准差(图8)。2 d)。不同深浅的蓝色代表半个标准差。用红色虚线标记的是远离数据的点:标准dropout自信地预测了该点的一个不合理的值;其他模型也预测了不敏感的值,但附加了模型对其预测不确定的信息。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1648005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2实现右键菜单功能——vue-diy-rightmenu——基础积累

五一之前遇到一个需求,就是关于要实现自定义右键菜单的功能,普通的右键展示的菜单有【返回/前进/重新加载/另存为】等,希望实现的效果就是右键出现自定义的菜单,比如【编辑/删除/新增】等。 遇到这种的需求,可以直接去…

Leetcode—1991. 找到数组的中间位置【简单】

2024每日刷题&#xff08;129&#xff09; Leetcode—1991. 找到数组的中间位置 实现代码 class Solution { public:int findMiddleIndex(vector<int>& nums) {int sum accumulate(nums.begin(), nums.end(), 0);int prefix 0;for(int i 0; i < nums.size();…

信息安全-隐写术到可逆信息隐藏

进入二十一世纪以来&#xff0c;通信技术飞速发展&#xff0c;使得多媒体被广泛用于传输数据&#xff0c;尤其是物联网上。通常&#xff0c;我们的多媒体传输发生在不安全的网络通道上。特别是&#xff0c;互联网在交换数字媒体和个人、私人公司、机构、政府使用这些多媒体数据…

商超物联网~配置学生健康与安全

配置学生健康与安全示实验 作者&#xff1a;知孤云出岫 作者主页&#xff1a;点击这里 组网图形 图1 配置学生健康与安全示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件 业务需求 某学校由于重视学生的健康与安全&#xff0c;希望能够通过技术手段…

春秋云镜 CVE-2022-4230

靶标介绍&#xff1a; WP Statistics WordPress 插件13.2.9之前的版本不会转义参数&#xff0c;这可能允许经过身份验证的用户执行 SQL 注入攻击。默认情况下&#xff0c;具有管理选项功能 (admin) 的用户可以使用受影响的功能&#xff0c;但是该插件有一个设置允许低权限用户…

thinkadmin table列表页点击直接修改用户金额(其他内容都可以)

需要修改用户余额时 点击余额区域 可以手动输入金额 输入后调用api接口自动刷新 html代码 // 初始化表格组件$(#NewsTable).layTable({even: true, height: full,sort: {field: id, type: desc},where: {type: {$type|default="index"}},cols: [[{checkbox: true,…

计算机网络【应用层】邮件和DNS

文章目录 电子邮件DNSDNS提供的服务&#xff1a;域名分级域名解析流程DNS资源记录DNS服务器类型 电子邮件 使用SMTP协议发送邮件之前&#xff0c;需要将二进制多媒体数据编码为ASCII码SMTP一般不使用中间邮件服务器发送邮件&#xff0c;如果收件服务器没开机&#xff0c;那么会…

ICode国际青少年编程竞赛- Python-1级训练场-综合训练1

ICode国际青少年编程竞赛- Python-1级训练场-综合训练1 1、 Spaceship.turnLeft() for i in range(2):Spaceship.turnLeft()Spaceship.step(3) Dev.step(-1) Spaceship.step(4) Spaceship.turnLeft() Spaceship.step(3)2、 Spaceship.step() Spaceship.turnLeft() Spaceship.…

V23 中的新功能:LEADTOOLS 展示了它的 EXCEL-lence

LEADTOOLS (Lead Technology)由Moe Daher and Rich Little创建于1990年&#xff0c;其总部设在北卡罗来纳州夏洛特。LEAD的建立是为了使Daher先生在数码图象与压缩技术领域的发明面向市场。在过去超过30年的发展历程中&#xff0c;LEAD以其在全世界主要国家中占有的市场领导地位…

CH32V 系列 MCU IAP 使用函数形式通过传参形式灵活指定APP跳转地址

参考: CH32V 系列 MCU IAP 升级跳转方法 CH32V103 的 IAP 问题&#xff08;跳转及中断向量表重定位&#xff09; 1. 沁恒的RISC-V内核MCU的IAP跳转示例程序简要分析 沁恒的RISC-V内核的MCU比如CH32V203、CH32V307等系列的EVT包中IAP升级的示例程序中都是通过使能软件中断之后&…

ABB RobotStudio学习记录(一)新建工作站

RobotStudio新建工作站 最近遇到 虚拟示教器和 Rapid 代码不能控制 视图中机械臂的问题。以下是解决方法。 名称版本Robot Studio6.08 新建一个”空工作站“&#xff1b; 在目标位置新建一个目标文件夹 C:\solution\test&#xff0c;用以后续存放该工作站&#xff08;通常路径…

CAXA 3D实体设计2024:塑造未来的创新引擎

在数字化时代的浪潮中&#xff0c;3D CAD实体建模设计正成为推动工业创新的核心动力。CAXA 3D实体设计2024&#xff0c;以其卓越的性能和丰富的功能&#xff0c;为企业和个人用户带来了前所未有的设计体验。 CAXA 3D实体设计2024不仅拥有直观易用的界面&#xff0c;还配备了强…

java-函数式编程-jdk

背景 函数式接口很简单&#xff0c;但是不是每一个函数式接口都需要我们自己来写jdk 根据 有无参数&#xff0c;有无返回值&#xff0c;参数的个数和类型&#xff0c;返回值的类型 提前定义了一些通用的函数式接口 IntPredicate 参数&#xff1a;有一个&#xff0c;类型是int类…

数据合规官认证证书CCRC-DCO使用设计和默认数据保护处理个人数据

快来了解隐私保护工程实践&#xff01;合法原则是关键&#xff0c;一起守护数据安全&#xff01; 隐私保护工程实践需要遵循合法原则&#xff0c;控制者必须确保处理个人数据有明确的法律依据。在设计和默认数据保护中&#xff0c;相关性、差异化、特定目的、必要性和自主权是合…

中学数学重大错误:射线A沿其正向平移非0距离就变为其真子集了

黄小宁 射线A沿其射出的方向平移非0距离变为B≌A&#xff0c;中学数学一直认定B是A的一部分&#xff0c;其实这是将两异射线&#xff08;函数&#xff09;误为同一射线&#xff08;函数&#xff09;的肉眼直观错觉。设“点集A&#xff5b;点p&#xff5d;”表示A的元素是点p&a…

如何在速卖通(aliexpress)买东西?速卖通(aliexpress)买东西怎么付款?

如何在速卖通购物&#xff1a; 1、注册账户&#xff1a;首先访问速卖通官网或下载速卖通手机应用程序&#xff0c;并注册一个账户。如果您已经有一个账户&#xff0c;直接登录即可。 2、搜索商品&#xff1a;在搜索框中输入您想要购买的商品关键词&#xff0c;然后点击搜索。…

C语言趣味代码(五)

我想以此篇结束关于C语言的博客&#xff0c;因为在C语言拖得越久越不能给大家带来新的创作&#xff0c;在此我也相信大家对C语言已经有了一个新的认知。进入正题&#xff0c;在这一篇中我主要编一个“英语单词练习小程序”来给大家展开介绍&#xff0c;从测试版逐步改良&#x…

HTTP 多个版本

了解一下各个版本的HTTP。 上个世纪90年代初期&#xff0c;蒂姆伯纳斯-李&#xff08;Tim Berners-Lee&#xff09;及其 CERN的团队共同努力&#xff0c;制定了互联网的基础&#xff0c;定义了互联网的四个构建模块&#xff1a; 超文本文档格式&#xff08;HTML&#xff09; …

关于MS-DOS时代的回忆

目录 一、MS-DOS是什么&#xff1f; 二、MS-DOS的主要功能有哪些&#xff1f; 三、MS-DOS的怎么运行的&#xff1f; 四、微软开源MS-DOS源代码 五、高手与漂亮女同学 一、MS-DOS是什么&#xff1f; MS-DOS&#xff08;Microsoft Disk Operating System&#xff09;是微软公…

成功案例(IF=7.3)| 转录组+蛋白质组+代谢组联合分析分析揭示胰腺癌中TAM2相关的糖酵解和丙酮酸代谢重构

研究背景 肿瘤的进展和发展需要癌细胞的代谢重编程&#xff0c;癌细胞能量代谢模式的改变可以满足快速增殖和适应肿瘤微环境的需要。肿瘤微环境&#xff08;TME&#xff09;中的代谢状态受到多种因素的影响&#xff0c;包括血管生成、与其他细胞的相互作用和系统代谢。代谢异质…