深度学习中的不确定性量化:技术、应用和挑战综述（一）

不确定性量化(UQ)在减少优化和决策过程中的不确定性方面起着关键作用，应用于解决各种现实世界的科学和工程应用。贝叶斯近似和集成学习技术是文献中使用最广泛的两种UQ方法。在这方面，研究人员提出了不同的UQ方法，并测试了它们在各种应用中的性能，如计算机视觉(如自动驾驶汽车和物体检测)、图像处理(如图像恢复)、医学图像分析(如医学图像分类和分割)、自然语言处理(如文本分类、社交媒体文本和惯犯风险评分)、生物信息学等。本文综述了深度学习中使用的UQ方法的最新进展，探讨了这些方法在强化学习中的应用，并强调了与UQ领域相关的基础研究挑战和方向。

论文题目：
A Review of Uncertainty Quantiﬁcation in Deep Learning: Techniques, Applications and Challenges
作者：
Moloud Abdar*, Farhad Pourpanah, Member, IEEE,Sadiq Hussain, Dana Rezazadegan, Li Liu, Senior
Member, IEEE, Mohammad Ghavamzadeh, Paul Fieguth, Senior Member, IEEE, Xiaochun Cao, Senior
Member, IEEE, Abbas Khosravi, Senior Member, IEEE, URajendra Acharya, Senior Member, IEEE,
Vladimir Makarenkov and Saeid Nahavandi, Fellow, IEEE

我们处理许多领域的不确定性，从投资机会和医疗诊断到体育比赛和天气预报，目的是根据收集到的观察和不确定的领域知识做出决策。
任意性不确定性和认识性不确定性的主要区别示意图。
模型的预测具有不确定性，除了在不确定性情况下固有的归纳假设外，还容易受到噪声和错误的模型推断的影响。因此，在任何基于人工智能的系统中，以可信的方式表示不确定性是非常可取的。这种自动化系统应该能够通过有效地处理不确定性而准确地执行。不确定性原理在具体学习算法[3]、主动学习(AL)[4]、[5]等人工智能设置中发挥着重要作用。

不确定性的来源发生在测试和训练数据不匹配时，数据不确定性的发生是因为类重叠或由于数据中存在噪声[6]。与数据不确定性相比，知识不确定性的估计更为困难，数据不确定性是通过最大似然训练自然测量的结果。预测中的不确定性来源对于解决不确定性估计问题至关重要[7]。不确定性主要有两种来源，概念上称为任意不确定性和认知不确定性8。

数据中不可约的（Irreducible）不确定性导致预测中的不确定性是一种任意不确定性(也称为数据不确定性)。这种类型的不确定性不是模型的属性，而是数据分布的固有属性;因此它是不可约的。另一种不确定性是认知不确定性(也称为知识不确定性)，这种不确定性是由于知识和数据不足而产生的。人们可以定义模型来回答基于模型的预测中不同的人类问题。在数据丰富的问题中，存在大量数据的集合，但可能信息贫乏[10]。在这种情况下，基于人工智能的方法可以用来定义有效的模型，从数据中描述紧急特征。这些数据往往是不完整的、有噪声的、不一致的和多模态的[1]。

不确定性量化(UQ)是当今许多关键决策的基础。没有UQ的预测通常是不可信和不准确的。为了理解深度学习(Deep Learning, DL)[11]，[12]过程生命周期，我们需要理解UQ在DL中的作用。DL模型从收集最全面和潜在相关的数据集开始，这些数据集可用于决策过程。深度学习场景的设计是为了满足一些性能目标，以便在使用标记数据训练模型后选择最合适的深度学习架构。
在这里插入图片描述

图2给出了三种不同的不确定性模型[9](MC dropout、Boostrap模型和GMM)的比较图。此外，不确定性感知模型(BNN)与OoD分类器的两种图形表示如图3所示。

在涉及的步骤中，有几个不确定因素需要量化。这些步骤中明显的不确定性有:
(i)训练数据的选择和收集，
(ii)训练数据的完整性和准确性，
(iii)理解DL(或传统机器学习)模型的性能界限及其局限性，以及
(iv)不确定性对应于基于操作数据的模型的性能[13]。

数据驱动的方法，如与UQ相关的深度学习，至少带来了四组重叠的挑战:(i)缺乏理论，(ii)缺乏随机模型，(iii)对不完美数据的敏感性，以及(iv)计算费用。为了减轻这些挑战，有时采用模型变异性研究和敏感性分析等特别解决方案。不确定性估计和量化在深度学习和传统机器学习中得到了广泛的研究。在下面，我们简要总结了一些最近的研究，这些研究检验了处理不确定性的各种方法的有效性。

研究目标及研究大纲

在大数据、机器学习和深度学习的时代，对不同原始数据的智能使用具有巨大的潜力，可以使各个领域受益。然而，不同ML和DL方法中的UQ可以显著提高其结果的可靠性。Ning等[15]对不确定性下数据驱动优化范式的主要贡献进行了总结和分类。可以看出，本文只回顾了数据驱动的优化。在另一项研究中，Kabir等人[16]回顾了基于神经网络的UQ。作者着重于概率预测和预测区间(pi)，因为它们是UQ文献中最广泛使用的技术之一。

我们注意到，从2010年到2020年(6月底)，在各个领域(如计算机视觉、图像处理、医学图像分析、信号处理、自然语言处理等)发表了2500多篇关于AI中的UQ的论文。

与昆士兰大学领域以前的综述论文不同，本研究回顾了最近发表的使用不同方法量化人工智能(ML和DL)不确定性的文章。此外，我们渴望找到UQ如何影响真实案例，解决AI中的不确定性，从而帮助获得可靠的结果。同时，在现有的方法中发现重要的聊天记录是为未来的研究指明道路的一个很好的方法。在这方面，这篇综述文章为未来在ML和DL中研究UQ的研究人员提供了更多的投入。我们调查了最近在UQ领域应用于ML和DL方法的研究。因此，我们总结了目前关于ML和DL中UQ的研究较少。值得一提的是，本研究的主要目的不是比较不同的UQ方法的性能，因为这些方法是针对不同的数据和特定的任务而引入的。因此，我们认为比较所有方法的性能超出了本研究的范围。因此，本研究主要关注DL、ML和强化学习(RL)等重要领域。因此，本研究的主要贡献如下:

据我们所知，这是第一篇关于在ML和DL方法中使用的UQ方法的综合综述论文，值得该领域的研究人员使用。
对新提出的UQ方法进行了全面的综述。
此外，还列出了UQ方法重要应用的主要类别。
指出了UQ方法的主要研究空白。
最后，讨论了几个可靠的未来方向。

贝叶斯不确定性预测

预测不确定性包括两部分:认知不确定性(EU)和任意不确定性(aleatoric uncertainty)
(AU)，可以写成这两部分之和:
在这里插入图片描述
认知不确定性可以表示为模型参数上的概率分布。对于分类，可以使用softmax似然:

，可以假设高斯似然进行回归:

因此，需要最小化关于θ的Kullback-Leibler (KL)[20]散度。两个分布之间的相似程度可以用下面的方法来衡量:
在这里插入图片描述
预测分布可以通过最小化KL散度近似，如下所示:
where qθ∗(ω) indicates the optimized objective.

KL散度最小化也可以重新排列为证据下界(ELBO)最大化：
在这里插入图片描述

这个过程被称为变分推理(VI)。Dropout VI是最常用的方法之一，已被广泛用于在复杂模型中近似推断[22]。最小化目标如下[23]:
在这里插入图片描述
其中，N和P分别表示样本数量和dropout概率。

为了获得与数据相关的不确定性，可以将精度τ 表示为数据的函数。获得认知不确定性的一种方法是混合两个函数:预测平均值，即fθ(x)和模型精度，即gθ(x)，似然函数可以写成yi = N(fθ(x)，gθ(x))。在模型的权重上放置一个先验分布，然后计算给定数据样本的权重变化量。欧几里得距离损失函数(3)可改编为:
在这里插入图片描述
预测方差可由下式得到:

使用贝叶斯技术进行不确定性量化

1 贝叶斯深度学习/贝叶斯神经网络

尽管标准深度学习方法在解决各种现实问题方面取得了成功，但它们无法提供有关其预测可靠性的信息。为了缓解这一问题，可以使用贝叶斯深度学习(BDL)/贝叶斯神经网络(BNNs)[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]来解释模型参数。bnn /BDL对过拟合问题具有鲁棒性，可以在小数据集和大数据集上进行训练[32]。

蒙特卡洛(MC) dropout

如前所述，计算精确的后继推理是困难的，但它可以被近似。在这方面，蒙特卡罗(MC)[33]是一种有效的方法。尽管如此，当集成到深层体系结构中时，它是一种缓慢且计算代价昂贵的方法。为了解决这个问题，引入了MC (MC) dropout，它使用dropout[34]作为正则化项来计算预测不确定性[35]。Dropout是解决深度神经网络过拟合问题的一种有效方法。在训练过程中，dropout随机丢弃一些神经网络单元，以避免它们过多地共调。假设ANN有L层，其中Wl、bl和Kl分别表示第L层的权矩阵、偏置向量和维数。NN的输出和第i个输入xi (i =1，…)的目标类， N)分别用i和yi表示。使用L2正则化的目标函数可以写成:
在这里插入图片描述
Dropout对每个输入数据和每层(输出层除外)的每个网络单元进行二进制变量采样，对于第i层的概率为pi，如果其值为0，则对给定输入数据丢弃单元i。在向后传递中使用相同的值来更新参数。图4显示了在简单神经网络上的几种变分分布的可视化[36].

一些研究使用MC dropout[37]来估计UQ。Wang等人[38]从像素和结构两个层面分析了基于cnn的深度医学图像分割问题的认知和任意不确定性联系。他们在测试阶段对输入图像进行增强，以估计变换的不确定性。具体来说，使用MC采样来估计输出分割的分布。Liu等人[39]提出了一个统一的模型，使用SGD来近似存在普遍对抗性扰动的cnn的认知和任意不确定性。在神经元的输出端应用具有伯努利分布的MC dropout来估计认知不确定性。此外，他们还引入了纹理偏差来更好地近似任意不确定性。Nasir等[40]在3D CNN中使用MC dropout来估计四种不确定性，包括MC样本方差、预测熵和互信息(MI)，从而从MRI序列中分割病变。

在这里插入图片描述
在[41]中，实现了两种dropout方法，即基于元素的Bernoulli dropout[34]和空间Bernoulli dropout[42]，用于计算端到端自动驾驶车辆控制的bnn中的模型不确定性。McClure和Kriegeskorte[36]表示，与单位抽样相比，使用伯努利或高斯加权抽样可以更准确地描述不确定性。然而，根据文献[36]得出的结果，可以认为使用伯努利或高斯dropout都可以提高CNN的分类精度。基于这些发现，他们通过结合伯努利或高斯dropout提出了一种新的模型(称为spike- and-slab sampling)。

Do等[43]对基于cnn的深度模型U-Net[44]进行改进，分割心肌动脉自旋标记并估计不确定性。具体来说，在每个卷积层和分辨率尺度之后分别添加批处理归一化和dropout。后来，Teye等人[45]提出了MC批归一化(MCBN)，可用于通过批归一化来估计网络的不确定性。他们表明批归一化可以看作是一个近似的贝叶斯模型。Yu等人[46]提出了从3D MR图像中分割左心房的半监督模型。它由教师和学生两个模块组成，并将它们用于UA框架中，称为UA自集成平均教师(UA- mt)模型(见图5)。因此，学生模型通过最小化教师模型的标记样本和目标的分割和一致性损失来学习教师模型。此外，设计了基于MC dropout的UA框架，利用教师模型获得的不确定性信息，帮助学生模型学习更好的模型。表1列出了直接应用MC dropout近似不确定性的研究及其应用。

MC dropout与其他UQ方法的比较

他们发现，这两种模型都能很好地表达浅层bnn中的不确定性。然而，平均场高斯VI不能很好地近似后验来估计深度神经网络的不确定性。Ng等人[66]使用U-Net[44]作为基本分类器，比较了MC dropout和BBB。Siddhant等[67]对NLP的各种DAL模型进行了实证研究。在预测过程中，他们对cnn和rnn应用dropout来估计不确定性。Hubschneider等[9]将MC dropout与基于自举集成的方法和高斯混合方法进行了比较，以完成车辆控制任务。此外，Mukhoti[68]将MC dropout与几个模型一起用于估计回归问题中的不确定性。Kennamer等[69]对天文观测条件下的MC退出进行了实证研究。

马尔科夫链蒙特卡罗(MCMC)

马尔可夫链蒙特卡罗(MCMC)[70]是另一种用于近似推理的有效方法。它首先从分布q(z0)或q(z0|x)中随机抽取z0。然后，对z0进行随机转变，如下:

在这里插入图片描述
选择这个转换算子并重复T次，结果是一个随机变量，在分布上收敛到精确的后验。Salakhutdinov等[71]使用MCMC近似电影的预测分布评分值。尽管传统的MCMC取得了成功，但迭代次数是否足够还是个未知数。此外，MCMC需要较长的收敛时间到一个理想的分布。

为了克服这些缺点，已经进行了几项研究。例如,Salimans等人[72]将空间扩展为一组辅助随机变量，并将随机马尔可夫链解释为变分近似。

变分推理(VI)

在这里插入图片描述
各种VI方法的总结BDL是基于[89]复制的。请注意,权重分担(意思是在[89]提出的方法基础上，加入场假设+戏剧性缩减)。

变分推理(VI)是一种学习BNN权值后验分布的近似方法。基于vi的方法将贝叶斯推理问题作为一个优化问题来考虑SGD训练dnn。图7总结了BNN的各种VI方法[89]。

对于bnn，基于vi的方法旨在近似NN权重上的后验分布。为此，可以将损失定义为:

在这里插入图片描述
Posch等人[90]用高斯分布与对角协方差矩阵的乘积定义了变分分布。对于每个网络层，网络参数的后验不确定性表示。后来，在[91]中，他们用传统的对角协方差矩阵取代了对角协方差矩阵，以允许网络参数相互关联。受迁移学习和经验贝叶斯(EB)[92]的启发，mped[93]使用非确定性权重，该权重来源于具有相同架构的预训练dnn，以在权重空间上选择有意义的先验分布。后来，在[94]中，他们将一种基于参数EB的方法集成到贝叶斯深度神经网络中平均场VI的mped中，并使用完全因式高斯分布对权重进行建模。此外，他们使用了一个真实世界的案例研究，即糖尿病视网膜病变诊断，来评估他们的方法。Subedar等人[95]提出了一种基于多模态贝叶斯融合的不确定性感知框架用于活动识别。他们通过结合确定性层和变分层将BDNN扩展到更深的结构。Marino等人[96]提出了一种基于随机建模的模型不确定性方法。具体来说，使用DBNN来学习系统的随机学习。变分BNN[97]是一种基于生成的模型，用于预测超导转变温度。具体来说，VI被用来计算模型在潜在空间中的分布。

Louizos和Welling[98]采用随机梯度VI[99]计算神经网络权值的后验分布。Hubin和Storvik[100]提出了随机VI方法，该方法同时考虑了bnn中模型和参数的不确定性，并引入了一个潜在的二元变量来包含/排除模型的某些权重。Liu等[101]将VI集成到一个时间-时间神经网络中，以近似网络的后验参数分布并估计预测的概率。Ryu等人[102]将图卷积网络(GCN)集成到贝叶斯框架中，以学习表征并预测分子性质。Swiatkowski等[89]对高斯平均场VI进行了实证研究，他们将变分参数分解为低秩分解，使其近似更紧凑，并提高了SG在估计变分下界时的信噪比。Franquhar等人[103]使用均值场VI更好地训练深度模型。他们认为，更深的线性平均场网络可以提供类似于浅全协方差网络的函数空间分布。所提出的方法的示意图如图8所示。