SMALE周报_20230707

news2025/1/23 4:07:59

目录标题

  • 1. 上周回顾
  • 2. 本周计划
  • 3. 完成情况
    • 3.1. 背景
    • 3.2. 不确定性类别
    • 3.3. 具体方法
      • 3.3.1. Aleatoric Uncertainty
      • 3.3.1. Epistemic Uncertainty
  • 4. 存在的主要问题
  • 5. 下一步工作

1. 上周回顾

这周开始写周报,此项为空。

2. 本周计划

总结不确定性在神经网络中的运用。

3. 完成情况

3.1. 背景

神经网络本质上就是一个函数(更一般的应该表述为映射),而神经网络的训练过程就是拟合一个拥有大量参数的函数。
f θ : X → Y f_{\theta}: \mathbf{X} \rightarrow \mathbf{Y} fθ:XY
对于任意的样本 x i ∈ X x_i \in \mathbf{X} xiX,总能得到一个确切的输出 f θ ( x i ) f_{\theta}(x_i) fθ(xi)。其中,这会导致两种意外情况:

  • 对于错误的预测类,模型预测的置信度很高。例如,在二分类问题中,(猫和狗),对于一个猫样本的预测为(0.1, 0.9),可以理解为有0.9的概率是狗,而且 0.9 ≫ 0.1 0.9 \gg 0.1 0.90.1。这是我们不愿看到的。
  • 对于从未见过的样本预测(在训练集中没有出现的样本,也叫OoD,Out-of-ditribution)。这种情况在现实中会很容易出现,因为在训练阶段很难包含所有的类别。这里,用刚才的二分类问题来举一个栗子,用训练好的猫狗分类器来预测一个鸭子,模型一定只会输出猫或者狗,但是都是错误的预测。

综上,我们希望模型能输出 uncertainty,辅助使用模型的人进行更好地决策。比如上面的例子中,我们希望对错误分类的样本、OoD样本,模型能够给出一个较高的uncertainty。这里注意的是,这里描述的不确定性属于模型预测不确定性,也叫认知不确定性(epistemic uncertainty),这一点在后面会讲到。

3.2. 不确定性类别

不确定性大致的可以分为三类。

  • approximation uncertainty
    近似误差。它描述的是简单模型无法拟合复杂数据的所产生的误差(例如,线性模型拟合正弦曲线所产生的误差)。

  • aleatoric uncertainty
    偶然不确定性。我理解的是标记数据中本身存在的误差,本质上是由于测量引入的误差。比如用直尺测量桌子,由于测量精度,每次测量的值不会总是一致,解决方法就是多次测量取平均,最终的测量结果表述为 125 cm ± 12 125 \text{cm}\pm 12 125cm±12。其中,12就可以理解为偶然不确定性。

  • epistemic uncertainty
    认知不确定性。模型对于测试数据预测的不确定性,体现的是泛化误差。

3.3. 具体方法

approximation uncertainty是描述模型太简单没法表述复杂数据导致的不确定性,这一点在当前大模型当道的如今,这个不确定性相关工作很少。因此,本次仅对后面的两个不确定性进行总结。

3.3.1. Aleatoric Uncertainty

偶然不确定性,体现在数据本身,与模型无关。

这里就要引出Homoscedasticity(同方差) 和Heteroscedasticity(异方差)。
在这里插入图片描述
在这里插入图片描述
在线性回归中,我们简单的使用最小化MSE损失或者最大似然来拟合直线,其实这里就是简单的将数据看作是同方差的。在非贝叶斯神经网络中,该方差通常作为模型的权重衰减的一部分被固定,并且被忽略。但是实际上,现实生活中的数据通常是异方差的。

这里通过推导最大化似然就可以引出异方差损失。
max ⁡ θ log ⁡ p ( y ∣ x , θ ) = max ⁡ θ ∑ i = 1 N log ⁡ p ( y i ∣ y ^ i ( x i , θ ) , σ i 2 ( x i , θ ) ) = max ⁡ θ ∑ i = 1 N log ⁡ N ( y ^ i , σ i 2 ) = max ⁡ θ ∑ i = 1 N log ⁡ 1 2 π σ i 2 exp ⁡ ( − ∥ y i − y ^ i ∥ 2 2 σ i 2 ) = max ⁡ θ ∑ i = 1 N { − ∥ y i − y ^ i ∥ 2 2 σ i 2 − log ⁡ σ i 2 2 − log ⁡ 2 π 2 } \begin{aligned} & \max _\theta \log p(y \mid x, \theta) \\ & =\max _\theta \sum_{i=1}^N \log p\left(y_i \mid \hat{y}_i\left(x_i, \theta\right), \sigma_i^2\left(x_i, \theta\right)\right) \\ & =\max _\theta \sum_{i=1}^N \log \mathcal{N}\left(\hat{y}_i, \sigma_i^2\right) \\ & =\max _\theta \sum_{i=1}^N \log \frac{1}{\sqrt{2 \pi \sigma_i^2}} \exp \left(-\frac{\left\|y_i-\hat{y}_i\right\|^2}{2 \sigma_i^2}\right) \\ & =\max _\theta \sum_{i=1}^N\left\{-\frac{\left\|y_i-\hat{y}_i\right\|^2}{2 \sigma_i^2}-\frac{\log \sigma_i^2}{2}-\frac{\log 2 \pi}{2}\right\} \end{aligned} θmaxlogp(yx,θ)=θmaxi=1Nlogp(yiy^i(xi,θ),σi2(xi,θ))=θmaxi=1NlogN(y^i,σi2)=θmaxi=1Nlog2πσi2 1exp(2σi2yiy^i2)=θmaxi=1N{2σi2yiy^i22logσi22log2π}

异方差损失函数:
ℓ NN ( θ ) = 1 N ∑ i = 1 N 1 2 σ ( x i ) 2 ∥ y i − f ( x i ) ∥ 2 + 1 2 log ⁡ σ ( x i ) 2 \ell_{\text{NN}}(\theta) = \frac{1}{N}\sum_{i=1}^{N}\frac{1}{2\sigma(\mathbf{x}_i)^2}\|y_i-f(\mathbf{x}_i)\|^2+\frac{1}{2}\log\sigma(\mathbf{x}_i)^2 NN(θ)=N1i=1N2σ(xi)21yif(xi)2+21logσ(xi)2

Note:

  1. 看到这里,应该和我有同样的疑问,现实数据不可能存在这个方差的,这些方差的数据没法获得,怎么才能作为标签。
    Answer: 我尝试回答一次。首次,数据中的标签数据是不会给的,换句话来说,就是没法直接作为标签。那么怎么办呢?所以,实际上只会有 y i y_i yi作为标签,一个损失拟合两个方法 f ( ⋅ ) f(\cdot) f() σ ( ⋅ ) \sigma(\cdot) σ()

当然,偶然不确定性还可以通过分位数损失来获得。这里就不再赘述,可以参看我的博客。

3.3.1. Epistemic Uncertainty

模型不确定性,直观的理解就是模型对于数据的不确定性。举个栗子,如果模型不知道是猫还是狗,那么模型不确定性就很大;相反,如果模型十分确定是猫,那么模型不确定性就很小。

对于模型不确定性的建模,主要是由Bayesian neural network(贝叶斯神经网络)来完成1。这里不展开解释,可以从点估计和区间估计来理解。原本的神经网络通过最大似然或者最小MSE损失来拟合函数,网络参数是常数,对应函数的预测值也是一个常数,相当于是点估计。而如果我们想预测一个置信区间,我们就需要贝叶斯神经网络,它的参数不是常数而是分布,其预测的也是一个分布,通过置信度计算,就可以变成一个置信度区间,相当于区间估计。

4. 存在的主要问题

  • 对于Bayesian neural network的实际实现不太理解,其中涉及到变分推断的内容。

5. 下一步工作

深入理解BNN。


  1. Alex Kendall and Yarin Gal. 2017. What uncertainties do we need in Bayesian deep learning for computer vision? In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17). Curran Associates Inc., Red Hook, NY, USA, 5580–5590. ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/727894.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

96、基于STM32单片机的温湿度DHT11 烟雾火灾报警器蓝牙物联网APP远程控制设计(程序+原理图+任务书+参考论文+开题报告+流程图+元器件清单等)

单片机及温湿度、烟雾传感器是烟雾报警器系统的两大核心。单片机好比一个桥梁,联系着传感器和报警电路设备。近几年来,单片机已逐步深入应用到工农业生产各部门及人们生活的各个方面。各种类型的单片机也根据社会的需求而开发出来。单片机是器件级计算机…

试题小结2

1.内部类和子类的区别 内部类是指在一个外部类的内部再定义一个类,内部类对外部类有访问权限,可以访问类中定义的所有变量和方法。 子类是从父类中继承的类,子类可以访问父类所有public和protected的属性和方法。 Java语言有四个权限访问修…

Android11 Settings菜单加载

一、加载默认亮度 1、top_level_settings.xml 2、AndroidManifest.xml 3、DisplaySettings ①getPreferenceScreenResId ②buildPreferenceControllers 4、display_settings.xml 5、AutoBrightnessPreferenceController 6、BrightnessLevelPreferenceController ①getCurren…

全网最细,Pytest自动化测试-重复执行用例 pytest-repeat(实战)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 平常在做功能测试…

应对Python爬虫IP被封的策略及建议。

我们在进行数据抓取使用代理ip的时候需要有一些约束规定,才能保证我们持续稳定的抓取数据。 大概整理了一下,需要注意以下几点,仅供参考: 1、使用高质量的代理服务器:选择一些可靠的代理服务器,确保它们的…

从歌手李玟的自杀传闻,看骑行健身对心理健康的深远影响

从歌手李玟的自杀传闻,看骑行健身对心理健康的深远影响 最近,歌手李玟的自杀传闻让大众一片哗然。这个消息无疑成为了各大平台的热点话题。然而,作为骑友,我们今天再次谈谈骑行健身的重要性。 首先,我们要明确一点&…

性能测试如何做?性能测试实战从0-1进阶(内涵面试题+答案)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 性能测试实战 - 部…

checkout

git-checkout - Switch branches or restore working tree files# 用index或者指定commit中的版本,来更新工作区中的文件 # 切换分支 Updates files in the working tree to match the version in the index or the specified tree. If no pathspec was given,git checkout wil…

SonarQube扫描常见Bug、漏洞修复整理(持续更新中)

目录 DMS1、A "NullPointerException" could be thrown; "sra" is nullable here.2、Cast one of the operands of this multiplication operation to a "long"3、Call "remove()" on "requestContainer".4、Use try-with-r…

echarts条形图 动态 设置标签背景和柱状图渐变颜色

<!--Description: 横向渐变柱状图 --> <template><div ref"horizontal" class"w-full h-full"></div> </template><script> import * as echarts from echarts export default {components: {},props: [data],data() …

c++11 标准模板(STL)(std::basic_ostream)(八)

定义于头文件 <ostream> template< class CharT, class Traits std::char_traits<CharT> > class basic_ostream : virtual public std::basic_ios<CharT, Traits> 类模板 basic_ostream 提供字符流上的高层输出操作。受支持操作包含有格式…

kubernetes 节点排水维护 cordon, drain, uncordon

1.这三个命令是正式release的1.2新加入的命令&#xff0c;三个命令一起介绍&#xff0c;是因为三个命令配合使用可以实现节点的维护。在1.2之前&#xff0c;因为没有相应的命令支持&#xff0c;如果要维护一个节点&#xff0c;只能stop该节点上的kubelet将该节点退出集群&#…

Java-API简析_java.net.InetAddress类(基于 Latest JDK)(浅析源码)

【版权声明】未经博主同意&#xff0c;谢绝转载&#xff01;&#xff08;请尊重原创&#xff0c;博主保留追究权&#xff09; https://blog.csdn.net/m0_69908381/article/details/131590559 出自【进步*于辰的博客】 因为我发现目前&#xff0c;我对Java-API的学习意识比较薄弱…

git因网络问题报错

Failed to connect to github.com port 443 after 21051 ms: Couldnt connect to server Recv failure: Connection was reset 你是否最近也有遇到这种情况呢&#xff1f; 公司项目目前保存在github上, 在 git pull 和 git push 的时候总是遇到以上情况 也是困扰了我不少…

ESP32-C2 固件烧录需满足的硬件环境整理

ESP32-C2 默认通过 UART0 &#xff08;即 TXD&#xff08;GPIO20&#xff09;和 RXD&#xff08;GPIO19&#xff09;&#xff09;下载固件。 Windows 下可使用 Flash download tool 工具来下载编译后的 bin 文件&#xff1b; 运行 flash_download_tool.exe 的文件 选择开发…

2023 最新互联网大厂Java面经分享:25 分类、1000 道 Java 面试真题(50w 字解析)

作为 Java 程序员&#xff0c;选择学习什么样的技术&#xff1f;什么技术该不该学&#xff1f;去招聘网站上搜一搜、看看岗位要求就十分清楚了&#xff0c;自己具备的技术和能力&#xff0c;直接影响到你工作选择范围和能不能面试成功。 如果想进大厂&#xff0c;那就需要在 Ja…

数据库-分布式数据库历史变迁之旅

我们正式开始分布式数据库历史变迁之旅。 单机数据库的不可能三角 正如经济政策的不可能三角“不可能同时实现资本流动自由&#xff0c;货币政策的独立性和汇率的稳定”那样&#xff0c;单机数据库也有一个不可能三角&#xff0c;那就是&#xff1a;①持久化 ②事务隔离 ③高性…

17款奔驰S400加装原厂无钥匙进入系统,提升您的便利性

奔驰无钥匙进入功能&#xff0c;只要身上装着车钥匙进入车内&#xff0c;车辆就能感应到钥匙的存在&#xff0c;这时只需按下启动键就可启动车辆了 奔驰无钥匙进入功能主要有两大使用体验&#xff0c;首先就是要注意主驾驶位车门的有效检测距离不小于1.5m&#xff0c;其他门钥匙…

BOM/PCB/Gerber比对功能再升级,华秋DFM新版邀您体验!

在电子产品开发过程中&#xff0c;方案选型、原理图设计、BOM制作、PCB设计再到PCB、PCBA的生产都会经历多次版本迭代。在硬件开发过程中BOM文件的迭代、PCB设计的版本迭代是最为常见的&#xff0c;所以对应的版本管控至关重要&#xff0c;只有清晰地了解不同版本的差异&#x…

武汉理工大学第四届ACM校赛

武汉理工大学第四届ACM校赛传送门 A-ST和TS回文问题 这种题都是有一定简单的规律的 如果每个字符都相等的话,肯定存在 如果字符串T的长度是字符串S的整数倍的话,如果字符串S是回文串或者T的长度是S的长度的奇数倍的话,那么存在 否则不存在 就自己构造字符串来找规律&…