softmax之温度系数

news2024/11/26 15:47:16

1.数学表示

这是传统的softmax:

q i = e x p ( z i ) ∑ j e x p ( z j ) q_i = \frac{exp(z_i)}{\sum_jexp(z_j)} qi=jexp(zj)exp(zi)
或者写:
q i = e x p ( z i ) / 1.0 ∑ j e x p ( z j / 1.0 ) q_i = \frac{exp(z_i)/1.0}{\sum_jexp(z_j/1.0)} qi=jexp(zj/1.0)exp(zi)/1.0

这是考虑温度系数的softmax:
q i = e x p ( z i ) / T ∑ j e x p ( z j / T ) q_i = \frac{exp(z_i)/T}{\sum_jexp(z_j/T)} qi=jexp(zj/T)exp(zi)/T
其中 T 是 softmax 函数的温度超参数。

2.对温度系数理解

我们知道模型在训练收敛后,往往通过 softmax 的输出不会是完全符合 one-hot 向量那种极端分布的,而是在各个类别上均有概率,推断时通过 argmax 取得概率最大的类别。Hinton 的文章就指出,教师模型中在这些负类别(非正确类别)上输出的概率分布包含了一定的隐藏信息。

比如 MNIST 手写数字识别,标签为 7 的样本在输出时,类别 7 的概率虽然最大,但和类别 1 的概率更加接近,这就说明 1 和 7 很像,这是模型已经学到的隐藏的知识。
我们在使用 softmax 的时候往往会将一个差别不大的输出变成很极端的分布,用一个三分类模型的输出举例:
在这里插入图片描述

可以看到原本的分布很接近均匀分布,但经过 softmax,不同类别的概率相差很大。这就导致类别间的隐藏的相关性信息不再那么明显,有谁知道 0.09 和 0.24 对应的类别很像呢?为了解决这个问题,我们就引入了温度系数。

3.温度系数

我们看看对于随机生成的相同的模型输出,经过不同的函数处理,分布会如何变化:

在这里插入图片描述
最左边是我们随机生成的分布来模拟模型的输出: z ∈ R 10 ∼ N ( 10 , 2 ) z \in R^{10 }\sim N(10,2) zR10N(10,2)。中间五幅图是使用 softmax 得到的结果;其中温度系数 T = 1 T=1 T=1 时相当于原始的 softmax;右侧对比了 argmax 得到的结果。可以看出,从左到右,这些输出结果逐渐从均匀分布向尖锐分布过渡,其中保留的除正确类别以外的信息越来越少。下图更加直观地展示了不同的温度系数 T T T 对输出分布的影响。
在这里插入图片描述
不同的曲线代表不同类别上的概率输出,同样 T = 1 T=1 T=1 时代表传统的 softmax,在 时,分布逐渐极端化,最终等价于 argmax,在 T > 2 T>2 T>2 时,分布逐渐趋于均匀分布,10 个类别的概率都趋近于1/10。

这两幅画很好的说明了 softmax 的本质。【相对于 argmax 这种直接取最大的「hardmax」,softmax 采用更温和的方式,将正确类别的概率一定程度地突显出来。而引入温度系数的本质目的,就是让 softmax 的 soft 程度变成可以调节的超参数】。

而至于这个系数为啥叫 Temperature,其实很有深意。我们知道这个场景最早用于模型蒸馏,一般来说蒸馏需要加热,而加热会导致熵增。我们发现,提高温度系数会导致输出分布的信息熵增大!

我们可以轻松地推导出 趋于无穷大时,分布将趋于均匀分布,此时信息熵趋于最大
在这里插入图片描述
而当 T T T 趋于 0 时,正确类别的概率接近 1,softmax 的效果逼近 argmax
在这里插入图片描述
  [1].深度学习高温蒸馏:Softmax With Temperature

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/627419.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《LCHub低代码指南》:ChatGPT会取代低代码开发平台吗?

目录 一、低代码开发平台的优势 1. 提高开发效率 2. 降低开发成本 3. 提高应用程序的质量 二、ChatGPT的优势 三、ChatGPT是否会取代低代码开发平台 四、结论 随着数字化时代的到来,低代码开发平台已经成为了企业数字化转型的重要工具之一。然而,随着人工智能技术的不…

提升教学质量,监督教室课堂秩序?这招小白也能轻松搞定

在当今快速发展的教育领域,提高教学质量和监督教师的工作表现是学校和教育机构的重要任务之一。 传统的巡课方式存在许多限制,如耗时、人力成本高以及数据收集和分析的困难等。为了应对这些挑战,越来越多的学校和教育机构转向在线巡课系统&am…

微信小程序怎么直播?

我们目前使用的小程序都是支持直播功能的,小程序直播功能是通过小程序直播组件实现的,这是微信为商家提供的实时视频直播工具,可以帮助商家快速通过小程序向用户提供优质的直播内容。同时,借助小程序丰富的营销功能,使…

一、Drools 规则引擎

一、问题引出 现有一个在线申请信用卡的业务场景,用户需要录入个人信息,如下图所示: 通过上图可以看到,用户录入的个人信息包括 姓名、性别、年龄、学历、电话、所在公司、职位、月收入、是否有房、是否有车、是否有信用卡等。录入…

Netty中ServerBootstrap类介绍

一、Netty基本介绍 Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。Netty 在保证易于开发的同时还保证了其应用的性能,稳定性和伸缩性。 Netty 是一…

UE5 PCG模块学习1

这次来学习一下UE5.2中正式加入的PCG功能。网上较多的案例是在Landscape地形上创建贴合地面的物体,博主研究了一下,这个案例将创建贴合Mesh的物体: 1.基础生成 1.首先在插件中检查Procedural Content Generation Framework是否已经被开启&…

自学黑客的12个步骤

黑客攻防是一个极具魅力的技术领域,但成为一名黑客毫无疑问也并不容易。你必须拥有对新技术的好奇心和积极的学习态度,具备很深的计算机系统、编程语言和操作系统知识,并乐意不断地去学习和进步。 如果你想成为一名优秀的黑客,下…

Java 获取七牛云存储空间中的所有图片列表

文章目录 获取七牛云密钥导入依赖编辑 YAML 配置文件添加七牛云配置类编写 QiNiuImgUrls 方法测试结果 七牛云官方文档:https://developer.qiniu.com/kodo/sdk/java 如果有还不会使用SpringBoot整合七牛云存储的小伙伴们,可以跳转查看这篇文章&#xff1…

Revit中如何画弯曲的轴网和显示实时轴号?

一、Revit中如何画弯曲的轴网 生活中,有很多圆筒样式的建筑,比如说鸟巢和土楼,他们的外壁是弯曲的。所以,当我们用Revit创建这类模型时,轴网就要画弯曲的,那么,Revit中如何画弯曲的轴网呢&#…

JMeter接口压测和性能监测

引言 今天我来和大家分享一篇关于JMeter接口压测和性能监测的文章。在现代互联网时代,应用程序的性能已经成为了一个非常重要的问题,并且对于许多公司的生存和发展都起着至关重要的作用。 而在这其中,JMeter是一个非常实用的工具&#xff0…

CSAPP - AttackLab实验(阶段1-5)

AttackLab实验 实验内容 官网:http://csapp.cs.cmu.edu/3e/labs.html “AttackLab”是一个Linux下的可执行C程序,包含了5个阶段(phase1~phase5)的不同内容。程序运行过程中,要求学生能够根据缓冲区的工作方式和程序…

【Flutter】如何移除 Flutter 右上角的 DEBUG 标识

文章目录 一、前言二、什么是 DEBUG 标识三、为什么我们需要移除 DEBUG 标识四、如何移除 DEBUG 标识五、完整代码六、总结 一、前言 欢迎来到 Flutter 的世界!在这篇文章中,我们将探索 Flutter 的一些基础知识。但是,你知道吗?这…

Science:“消除噪音”量子比特实现了纠错的重大突破

光子盒研究院 在《科学》杂志的一篇新论文中,芝加哥大学普利兹克分子工程学院Hannes Bernien助教实验室的研究人员描述了一种不断监测量子系统周围噪音并实时调整量子比特以减少误差的方法——他们引入了“旁观者量子比特(spectator qubit)”。 尽管他们有解决新型问…

数字图像处理实验报告

目录 实验二、图像在空间域上的处理方法 实验三、图像在频率域上的处理方法 实验二、图像在空间域上的处理方法 一、实验目的 了解图像亮(灰)度变换与空间滤波的意义和手段;熟悉图像亮(灰)度变换与空间滤波的MATLA…

买法拍房需要注意什么

法拍房,由于其价格亲民、房屋信息透明度高、竞拍过程公平公正而受到越来越多的人开始关注。但是其中又有着许多的风险及相关的注意事项。那么,如何做到成功“捡漏”,买法拍房需要注意什么呢? 买法拍房需要注意什么 1、隐藏的各种收费 税费&a…

优思学院|质量和可靠性是同一件事吗?

什么是质量? 质量是什么?早期的定义是“整体上用来决定产品或服务能否满足使用目的之固有性质与性能总合”,换言之,质量就是“可显示出品质与服务好坏的东西”。 不过,关于质量的想法随时代变化,有范围愈…

专访:诺奖得主Alain Aspect谈量子的挑战与未来

光子盒研究院出品 近期,诺贝尔物理学奖获得者Alain Aspect在接受电子工程专辑(EE Times Europe)采访时说:“诺贝尔奖是由于显示了纠缠的非凡特性而获得的,但我还研究了许多其他惊人的量子现象,包括将原子冷却到一光子反冲力以下。…

JavaWebHtmlCSS总结

目录 JavaWeb概述1.访问web的原理2.C/S软件和B/S软件区别3.静态网站和动态网站 HTMLHTML的概述Table表格详细用法见W3CSchool.chm合并单元格课程表 img标签table和img标签组合使用a标签表单表单Get提交和post提交 div和span CSS1.CSS概述2.CSS语法3.CSS三种写法行内样式内部样式…

专访泛境科技:如何借助3DCAT实时云渲染打造元宇宙解决方案

随着5G、VR/AR等技术的发展,元宇宙(Metaverse)这一概念越来越受到关注。元宇宙是一个由虚拟世界构成的网络空间,其中人们可以通过数字化的身份和形象进行各种社交、娱乐、创作和商业活动。元宇宙的核心是虚拟场景,它是…

教育信息化时代,如何打造中学理科信息化实验操作考场方案

近年来,我国考试招生制度不断改进完善,初步形成了相对完整的考试招生体系。但随着教育事业的逐步发展,国务院明确提出了改革考试形式和内容:完善中学学业水平考试,规范中考学生综合素质评价,加快推进中学院…