损失函数理解(二)——交叉熵损失

news2025/3/24 11:55:04

损失函数的目的是为了定量描述不同模型(例如神经网络模型和人脑模型)的差异。

交叉熵,顾名思义,与熵有关,先把模型换成熵这么一个数值,然后用这个数值比较不同模型之间的差异。

为什么要做这一步转换,原因是要直接比较两个模型,前提是两个模型是同一种类型,比如都是高斯分布,我们可以比较均值和方差。但现实中,我们要比较的两种模型往往不是同一种类型,甚至我们都不知道是什么类型。所以我们通过熵实现不同类型概率模型的公度


熵的前置知识

1. 信息量

衡量一个信息有没有信息量,不是看这个消息你知不知道,关键是看能带来多少确定性,也可以说能消除多少不确定性。

例如有8支队伍参加比赛,其中一支队伍名为“AI小队”。理论上来说,“AI小队”夺冠概率为1/8。但如果告诉你“AI小队”夺冠了,夺冠概率从1/8变为百分之百;但如果告诉你“AI小队”进入总决赛了,夺冠概率从1/8变为1/2,但直观上感觉这个信息量不如夺冠信息的信息量高。

通过上述例子我们大概能明白不同的信息,含有的信息量是不同的。那如何定义信息量呢?


***题外话***

所谓定义,就是人为规定它的意义,给出一个表达式,至于这个表达式为什么这么写而不那么写,原因是最先提出的人就是这么写的,并且逻辑得到了自洽,后人为了统一标准,便沿用了这个定义。你也可以给出自己的定义,但为了让体系自洽,可能其他与该定义相关的表达式就要重写。


首先,从直观上来说,一件事发生的概率越低,其包含的信息量越大;反之一件事发生的概率越大,包含的信息量越少。例如,我告诉你太阳每天东升西落,这对你来说没有任何信息量,因为这件事情的概率是1;但假如我告诉你下一期双色球中奖号码是某某某(假如是正确的话),那这个消息的信息量就很大了。因此信息量与事件发生的概率是相关的。

其次,假如一个事件可以被分解成多个事件,该事件的信息量等于多个事件信息量的和。现在我们假设f(x)是信息量的一个表达式,根据上面举的例子,该表达式应该满足如下要求:

f(AI小队夺冠(进决赛且赢得决赛)) = f(AI小队进入决赛)+f(AI小队进入决赛后还赢了决赛)

f(\frac{1}{8})=f(\frac{1}{4} \times \frac{1}{2})=f(\frac{1}{4})+f(\frac{1}{2})

乘法变加法,熟悉的感觉,是log!!!信息量能不能定义成log(P_{i})呢,其中P_{i}为事件i发生的概率。如此以来第二个条件满足了,但是这样的话信息量会随着事件发生概率的增大而增大,那怎么办呢?加个负号。

所以如果我们把一个事件的信息量定义为如下公式,逻辑就能自洽

H_{i}=-log(P_{i})

通常我们log以2为底,计算出的信息量的单位是比特(bit)。原因是计算机是二进制的,我们的信息量衡量了一个信息的最短编码(不理解的同学可忽略)。

2.熵

通过上面的分析,我们给出了信息量的定义。信息量可以理解成一个事件从原来的不确定性变得确定难度有多大,信息量比较大说明难度比较高。熵的理解也类似,不过熵衡量的不是某个具体事件,而是一个系统中所有的事件,即一个系统从原来的不确定到确定,其难度有多大。

我们可以把一场比赛看作一个系统。假如两个实力相近的队伍比赛,两只队伍胜利的概率都是\frac{1}{2},那这两只队伍赢球的信息量都是:

I=-log_{2}\frac{1}{2}=1

但如果是两只实力悬殊的队伍比赛,队伍A胜利的概率是99%,队伍B胜利的概率为1%,那两只队伍赢球的信息量分别为:

I_{A}=-log_{2}\frac{99}{100}\approx 0.0145

I_{B}=-log_{2}\frac{1}{100}\approx 6.6439

那球赛的熵是两只队伍赢球的信息量的加和么?

显然不是,因为如果是加和的话,实力悬殊队伍的比赛结果相对来说是确定的,大概率是实力强的队伍赢得比赛,所以它的不确定性是低的,但此时它的熵却是高的,所以熵并不是信息量的简单加和。

我们需要考虑每个事件对系统贡献的信息量,事件只有发生了,才会贡献信息量,所以系统的熵定义为信息量的期望:

H:= E(I)\\\\=\sum _{i=1}^{m}p_{i}I_{i}\\\\=\sum _{i=1}^{m}p_{i}(-log_{2}p_{i})\\\\=-\sum _{i=1}^{m}p_{i}\cdot log_{2}p_{i}

3.相对熵(KL散度)

我们的目的是要比较两个模型,最简单的方法就是把概率模型的熵计算出来然后直接比较熵的数值,但并不是所有概率模型我们都能求熵。因此引出另外一个概念——相对熵,也叫KL散度,其定义如下:

D_{KL}(P||Q)\\\\:=\sum _{i=1}^{m}p_{i}\cdot (I_{Q_{i}}-I_{P_{i}})\\\\=\sum _{i=1}^{m}p_{i}\cdot((-log_{2}q_{i})-(-log_{2}p_{i}))\\\\=\sum _{i=1}^{m}p_{i}\cdot(-log_{2}q_{i})-\sum _{i=1}^{m}p_{i}\cdot(-log_{2}p_{i})\\\\=H(P,Q)-H(P)

KL散度等于0表明两个分布是一样的,不等于0表示两者有差别。其中QP分别表示两个概率分布,D_{KL}(P||Q)表示以P为基准(P在前),用Q近似P式损失了多少信息,I_{Q_{i}}表示某个事件在系统Q中的信息量,H(P,Q)表示交叉熵,H(P)表示概率分布P的熵,我们以P为基准的话,这个值是不会变的。

由公式可知,H(P,Q)H(P)都是大于0的,但是两者谁更大呢?这是很重要的,因为如果KL散度大于零,要使得KL越接近于0,就得让交叉熵越小;如果KL散度小于0,要使得KL散度越接近于0,就得让交叉熵越大。

吉布斯不等式已经证明KL散度是恒大于等于0的(感兴趣的小伙伴可自行检索证明过程),那现在我们如果想让概率分布Q接近P,只需要最小化两者的交叉熵即可,也就是说交叉熵可作为损失函数对模型进行优化


通过前置知识,我们引出了交叉熵,并且明白了为什么交叉熵可以衡量两个概率分布之间的差异,也就是说可以用作损失函数。那么在神经网络中,我们该如何利用交叉熵呢?首先我们回顾一下交叉熵的定义:

H(P,Q)=\sum _{i=1}^{m}p_{i}\cdot(-log_{2}q_{i})

我们只需要用训练神经网络场景中的变量替换公式中的变量即可。

m表示分类的个数,在判断图像是不是猫的二分类任务中,i的取值只有两个,即i=1表示图像是猫,i=2表示图像不是猫;对应的,p_{i}表示每个事件发生的概率,即当前图像是猫的概率和不是猫的概率,在模型训练场景中,我们以人脑中的概率模型为基准,即以标签为基准,所以p_{1}=yp_{2}=(1-y),其中y表示人类给图像的标签,是猫为1,不是猫为0;q则对应模型预测的当前图像是猫的概率,即\widehat{y},而不是猫的概率就是(1-\widehat{y}),所以交叉熵用于神经网络中的形式如下:

H=-[y\cdot log_{2}\widehat{y}+(1-y)\cdot log_{2}(1-\widehat{y})]

当然这里是二分类的情况,如果是多分类,交叉熵可进一步写为:

H=-\sum _{i=1}^{m}y_{i}\cdot log(\widehat{y_{i}})

其中i表示类别数,y_{i}表示是类别i的概率(标签),\widehat{y_{i}}表示模型预测的是类别i的概率。


至此,我们通过信息量和熵引出交叉熵,并介绍了交叉熵是如何用于损失计算的,希望能够对有需要的伙伴提供帮助,如果文中有歧义或者有错误的地方,欢迎大家在评论区指出!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2320131.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于随机森林回归预测葡萄酒质量

基于随机森林回归预测葡萄酒质量 1.作者介绍2.随机森林算法与数据集介绍2.1定义2.2核心思想2.3主要步骤2.4数据集介绍 3.算法实现3.1数据加载与探索3.2数据可视化3.3数据预处理(标准化、划分训练/测试集)3.4模型训练与优化(随机森林回归 超参…

【Qt】QWidget属性2

🏠个人主页:Yui_ 🍑操作环境:Qt Creator 🚀所属专栏:Qt 文章目录 1. windowOpacity属性2. cursor属性2.1 自定义光标 3. font属性4.tooltip属性5. focusPolicy属性6. 总结 由于QWidget的常见属性实在太多&a…

OpenGL ES ->乒乓缓冲,计算只用两个帧缓冲对象(Frame Buffer Object)+叠加多个滤镜作用后的Bitmap

乒乓缓冲核心思想 不使用乒乓缓冲,如果要每个滤镜作用下的绘制内容,也就是这个滤镜作用下的帧缓冲,需要创建一个Frame Buffer Object加上对应的Frame Buffer Object Texture使用乒乓缓冲,只用两个Frame Buffer Object加上对应的F…

数据库练习2

目录 1.向heros表中新增一列信息,添加一些约束,并尝试查询一些信息 2.课堂代码练习 3.题目如下 一、单表查询 1、显示所有职工的基本信息。 2、查询所有职工所属部门的部门号,不显示重复的部门号。 3、求出所有职工的人数。 4…

macOS Sequoia 15.3 一直弹出“xx正在访问你的屏幕”

🙅 问题描述 macOS 系统升级后(15.2或者15.3均出现过此问题),不管是截图还是开腾讯会议,只要跟捕捉屏幕有关,都一直弹出这个选项,而且所有软件我都允许访问屏幕了,这个不是询问是否…

C# 调用 VITS,推理模型 将文字转wav音频调试 -数字人分支

Microsoft.ML.OnnxRuntime.OnnxRuntimeException: [ErrorCode:InvalidArgument] Input name: input_name is not in the metadata在 Microsoft.ML.OnnxRuntime.InferenceSession.LookupInputMetadata(String nodeName) 位置 D:\a\_work\1\s\csharp\src\Microsoft.ML.OnnxRuntim…

【Docker系列一】Docker 简介

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

C++进阶——封装红黑树实现map和set

目录 1、源码及框架分析 2、模拟实现map和set 2.1 复用的红黑树框架及Insert 2.2 iterator的实现 2.2.1 iterator的核心源码 2.2.2 iterator的实现思路 2.3 map支持[ ] 2.4 map和set的代码实现 2.4.1 MyMap.h 2.4.2 MySet.h 2.4.3 RBTree.h 2.4.4 Test.cpp 1、源码及…

‘闭包‘, ‘装饰器‘及其应用场景

‘闭包’, 装饰器’及其应用场景 一, 闭包及其应用场景 图解 闭包的定义 概述: 内部函数 使用了 外部函数 的变量, 这种写法就称之为闭包. 格式: def 外部函数名(形参列表):外部函数的(局部)变量def 内部函数名(形参列表):内部函数的(局部)变量return 内部函数名前提条件: …

IDEA 快捷键ctrl+shift+f 无法全局搜索内容的问题及解决办法

本篇文章主要讲解IDEA、phpStrom、webStrom、pyCharm等jetbrains系列编辑器无法进行全局搜索内容问题的主要原因及解决办法。 日期:2025年3月22日 作者:任聪聪 现象描述: 1.按下ctrlshiftf 输入法转为了繁体。 2.快捷键ctrlshiftr 可以全局检…

Powershell WSL导出导入ubuntu22.04.5子系统

导出Linux子系统 导出位置在C盘下,根据自己的实际情况更改即可Write-Host "export ubuntu22.04.5" -ForegroundColor Green wsl --export Ubuntu-22.04 c:\Ubuntu-22.04.tar 导入Linux子系统 好处是目录可用在任意磁盘路径,便于迁移不同的设备之间Write-Host &quo…

论文笔记(七十三)Gemini Robotics: Bringing AI into the Physical World

Gemini Robotics: Bringing AI into the Physical World 文章概括1. 引言2. Gemini 2.0的具身推理2.1. 具身推理问答(ERQA)基准测试2.2. Gemini 2.0的具身推理能力2.3. Gemini 2.0支持零样本和少样本机器人控制 3. 使用 Gemini Robotics 执行机器人动作3…

AI + 医疗 Qwq大模型离线本地应用

通义千问Qwq-32b-FP16可用于社区医院、乡镇卫生院、诊所等小型医疗机构,替代专业合理用药系统,作为药品知识库,实现以下功能: 药品信息智能查询:检索药品的详细说明书、适应症、禁忌症、不良反应及药物相互作用等关键信…

元音辅音及其字母组合发音

文章目录 单元音长元音/ɑː//ɔ://u://i://ɜː/// 短元音/ʌ//ɒ//ʊ//ɪ//ə//e/ 双元音/eɪ//aɪ//ɔɪ//ɪə//eə//ʊə//əʊ//aʊ/ 辅音3个鼻辅音m n ŋ 5个独立浊辅音w j r l h 20个清浊相对的辅音s zʃ ʒf vθ p bt dk gts dztʃ dʒtr dr 以下是列举的部分字母组合…

【Vitis AIE】FPGA图像处理 11 双线性插值 Bilinear Interpolation

双线性插值 https://github.com/Xilinx/Vitis-Tutorials/tree/2024.2/AI_Engine_Development/AIE/Design_Tutorials/11-Bilinear_Interpolation 简介 双线性插值是一种使用重复线性插值来插值两个变量函数的方法。它通常用于以下应用: 图像处理和计算机视觉&…

Linux | 安装 Samba将ubuntu 的存储空间指定为windows 上的一个磁盘

01 安装 samba 文件来实现。比如把我们 ubuntu 的存储空间指定为我们 windows 上的一个磁盘,然后我们在这个磁盘里面创建 .c 文件,进行我们代码的修改和编写,可以安装 samba 文件来实现。 samba 是一种网络共享服务,可以通过网络访问我们指定的文件夹 02 第一步:下…

一文说清预训练与微调:AI的双重训练法则

什么是预训练? 预训练是大型语言模型训练的第一步。它在资金和计算能力的支持下,通过深入分析大量的文本数据,使模型建立起语言的基本构架。在这一阶段,模型通过学习海量的书籍、文章和网页,识别出语言的语法、句法和…

996引擎-接口测试:音效测试NPC

996引擎-接口测试:音效测试NPC 参考资料local offset = 1 -- 默认偏移量function main(player, newOffset)offset = newOffset or offset -- 更新偏移量local buttonWidth =

miniconda安装保姆级教程|win11|深度学习环境配置

一、官网安装miniconda miniconda官网:Miniconda - Anaconda 点击Download按钮 在红框位置输入邮箱并点击submit,下载链接将会发到邮箱中 邮箱中将会收到如图所示邮件,点击下载 选择windows对应的miniconda安装包 miniconda安装包安装完成如…

Linux shell脚本-概述、语法定义、自定义变量、环境变量、预设变量、变量的特殊用法(转义字符、单双引号、大小括号)的验证

目录 1.shell概述 1.1作为应用程序: 1.2 shell 作为一门语言 2.shell 语法 2.1 shell脚本的定义与执行 (1)新建文件 (2)程序开头第一行 必须写shell的类型 (3)程序编写完后&#xff0c…