【深度学习】softmax和交叉熵的配合求导

news2025/4/28 19:40:53

在分类问题中，尤其是在神经网络中，交叉熵函数非常常见。因为经常涉及到分类问题，需要计算各类别的概率，所以交叉熵损失函数与sigmoid函数或者softmax函数成对出现。

1.softmax

softmax用于多分类过程中，它将多个神经元的输出，映射到（0,1）区间内的概率，进行多分类。

假设一个数组V，一共有j个元素Vi表示V中的第i个元素，第i个元素的softmax值公式如下。

softmax和交叉熵结合，因为交叉熵的输入是概率，而softmax就可以把网络的输出变成对应等比例的概率。

2.交叉熵损失函数(Cross Entropy Error Function)

1. 二分类的交叉熵损失函数形式

2.多分类的交叉熵损失函数形式

3.softmax 求导

3-1 求 $S_{1}$ 对x1的导数

3-2 求 $S_{1}$ 对x2的导数

特别注意：因为在计算softmax时候，分母中用到了所有的X，分母包括了 $e^{x1}$ ， $e^{x2}$ ，……， $e^{xj}$ ，所以任何一个输出节点 $S_{i}$ 都要对所有x 进行求导。以求 s1 对 x2 的导数为例，过程如下

3-3 softmax 的导数

所以可以得到，i=j 时和 i 不等于 j 时的 softmax导数。

注意区分：i是softmax之后得到s的下标，j是进入softmax之前x的下标，注意区分，可以看3-1和3-2的实例进行理解。

4.softmax和交叉熵损失

4-1 计算过程

分类任务中搭建神经网络时，交叉熵损失函数经常与softmax配合使用，假设有以下三个向量。

向量𝑦(为one-hot编码,只有一个值为1,其他的值为0)真实类别标签(维度为𝑚,表示有𝑚类别)：

向量𝑧为softmax函数的输入，和标签向量𝑦的维度一样，为𝑚：

向量𝑠为softmax函数的输出，和标签向量𝑦的维度一样，为𝑚：

交叉熵损失函数具体计算公式如下

损失函数对向量𝑧z中的每个𝑧𝑖求偏导：

需计算i等于j和i不等于j的加和，最后的计算结果如下：

4-2 实例

通过计算最后得到的某个训练样本的向量的分数是[1,2,3], 经过softmax函数作用后

假设正确的分类结果是那么计算出来的偏导就是（保留三位有效数字）[0.090-0，0.245-1，0.665-0]=[0.090，-0.755，0.665]。

由计算结果可见，softmax和交叉熵结合之后求导，就是softmax之后的结果减去对应的y值，由此进行反向传播。

Reference

1.https://www.cnblogs.com/smallredness/p/11047718.html

2.安全验证 - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/382524.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

这么简单的 CSS 动效，快来瞧瞧

这么简单的 CSS 动效，快来瞧瞧

前言这几天逛网站浏览网页的时候，看到一个不错的CSS效果，便想来实现一下。整个效果实现起来比较简单，但是并不缺少交互感，因此来分享一下这个CSS效果。效果展示 HTML 搭建 HTML部分一如既往地简单，认清楚它的布局…

阅读更多...

密码传输和存储，如何保证数据安全？

密码传输和存储，如何保证数据安全？

本文从一个输入密码登录场景说起，详细介绍了密码传输过程的改进和思路，最后展现出一个相对安全的传输和存储方案。点击上方“后端开发技术”，选择“设为星标” ，优质资源及时送达场景在互联网项目中，我们经常会遇到以下…

阅读更多...

研报精选230302

研报精选230302

目录【个股230302华西证券_比亚迪】系列点评五十四：迪“王”需求向上出口“海”阔天空【个股230302华西证券_华利集团】下游去库存背景下承压，毛利率保持稳健【个股230302开源证券_恒顺醋业】公司信息更新报告：四季度业绩承压，期…

阅读更多...

运维级医院PACS系统全套源代码

运维级医院PACS系统全套源代码

PACS系统源码运维级医院PACS系统源码，有演示，带使用手册和操作说明书开发环境：VC MSSQL 文末获取方式！ PACS系统可实现检查预约、病人信息登记、计算机阅片、电子报告书写、胶片打印、数据备份等一系列满足影像科室日常工作…

阅读更多...

每日统计部门人员考勤打卡情况并汇总通知

每日统计部门人员考勤打卡情况并汇总通知

在值班时，HR需要及时了解到部分人员的打卡情况。这个时候，可以通过腾讯云HiFlow来实现自动通知考勤打卡情况。实现步骤：Step1：我们进入腾讯云HiFlow官网，进入控制台。我们在触发应用选择【定时启动-每天】触发。这里我…

阅读更多...

VSCode下载与安装使用教程【超详细讲解】

VSCode下载与安装使用教程【超详细讲解】

目录一、VSCode介绍二、官方下载地址三、VSCode安装 1、点击我同意此协议，点击下一步； 2、点击浏览，选择安装路径，点击下一步； 3、添加到开始菜单，点击下一步； 4、根据需要勾选&#…

阅读更多...

开创高质量发展新局面，优炫数据库助推数字中国建设

开创高质量发展新局面，优炫数据库助推数字中国建设

最新印发《数字中国建设整体布局规划》，建设数字中国是数字时代推进中国式现代化的重要引擎，是构筑国家竞争新优势的有力支撑。数字中国建设按照“2522”的整体框架进行布局，即夯实数字基础设施和数据资源体系“两大基础”，推进…

阅读更多...

Java流Stream实战-常用api案例解析

Java流Stream实战-常用api案例解析

本文介绍java 8 Stream流的常用高频api，通过实战级别的案例进行演示。实现结合实际业务、开发需要来应用技术，不让技术讲解枯燥无味，带来技术落地成生产力的价值。1. 思考，stream 的多个操作，相当于几个for循环&#x…

阅读更多...

resultMap 用法？工作中是怎么实现“多表联查”的？

resultMap 用法？工作中是怎么实现“多表联查”的？

目录一、resultMap用法 1.1、使用场景 1.2、用法说明 1.2.1、模拟场景 1.2.2、使用二、多表联查 2.1、分析 2.2、具体步骤 2.3、总结一、resultMap用法 1.1、使用场景字段名称和程序中的属性名不同的情况，可使⽤ resultMap 配置映射；⼀对⼀…

阅读更多...

英语好不好，不影响做外贸

英语好不好，不影响做外贸

对于国际贸易而言，英语到底有多重要？还记得我刚去墨西哥的时候，怕语言不通，我还带了一本《西班牙语入门》的书籍，靠着那本书一边说一边学，刚开始的时候很痛苦的。无法想象一个国家大部分的人都不懂得讲英语…

阅读更多...

【已解决】nvidia-smi不显示正在使用GPU的进程

【已解决】nvidia-smi不显示正在使用GPU的进程

目录1 问题背景2 问题探索3 问题解决4 告别Bug1 问题背景环境： 远程服务器Ubuntu20.04CUDA 11.6 现象：在日志文件和终端均显示Python脚本已使用了GPU 但是nvidia-smi中的Processes进程无显示 2 问题探索首先，可以看到 | 0 Tesla V…

阅读更多...

Android Handler机制(三) Looper源码分析

Android Handler机制(三) Looper源码分析

一. 简介我们接上一篇文章:Android Handler机制(二) Handler 实现原理继续分析Looper Looper 的职责很单一，就是单纯的从 MessageQueue 中取出消息分发给消息对应的宿主 Handler，因此它的代码不多(400行左右) . Looper 是线程独立的且每个线程只能存在…

阅读更多...

MySQL运维知识

MySQL运维知识

1 日志1.1 错误日志1.2 二进制日志查看二进制日志：mysqlbinlog ./binlog.000007purge master logs to binlog.000006reset mastershow variables like %binlog_expire_logs_seconds%默认二进制文件只存放30天，30天后会自动删除。1.3 查询日志1.4 慢查询日…

阅读更多...

React（四）：事件总线、setState的细节、PureComponent、ref

React（四）：事件总线、setState的细节、PureComponent、ref

React（四）一、事件总线二、关于setState的原理1.setState的三种使用方式（1）基本使用（2）传入一个回调（3）第一个参数是对象，第二个参数是回调2.为什么setState要设置成异步…

阅读更多...

Android kotlin实战之协程suspend详解与使用

Android kotlin实战之协程suspend详解与使用

前言 Kotlin 是一门仅在标准库中提供最基本底层 API 以便各种其他库能够利用协程的语言。与许多其他具有类似功能的语言不同，async 与 await 在 Kotlin 中并不是关键字，甚至都不是标准库的一部分。此外，Kotlin 的挂起函数概念为异步操作提供…

阅读更多...

π型滤波器计算_π型滤波电路

π型滤波器计算_π型滤波电路

滤波器在功率和音频电子中常用于滤除不必要的频率。而电路设计中，基于不同应用有着许多不同种类的滤波器，但它们的基本理念都是一致的，那就是移除不必要的信号。所有滤波器都可以被分为两类，有源滤波器和无源滤波器。有源滤波器用…

阅读更多...

重新认识 Java 中的内存映射（mmap）

重新认识 Java 中的内存映射（mmap）

mmap 基础概念 mmap 是一种内存映射文件的方法，即将一个文件映射到进程的地址空间，实现文件磁盘地址和一段进程虚拟地址的映射。实现这样的映射关系后，进程就可以采用指针的方式读写操作这一段内存，而系统会自动回写脏页到对应的文…

阅读更多...

电源程控软件下载安装教程

电源程控软件下载安装教程

软件：电源程控软件NS-PowerSupply 语言：简体中文环境：NI-VISA 安装环境：Win10以上版本（特殊需求请后台私信联系客服） 硬件要求：CPU2GHz 内存4G(或更高）硬盘500G(或更高&#xf…

阅读更多...

2023年2月安全事件盘点

2023年2月安全事件盘点

一、基本信息 2023年2月安全事件共造成约3796万美元损失，相较于上个月，安全事件数量与损失金额都有显著上升，其中Platypus Finance闪电贷攻击为单次利用损失之最高达850万美元。本月RugPull数量基本与上月持平，损失金额占比显著降…

阅读更多...

网站打不开数据库错误等常见问题解决方法

网站打不开数据库错误等常见问题解决方法

1、“主机开设成功！”上传数据后显示此内容，是因为西部数码默认放置的index.htm内容，需要核实wwwroot目录里面是否有自己的程序文件，可以删除index.htm。 2、恭喜，lanmp安装成功！这个页面是wdcp的默认页面&…

阅读更多...

推荐文章

最新文章