两层神经网络的参数求导过程

news2025/2/28 10:51:23

假设输入数据 x ∈ R n x\in\mathbb{R}^n xRn,两层神经网络有以下形式:

在这里插入图片描述
其中 W 1 ∈ R h × n W_1\in\mathbb{R}^{h\times n} W1Rh×n W 2 ∈ R m × h W_2\in\mathbb{R}^{m\times h} W2Rm×h 分别是第一层和第二层的权重矩阵, b 1 ∈ R h b_1\in\mathbb{R}^h b1Rh b 2 ∈ R m b_2\in\mathbb{R}^m b2Rm 分别是第一层和第二层的偏置向量, σ \sigma σ 是激活函数。

梯度是一个关于参数的向量,指出每个参数的变化方向,以便在优化过程中更新参数。对于每个参数,可以计算它对目标函数的梯度。在这里,我们将使用交叉熵损失函数作为目标函数:

在这里插入图片描述
其中 y ∈ R m y\in\mathbb{R}^m yRm 是真实标签向量, y ^ ∈ R m \hat{y}\in\mathbb{R}^m y^Rm 是模型预测标签向量。

我们需要求出每个参数的偏导数,以计算梯度。下面是各参数的偏导数:

在这里插入图片描述
其中 ⊙ \odot 是哈达玛积, σ ′ \sigma' σ σ \sigma σ 的导数。

最终,对于每个参数,我们可以将其梯度表示为:
在这里插入图片描述
使用梯度下降等算法,可以通过调整参数来最小化损失函数。


为了更好地理解上面公式中的符号和求导过程,下面进行一些详细的解释和推导。

首先,对于神经网络中的每个节点,都有一个加权和和一个激活函数。对于第一层,输入 x x x 经过加权和后得到:

其中, W 1 W_1 W1 是第一层的权重矩阵, b 1 b_1 b1 是第一层的偏置向量。然后, z 1 z_1 z1 经过激活函数 σ \sigma σ 得到:

在这里插入图片描述

h 1 h_1 h1 作为第二层的输入,经过加权和后得到:

在这里插入图片描述
最后, z 2 z_2 z2 经过激活函数 σ \sigma σ 得到网络的输出:
在这里插入图片描述
这个输出向量 y ^ \hat{y} y^ 是模型对输入 x x x 的预测结果。

现在,我们来推导损失函数对参数的梯度。首先,我们需要求出损失函数关于网络输出 y ^ \hat{y} y^ 的偏导数:

在这里插入图片描述
然后,根据链式法则,我们可以计算出损失函数对最后一层加权和 z 2 z_2 z2 的偏导数:

在这里插入图片描述
其中, σ ′ ( z 2 , i ) \sigma'(z_{2,i}) σ(z2,i) 表示 σ \sigma σ 函数在 z 2 , i z_{2,i} z2,i 处的导数。

接下来,我们需要计算损失函数对第二层参数 W 2 W_2 W2 b 2 b_2 b2 的偏导数。根据链式法则,我们可以得到:

在这里插入图片描述
对于第一层,根据链式法则,我们可以计算出损失函数对第一层加权和 z 1 z_1 z1 的偏导数:

在这里插入图片描述
其中, W 2 , i , j W_{2,i,j} W2,i,j 表示第二层的权重矩阵中第 i i i 行第 j j j 列的元素。

最后,我们可以计算损失函数对第一层参数 W 1 W_1 W1 b 1 b_1 b1 的偏导数:

在这里插入图片描述
其中, x k x_k xk 表示输入向量 x x x 中第 k k k 个元素。

综上所述,我们可以得到损失函数关于所有参数的偏导数公式。利用这些公式,我们可以使用梯度下降等优化算法来更新参数,从而不断改进神经网络的性能。


⊙ \odot 符号表示矩阵的按元素乘法,也称为哈达玛积。例如,如果有两个同样大小的矩阵 A A A B B B,则它们的哈达玛积为:

在这里插入图片描述
其中, a i , j a_{i,j} ai,j b i , j b_{i,j} bi,j 分别表示矩阵 A A A B B B 中第 i i i 行第 j j j 列的元素。

在神经网络中,哈达玛积的应用比较广泛。例如,在反向传播算法中,我们需要计算两个矩阵的按元素乘积,以便计算损失函数对权重参数的偏导数。具体地,对于两个相同大小的矩阵 A A A B B B,它们的按元素乘积 C = A ⊙ B C = A \odot B C=AB 的每个元素 c i , j = a i , j ⋅ b i , j c_{i,j} = a_{i,j} \cdot b_{i,j} ci,j=ai,jbi,j,然后将 C C C 作为中间变量用于计算梯度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/426640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何高效地设计测试用例并评审

编写出好的测试用例是每一个测试工程师的职责,但在实际工作中大家写的测试用例往往需要不断地修改才能使用,这不仅浪费了时间,还容易让测试工程师产生自我否定的情绪,甚至在团队中产生各种矛盾。 那如何高效地设计测试用例呢&…

一日一题:第十一题---模拟堆(很认真!)

​作者:小妮无语 专栏:一日一题 🚶‍♀️✌️道阻且长,不要放弃✌️🏃‍♀️ 哭了,一定要记录,为了,写这篇文章千辛万苦 堆笔记 题目描述: 维护一个集合,初始…

javaagent 使用注意

前言 最近做项目,需要实现一个agent,实现运行过程替换字节码,当笔者实现这些功能时发现还是很多注意事项的。而且字节码的替换过程如果类的属性与方法升级了,那么加载就会报错。这种做法的好处是代码无侵入,缺点也很明…

离散化的应用

前言:我们了解离散化的都知道,离散化的本质就是将几个差距很大的数映射成相差较小的数据,同时又保证了数据间的相对大小关系不会发生改变,离散化还是有些争议较大的问题的,比如去重问题等,下面我们就来深入…

从抓包的角度分析connect()函数的连接过程

这篇文章主要是从tcp连接建立的角度来分析客户端程序如何利用connect函数和服务端程序建立tcp连接的,了解connect函数在建立连接的过程中底层协议栈做了哪些事情。 tcp三次握手 在正式介绍connect函数时,我们先来看一下tcp三次握手的过程,下…

用孕妇的思维和孕妇对话——《用孩子的思维和孩子对话》

看惯了某鱼上经典的卖货话术,“不懂事怀孕了,遂出”。没想到我居然也快要当爸爸了。这几个月准爸爸的生活让我切身的体会到了孕妇的不容易以及陪伴孕妇的辛苦。本文不打算歌颂母亲或者替准爸爸们倒苦水,单纯总结思考一下孕期夫妻如何沟通。加…

360度全景拍摄,探索全景世界带你飞跃视野新高度

引言: 随着科技的不断发展和进步,数字媒体技术也得到了长足的发展和应用。其中,全景拍摄作为数字媒体领域的一项创新技术,能够为人们提供更加直观、真实和生动的视觉体验,广泛应用于旅游、房地产、商业推广和教育培训…

【牛客网】树根与星际密码

目录 一、编程题 1.树根 2.星际密码 二、选择题 一、编程题 1.树根 链接:数根__牛客网 (nowcoder.com) 数根可以通过把一个数的各个位上的数字加起来得到。如果得到的数是一位数,那么这个数就是数根;如果结果是两位数或者包括更多位的数…

【瑞吉外卖】001 -- 项目介绍与环境搭建

本文章为对 黑马程序员Java项目实战《瑞吉外卖》的学习记录 项目效果展示: 目录 一、软件开发整体介绍 1、软件开发流程 2、角色分工 3、软件环境 二、瑞吉外卖项目介绍 1、项目介绍 2、产品原型展示 3、技术选型 4、功能架构 5、角色 三、开发环境搭建 1、数据库环…

matlab升余弦滤波器comm.RaisedCosineTransmitFilter用法

RaisedCosineTransmitFilter是一个MATLAB通信工具箱中的函数,用于上采样和滤波输入信号。它可以使用正常的升余弦FIR滤波器或平方根升余弦FIR滤波器。通过使用升余弦FIR插值信号来应用脉冲整形滤波器。系统对通过使用升余弦有限脉冲响应(FIR)滤波器对输入信号进行插…

基于libevent实现调度器

一、调度器 1、调度器要解决的问题 1)事件保序 2)实现异步接口 2、调度器实现原理 调度器主要由下面的几个部件构成,如下: 2.1、Job 功能:保存回调及自定义参数 2.2、JobDescriptor 功能:1)创建…

从编译角度看c和c++混合编译

往期地址: 操作系统系列一 —— 操作系统概述操作系统系列二 —— 进程操作系统系列三 —— 编译与链接关系操作系统系列四 —— 栈与函数调用关系操作系统系列五——目标文件详解操作系统系列六 —— 详细解释【静态链接】 本期主题: c和c混合编译 C和…

【蓝桥杯】计算指定日期为当年第几天

文章目录前言题目分析算法难度实战1、创建算法2、创建测试用例3、测试结果总结前言 蓝桥杯全国软件和信息技术专业人才大赛由工业和信息化部人才交流中心主办,每年参赛人数超过30000人。蓝桥杯大赛作为国内领先的全国性 IT 学习赛事,持续有力支撑综合测评、奖学金评…

Web前端开发:HTML、CSS

一. 前端开发介绍 在介绍Web网站工作流程的时候提到,前端开发,主要的职责就是将数据以好看的样式呈现出来,说白了,就是开发网页程序,如下图所示:1. 网页有哪些部分组成 ? 文字、图片、音频、视频、超链接…

车企跨界背后,智能手机进入新增长时代

2022年中国智能手机销量首次跌破了3亿部大关,创下了十年来的最低水平。与此同时,以新能源车和XR为代表的新形态终端日渐成为新宠。在行业内外部多重因素影响之下,“唱衰”智能手机的声音也在甚嚣尘上,甚至有不少人认为智能机已进入…

笔记本电脑开不了机?3种解决方法

案例:笔记本电脑开不了机怎么办? 【我的笔记本电脑一直用得好好的,今天突然开不了机,尝试按了开机键很多次也没有解决。有人遇到过同样的问题吗?有没有解决的方法!】 在日常生活中,我们经常会…

Vulnhub靶场DC1-2练习

目录0x00 准备0x01 信息收集0x02 漏洞利用与攻击0x03 思路总结0x00 准备 下载连接:https://download.vulnhub.com/dc/DC-2.zip 介绍:Just like with DC-1, there are five flags including the final flag.Please note that you will need to set the …

看完这篇文章你就彻底懂啦{保姆级讲解}-----(I.MX6U驱动LED灯《使用汇编语言编写》) 2023.4.17

目录前言STM32 知识回顾完整汇编代码最终编译验证结束语前言 首先我们在开发stm32的时候驱动LED灯会有两种方式,分别是寄存器和库函数版本。因为在实际的开发过程中,我们更愿意更习惯用库函数版本来驱动各种外设,但是对于底层的寄存器调用和…

Linux宝塔安装msyql服务,默认密码,允许远程登录问题解决

一、首先我在宝塔安装mysql服务是5.7 1.1MySQL数据库5.6之前(不包括)默认密码为空,用户不用输入密码,直接回车登陆 mysql -uroot -p password:(空) 1.2.MySQL数据库5.6之后(包括)默认密码是MySQL数据库随机…

Mybatis手动配置ORM,不用自动ORM等操作

一、解决mapper.xml存放在resources以外路径中的读取问题 在pom.xml文件最后追加< build >标签&#xff0c;以便可以将xml文件复制到classes中&#xff0c;并在程序运行时正确读取。 <build><!-- 如果不添加此节点src/main/java目录下的所有配置文件都会被漏掉…