正向传播和反向传播

news2024/9/25 17:12:50

正向传播(Forward Propagation)

正向传播是指将输入数据通过神经网络,计算出预测值的过程。具体步骤如下:

  1. 输入层:接受输入数据。
  2. 隐藏层:每个隐藏层中的神经元接收上一层的输出,进行加权求和,再经过激活函数得到输出。
  3. 输出层:最后一层的神经元将隐藏层的输出再次加权求和并通过激活函数,得到最终的预测结果。

 

上图是一个简单的二层神经网络

正向传播的公式如下(以简单的单层网络为例):

Z= W\cdot x+b

y=\sigma (z)

W是权重矩阵,x是输入向量,b是偏置向量,\sigma(z)是激活函数,y是输出结果

反向传播(Backward Propagation)

反向传播是指根据损失函数计算出的误差,通过链式法则(Chain Rule)逐层计算并更新网络中的参数(权重和偏置)以最小化误差的过程。具体步骤如下:

  1. 计算损失:使用损失函数计算预测值与真实值之间的误差。例如,使用均方误差(MSE)或交叉熵损失。
  2. 误差反向传播:从输出层开始,计算损失相对于每个参数的梯度。通过链式法则,将梯度逐层传递回去。
  3. 参数更新:使用优化算法(如梯度下降)更新每个参数,使损失最小化。参数更新公式如下:

W_{new} = W_{old} - \eta \frac{\partial l}{\partial w}

W_{old}是更新前的权重,W_{new }是更新后的权重,\eta是学习速率,\frac{\partial l}{\partial w}是损失函数相对于权重的梯度。

关系与作用

  • 信息传递:正向传播将输入数据的信息从输入层传递到输出层,计算模型的预测结果;反向传播根据损失函数的梯度信息,将误差信号从输出层传递回每一层的参数,用于参数的更新。
  • 依赖关系:反向传播依赖于正向传播的计算结果。只有在进行了正向传播并得到预测结果后,才能计算损失函数并使用链式法则进行梯度计算。
  • 整体学习过程:正向传播和反向传播是神经网络学习过程中不可或缺的两个步骤。正向传播计算预测结果,反向传播根据预测结果与真实标签的差距来调整模型参数,使得模型在训练过程中不断优化。

通过正向传播和反向传播的结合,神经网络能够根据输入数据学习并调整参数,从而实现对复杂问题的有效建模和预测。

示例:神经网络训练过程

假设我们有一个简单的神经网络模型,包含一个输入层、一个隐藏层和一个输出层,具体如下

  • 网络结构

  • 输入层:2个特征输入
  • 隐藏层:3个神经元,使用ReLU激活函数
  • 输出层:1个神经元,使用sigmoid激活函数

 

  • 正向传播(Forward Propagation)

    在正向传播过程中,我们将输入数据 X 通过网络层,计算得到模型的预测输出 \hat{y}

    其中:

    正向传播计算出了模型的预测输出 \hat{y},即模型对输入数据的预测结果。

    • 输入层到隐藏层: z^{[1]}=W^{[1]}X+b^{[1]}     a^{[1]}=ReLU(z^{[1]})
    • 隐藏层到输出层: z^{[2]} = W^{[2]} a^{[1]} + b^{[2]}    \hat{y} = \sigma(z^{[2]})
    • X 是输入特征向量。
    • W^{[1]}, b^{[1]}是隐藏层的权重和偏置。
    • W^{[2]}, b^{[2]} 是输出层的权重和偏置。
    • ReLU 是激活函数。
    • \sigma 是sigmoid激活函数。
  • 损失计算

    使用损失函数 \mathcal{L}(\hat{y}, y) 计算预测输出 \hat{y}​ 与真实标签 y 之间的差异。

  • 反向传播(Backward Propagation)

    反向传播根据损失函数的梯度,从输出层向隐藏层和输入层传播,计算每个参数的梯度并更新参数。

    其中,\odot表示逐元素相乘,\text{ReLU} 是ReLU激活函数的导数。

    • 计算输出层的梯度:

      \frac{\partial \mathcal{L}}{\partial z^{[2]}} = \hat{y} - y
    • \frac{\partial \mathcal{L}}{\partial W^{[2]}} = \frac{\partial \mathcal{L}}{\partial z^{[2]}} \cdot a^{[1]T}
    • \frac{\partial \mathcal{L}}{\partial b^{[2]}} = \frac{\partial \mathcal{L}}{\partial z^{[2]}}
    • 计算隐藏层的梯度:

      \frac{\partial \mathcal{L}}{\partial z^{[1]}} = (W^{[2]})^T \cdot \frac{\partial \mathcal{L}}{\partial z^{[2]}} \odot \text{ReLU}'(z^{[1]})
    • \frac{\partial \mathcal{L}}{\partial W^{[1]}} = \frac{\partial \mathcal{L}}{\partial z^{[1]}} \cdot X^T
    • \frac{\partial \mathcal{L}}{\partial b^{[1]}} = \frac{\partial \mathcal{L}}{\partial z^{[1]}}

 

相互依赖性的体现

  1. 信息流动

    • 正向传播计算出预测结果 \hat{y},反向传播使用 \hat{y} 和真实标签 y 的差异来计算梯度。
    • 反向传播的梯度计算依赖于正向传播的预测输出 \hat{y}​,因为梯度是基于损失函数对输出层的输出(即 \hat{y}​)的导数计算的。
  2. 参数更新

    • 反向传播计算出的梯度用于更新神经网络的参数(权重和偏置)。
    • 更新后的参数影响到下一次的正向传播,从而影响到预测输出 \hat{y}​ 的计算结果。
  3. 迭代优化

    • 每一次迭代中,正向传播计算出新的预测结果,反向传播根据这些预测结果计算出新的梯度,并用于参数更新。
    • 这种正向传播和反向传播的迭代过程不断优化模型,使得模型能够逐步逼近最优解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1920456.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ENSP防火墙综合配置

综合拓扑: 实验要求: 要求一 生产区的安全策略配置 办公区的安全策略 要求二 生产区的安全策略 游客和办公区的安全策略 因为ISP返回的数据包会被防火墙最后的默认安全策略给拒绝,所以,把要ISP返回的数据给允许通过 要求三 增加…

Lingo学习(三)——工厂合并、运算符、内置函数

一、工厂合并 (一) 工厂合并——生产二维矩阵 【引入】 sets: factory /1..6/ : a; plant /1..8/ : d; Cooperation(factory,p lant) : c, x; endsets 以上程序可…

Go语言入门之Map详解

Go语言入门之Map详解 1.基础定义 map是一个无序的,k-v键值对格式的集合 (1)特点 类型特点:map为引用类型,所以在函数中更新value值会永久改变顺序特点:map的遍历是无序的,因为底层是哈希表&am…

按下快门前的算法——对焦

对焦算法可以分为测距式,相位式,反差式。 其中测距式是通过激光,(TOF,Time of Flight)等主动式地得知物距,然后对焦。更常用的是后两者。 反差式CDAF(Contrast Detection Auto Foc…

微调及代码

一、微调:迁移学习(transfer learning)将从源数据集学到的知识迁移到目标数据集。 二、步骤 1、在源数据集(例如ImageNet数据集)上预训练神经网络模型,即源模型。 2、创建一个新的神经网络模型&#xff…

【Python实战因果推断】31_双重差分2

目录 Canonical Difference-in-Differences Diff-in-Diff with Outcome Growth Canonical Difference-in-Differences 差分法的基本思想是,通过使用受治疗单位的基线,但应用对照单位的结果(增长)演变,来估算缺失的潜…

PostgreSQL 中如何处理数据的批量更新和事务日志管理?

文章目录 PostgreSQL 中数据的批量更新和事务日志管理 PostgreSQL 中数据的批量更新和事务日志管理 在数据库的世界里,数据的批量更新和事务日志管理就像是一场精心编排的舞蹈,需要精准的步伐和协调的动作。对于 PostgreSQL 而言,这两个方面…

LLM基础模型系列:Fine-Tuning总览

由于对大型语言模型,人工智能从业者经常被问到这样的问题:如何训练自己的数据?回答这个问题远非易事。生成式人工智能的最新进展是由具有许多参数的大规模模型驱动的,而训练这样的模型LLM需要昂贵的硬件(即许多具有大量…

常见 Web漏洞分析与防范研究

前言: 在当今数字化时代,Web应用程序扮演着重要的角色,为我们提供了各种在线服务和功能。然而,这些应用程序往往面临着各种潜在的安全威胁,这些威胁可能会导致敏感信息泄露、系统瘫痪以及其他不良后果。 SQL注入漏洞 …

自主研发接口测试框架

测试任务:将以前完成的所有的脚本统一改写为unitest框架方式 1、需求原型 1.1 框架目录结构 V1.0:一般的设计思路分为配置层、脚本层、数据层、结果层,如下图所示 V 2.0:加入驱动层testdriver 1.2 框架各层需要完成的工作 1、配…

【CT】LeetCode手撕—70. 爬楼梯

目录 题目1- 思路2- 实现⭐70. 爬楼梯——题解思路 3- ACM实现 题目 原题连接&#xff1a;70. 爬楼梯 1- 思路 思路 爬楼梯 ——> 动规五部曲 2- 实现 ⭐70. 爬楼梯——题解思路 class Solution {public int climbStairs(int n) {if(n<1){return 1;}// 1. 定义 dp 数…

html5——CSS基础选择器

目录 标签选择器 类选择器 id选择器 三种选择器优先级 标签指定式选择器 包含选择器 群组选择器 通配符选择器 Emmet语法&#xff08;扩展补充&#xff09; 标签选择器 HTML标签作为标签选择器的名称&#xff1a; <h1>…<h6>、<p>、<img/> 语…

数据平滑处理(部分)

一、 移动平均&#xff08;Moving Average&#xff09; 是一种最简单的数据平滑方法&#xff0c;用于平滑时间序列数据。它通过计算一定窗口内数据点的平均值来减少噪音&#xff0c;同时保留数据的趋势。移动平均包括简单移动平均&#xff08;SMA&#xff09;或指数加权移动平均…

初始网络知识

前言&#x1f440;~ 上一章我们介绍了使用java代码操作文件&#xff0c;今天我们来聊聊网络的一些基础知识点&#xff0c;以便后续更深入的了解网络 网络 局域网&#xff08;LAN&#xff09; 广域网&#xff08;WAN&#xff09; 路由器 交换机 网络通信基础 IP地址 端…

可观察性优势:掌握当代编程技术

反馈循环是我们开发人员工作的关键。它们为我们提供信息&#xff0c;并让我们从用户过去和现在的行为中学习。这意味着我们可以根据过去的反应进行主动开发。 TestComplete 是一款自动化UI测试工具&#xff0c;这款工具目前在全球范围内被广泛应用于进行桌面、移动和Web应用的…

“闭门造车”之多模态思路浅谈:自回归学习与生成

©PaperWeekly 原创 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 这篇文章我们继续来闭门造车&#xff0c;分享一下笔者最近对多模态学习的一些新理解。 在前文《“闭门造车”之多模态思路浅谈&#xff1a;无损》中&#xff0c;我们强调了无损输入对于理想的…

压缩文件的解析方式

我们常用的压缩文件有两种&#xff1a;后缀为.zip或者.rar&#xff0c;接下来将介绍解析两种压缩文件的代码。需要用到三个jar包&#xff1a;commons-io-2.16.1.jar、junrar-7.5.5.jar、slf4j-api-2.0.13.jar&#xff0c;可以在官网下载&#xff0c;也可以发私信。 这段代码是一…

2.GAP:通用访问协议

GAP的简单理解 GAP这个名字&#xff0c;直接翻译过来不好理解。 简单点可以理解为&#xff1a; 这是蓝牙设备在互联之前&#xff0c;过程中&#xff0c;第一个用于交流的协议。在代码上&#xff0c;会给这个协议实现&#xff0c;连接参数的设置&#xff0c;连接事件的实现&am…

【算法】二叉树-迭代法实现前后中序遍历

递归的实现就是:每一次递归调用都会把函数的局部变量&#xff0c;参数值和返回地址等压入调用栈中&#xff0c;然后递归返回的时候&#xff0c;从栈顶弹出上一次递归的各项参数&#xff0c;这就是递归为什么可以返回上一层位置的原因 可以用栈实现二叉树的前中后序遍历 1. 前序…

【数学趣】拉窗帘模型之求面积引发的6个解法

抖音上推了一个趣题 题 求橙色部分的面积 蓝色部分是2个正方形。大的正方形边长为6。&#xff08;小的正方形一半被一个黄色三角形遮住了一半&#xff09; 答案 18 解法1&#xff1a;拉窗帘 先写一个代号&#xff0c;方便证明&#xff0c;H G 代表正方形。&#xff08;G…