深度学习:(八)深层神经网络参数与流程

news2024/9/28 1:00:05

深层神经网络

符号规定

  • L L L :表示神经网络的层数;
  • l l l :表示第几层;
  • n [   l   ] n^{[~l~]} n[ l ] :表示第 l l l 层的节点数;
  • a [   l   ] a^{[~l~]} a[ l ] :表示第 l l l 层中的激活函数(泛指);
  • a [   l   ] = g [   l   ] ( z [   l   ] ) a^{[~l~]}=g^{[~l~]}(z^{[~l~]}) a[ l ]=g[ l ](z[ l ]) :表示第 l l l 层中的激活函数(泛指);
  • W [   l   ] W^{[~l~]} W[ l ] :表示第 l l l 层的参数 w w w 的集合;
  • b [   l   ] b^{[~l~]} b[ l ] :表示第 l l l 层的参数 b b b 的集合。

前向传播和反向传播都类似之前的笔记。

流程图

在这里插入图片描述

前向传播有输入数据 x x x ,反向传播的输入数据是 d a [   L   ] da^{[~L~]} da[ L ] ,即输出层(第 L L L 层)的输出,在向量化代码中,直接展示出来的结果是损失函数 L ( y ^ , y ) L(\widehat{y},y) L(y ,y)

因为 d a [   L   ] = − y a + 1 − y 1 − a da^{[~L~]}=-\frac{y}{a}+\frac{1-y}{1-a} da[ L ]=ay+1a1y ,而 L ( y ^ , y ) L(\widehat{y},y) L(y ,y) y ^ \widehat{y} y a a a)的导数,正好等于这个结果。因此将损失函数对 y ^ \widehat{y} y a a a)求导,可得出 d a [   L   ] da^{[~L~]} da[ L ] ,然后代入反向传播链的输入,开始迭代,如上图所示。

向量化时 d a [   L   ] da^{[~L~]} da[ L ] 需改为 d A [   L   ] dA^{[~L~]} dA[ L ] d A [   L   ] = ( d a [   1   ] , d a [   2   ] , . . . , d a [   m   ] ) dA^{[~L~]}=(da^{[~1~]},da^{[~2~]},...,da^{[~m~]}) dA[ L ]=(da[ 1 ],da[ 2 ],...,da[ m ])

为何 z [   l   ] z^{[~l~]} z[ l ]是反向传播的一个输入参数

∵ a [   l   ] = σ ( z [   l   ] ) = σ ( W [   l   ] a [   l − 1   ] + b [   l   ] ) ∵ d L d a [   l − 1   ] = d L d a [   l   ] ⋅ d a [   l   ] d a [   l − 1   ] = d a [   l   ] ⋅ σ ′ ( W [   l   ] a [   l − 1   ] + b [   l   ] ) W [   l   ] ⋅ d a [   l − 1   ] ∴ d a [   l − 1   ] = d a [   l   ] ⋅ σ ′ ( z [   l   ] ) W [   l   ] ⋅ d a [   l − 1   ] \begin{align*} ∵a^{[~l~]}=\sigma&(z^{[~l~]})=\sigma(W^{[~l~]}a^{[~l-1~]}+b^{[~l~]})\\ ∵\frac{dL}{da^{[~l-1~]}}&=\frac{dL}{da^{[~l~]}}·\frac{da^{[~l~]}}{da^{[~l-1~]}}\\ &=da^{[~l~]}·\sigma^{'}(W^{[~l~]}a^{[~l-1~]}+b^{[~l~]})W^{[~l~]}·da^{[~l-1~]}\\ ∴da^{[~l-1~]}&=da^{[~l~]}·\sigma^{'}(z^{[~l~]})W^{[~l~]}·da^{[~l-1~]} \end{align*} a[ l ]=σda[ l1 ]dLda[ l1 ](z[ l ])=σ(W[ l ]a[ l1 ]+b[ l ])=da[ l ]dLda[ l1 ]da[ l ]=da[ l ]σ(W[ l ]a[ l1 ]+b[ l ])W[ l ]da[ l1 ]=da[ l ]σ(z[ l ])W[ l ]da[ l1 ]

核对矩阵的维度

向量化前的单个样本
  • 前向传播:

    W [   l   ] W^{[~l~]} W[ l ] :维度为 ( n [   l   ] , n [   l − 1   ] ) (n^{[~l~]},n^{[~l-1~]}) (n[ l ],n[ l1 ])

    z [   l   ] z^{[~l~]} z[ l ] :维度为 ( n [   l   ] , 1 ) (n^{[~l~]},1) (n[ l ],1)

    a [   l   ] a^{[~l~]} a[ l ] :维度为 ( n [   l   ] , 1 ) (n^{[~l~]},1) (n[ l ],1)

    b [   l   ] b^{[~l~]} b[ l ] :维度为 ( n [   l   ] , 1 ) (n^{[~l~]},1) (n[ l ],1)

  • 反向传播:

    d W [   l   ] dW^{[~l~]} dW[ l ] W [   l   ] W^{[~l~]} W[ l ] 同维度;

    d b [   l   ] db^{[~l~]} db[ l ] b [   l   ] b^{[~l~]} b[ l ] 同维度。

向量化后的整个训练集
  • 前向传播:

    X ( A [   0   ] ) X(A^{[~0~]}) X(A[ 0 ]) :维度为 ( n [   0   ] , m ) (n^{[~0~]},m) (n[ 0 ],m)

    W [   l   ] W^{[~l~]} W[ l ] :维度为 ( n [   l   ] , n [   l − 1   ] ) (n^{[~l~]},n^{[~l-1~]}) (n[ l ],n[ l1 ])

    b [   l   ] b^{[~l~]} b[ l ] :维度为 ( n [   l   ] , 1 ) (n^{[~l~]},1) (n[ l ],1) ;# 要广播

    Z [   l   ] Z^{[~l~]} Z[ l ] :维度为 ( n [   l   ] , m ) (n^{[~l~]},m) (n[ l ],m)

    A [   l   ] A^{[~l~]} A[ l ] :维度为 ( n [   l   ] , m ) (n^{[~l~]},m) (n[ l ],m)

  • 反向传播:

    d W [   l   ] dW^{[~l~]} dW[ l ] W [   l   ] W^{[~l~]} W[ l ] 同维度;

    d b [   l   ] db^{[~l~]} db[ l ] b [   l   ] b^{[~l~]} b[ l ] 同维度;

    d Z [   l   ] dZ^{[~l~]} dZ[ l ] Z [   l   ] Z^{[~l~]} Z[ l ] 同维度;

    d A [   l   ] dA^{[~l~]} dA[ l ] A [   l   ] A^{[~l~]} A[ l ] 同维度。

超参数:

能控制参数 w w w b b b 的参数,需人为设置。

  • 学习率 α \alpha α
  • 梯度下降法循环次数;
  • 隐层数 L L L
  • 隐藏层的单元(节点)数;
  • 激活函数类型。

这些参数需要不断测试,实时评估损失函数(横坐标越大,纵坐标越小)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171725.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【web安全】——sql注入

1.MySQL基础 1.1information_schema数据库详解 简介: 在mysql5版本以后,为了方便管理,默认定义了information_schema数据库,用来存储数据库元数据信息。schemata(数据库名)、tables(表名tableschema)、columns(列名或字段名)。…

360AI搜索上线慢思考模式:成为全球首个慢思考搜索引擎 大幅提升回答质量

近日,360 AI搜索上线“慢思考模式”,成为国内首个具备慢思考能力的AI产品、全球首个具备慢思考能力的搜索引擎。据悉,慢思考模式基于CoE 技术架构,在该模式下360AI搜索能够大幅提升回答质量,完成多数AI ChatBot无法完成…

技术成神之路:设计模式(十七)组合模式

介绍 组合模式(Composite Pattern)是一种结构型设计模式,它使你能够将对象组合成树形结构来表示“部分-整体”的层次结构。组合模式使得用户对单个对象和组合对象的使用具有一致性。 1.定义 组合模式允许将叶子对象和组合对象(容器…

猫头虎带您解决:‘vue-cli-service’ 不是内部或外部命令

猫头虎带您解决:‘vue-cli-service’ 不是内部或外部命令 🚀 今天猫头虎收到一个粉丝的提问:“猫哥,我在用 Vue 项目的时候,运行命令 npm run serve 出现了错误提示,vue-cli-service 不是内部或外部命令&a…

玄机--蚁剑流量

木马的连接密码是多少 黑客执行的第一个命令是什么 id 黑客读取了哪个文件的内容,提交文件绝对路径 /etc/passwd 黑客上传了什么文件到服务器,提交文件名 黑客上传的文件内容是什么 黑客下载了哪个文件,提交文件绝对路径 蚁剑流量特征总结 …

参会通知!第三届计算、通信、感知与量子技术国际会议(CCPQT 2024)

参会通知!新增特别论坛:国自然基金经验分享 第三届计算、通信、感知与量子技术国际会议(CCPQT 2024)将于2024年10月25-27日在珠海召开,聚焦感知技术、绿色通信等,由北邮主办,宁波大学协办。会议…

seL4 IPC(五)

官网链接:link 求解 代码中的很多方法例如这一个教程里面的seL4_GetMR(0),我在官方给的手册和API中都搜不到,想问一下大家这些大家都是在哪里搜的!! IPC seL4中的IPC和一般OS中讲的IPC概念相差比较大,根…

华大基因用药指导基因检测助力优化治疗方案,科学管理糖尿病

糖尿病是全球范围内的一个重大公共卫生问题。据国际糖尿病联盟(IDF)统计,全球糖尿病患者人数约为5.39亿,其中中国患者数量约为1.409亿。作为一种慢性代谢性疾病,糖尿病往往不是独立存在的,通常还会伴随着多…

【SSM_Day3】JSON字符串和Java对象互转

【SSM_Day3】JSON字符串和Java对象互转 JSON档案JSON字符串和Java对象互转BEJSON:在线JSON格式化校验工具 JSON档案 数据格式是描述数据保存在文件或记录中的规则,比如Excel就是一种数据格式,数据保存在Excel的表格中。JSON也是一种数据格式…

【JAVA报错已解决】Java.lang.NumberFormatException

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

Python:百度贴吧实现自动化签到

早知道,还是python。 Github项目仓库在这。 相关API 签到贴吧列表 签到分为两个接口,PC端签到一次经验2,而移动端签到则是一次经验6。该用哪个接口已经很明显了。不过这里还是列出PC端的签到API。 # PC端签到接口 # sign_url "https:…

Hive SQL业务场景:连续5天涨幅超过5%股票

一、需求描述 现有一张股票价格表 dwd_stock_trade_dtl 有3个字段分别是: 股票代码(stock_code), 日期(trade_date), 收盘价格(closing_price) 。 请找出满足连续5天以上(含)每天上涨超过5%的股票,并给出连续满足…

LLM大模型书籍:专补大模型短板的RAG入门与实战书来了!

文末赠书 RAG自2020年由Facebook AI Research推出后,一下子就窜红了。 毕竟,它是真的帮了大忙,在解决大语言模型的“幻觉”问题上起到了关键作用。 如今,Google、AWS、IBM、微软、NVIDIA等科技巨头都在支持RAG应用的开发。微软…

AGI interior designer丨OPENAIGC开发者大赛高校组AI创作力奖

在第二届拯救者杯OPENAIGC开发者大赛中,涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到,我们特意开设了优秀作品报道专栏,旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者,希望能带给…

同步、异步、阻塞、非阻塞的关系

相关介绍 1、同步与异步:针对调用方而言。调用方是否需要等待返回调用结果。异步不需要等待,可以采用状态通知、回调函数的方式获取结果,以read文件为例 同步方式读取文件:read(filename),直接读取文件,需…

【C语言训练题库】第一次出现的字符

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 1. 题目 给出一串字符串,找出第一次只出现一次的字符,并返回它的位置,如果不存在,则返回-1 例: 输入&…

电缆缺陷检测系统源码分享

电缆缺陷检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

Llama3的本地部署

Llama3是Meta于2024年4月18日开源的LLM,目前开放了8B和70B两个版本,两个版本均支持最大为8192个token的序列长度( GPT-4支持128K ) Llama3在Meta自制的两个24K GPU集群上进行预训练,使用15T的训练数据,其中5%为非英文数据&…

SAP 用户密码策略设置简介(不需要重启服务器)

SAP 用户密码策略设置简介(不需要重启服务器 1. 密码长度和复杂性2. 密码有效期3. 密码历史记录4. 账户锁定5. 单点登录(SSO)6. 安全提示和教育7. 配置密码策略的步骤8. 监控和审计 业务场景系统设置 好的,这里是关于SAP用户密码策略的更详细…

7.字符串 Strings

作业系统链接 字符串文字可以使用单引号、双引号或三引号来定义,其中三引号特别适用于多行字符串。转义序列如\n(换行)和\t(制表符)在字符串中起到特殊作用。字符串方法如replace()、strip()、lower()和upper()提供了丰…