【有作图代码】Highway Network与ResNet:skip connection如何解决深层网络欠拟合问题

news2025/1/6 13:19:18

【有作图代码】Highway Network与ResNet:skip connection如何解决深层网络欠拟合问题

关键词:

#Highway Network
#ResNet
#skip connection
#深层网络
#欠拟合问题
在这里插入图片描述

具体实例与推演

假设我们有一个深层神经网络,其层数为L,每一层的输入和输出分别为 x l x_l xl y l y_l yl,传统的神经网络每一层的输出可以表示为:

y l = f ( W l x l + b l ) y_l = f(W_lx_l + b_l) yl=f(Wlxl+bl)

其中, f f f是激活函数, W l W_l Wl b l b_l bl分别是第l层的权重和偏置

第一节:Highway Network与ResNet的类比与核心概念

Highway Network和ResNet就像是给深层神经网络修建了一条“高速公路”,让信息可以直接从浅层传递到深层,避免了信息在传递过程中的“堵塞”和“丢失”,从而解决了深层网络欠拟合问题。
这就像是在城市中修建了高架桥,让车辆可以直接通过,避免了地面交通的拥堵。

在这里插入图片描述

第二节:Highway Network与ResNet的核心概念与应用

2.1 核心概念

核心概念定义比喻或解释
Highway Network一种通过引入skip connection来允许信息直接跨层传递的神经网络结构。像是给神经网络修建了一条“高速公路”,让信息可以直接从浅层传递到深层
ResNet一种具有残差连接的深层神经网络,通过skip connection解决深层网络退化问题。同样是修建了“高速公路”,但其在结构上更加简洁,应用更加广泛。
skip connection一种允许信息直接跨层传递的连接方式,可以避免信息在传递过程中的损失。就像是城市中的高架桥,让信息可以直接通过,避免了“交通拥堵”。

2.2 优势与劣势

方面描述
优势能够解决深层网络的欠拟合问题,提高网络的训练效果和泛化能力。
劣势可能会增加网络的复杂度和计算量,需要合理设计网络结构。

2.3 与深层网络训练的类比

Highway Network和ResNet深层网络训练中扮演着“疏通者”的角色,它们通过修建“高速公路”,让信息可以更加顺畅地传递,从而避免了网络的“堵塞”和“退化”,提高了网络的训练效果和泛化能力

在这里插入图片描述

第三节:公式探索与推演运算

3.1 Highway Network的基本形式

Highway Network的每一层可以表示为:

y l = H ( x l , W l H ) ⋅ T ( x l , W l T ) + x l ⋅ ( 1 − T ( x l , W l T ) ) y_l = H(x_l, W_lH) \cdot T(x_l, W_lT) + x_l \cdot (1 - T(x_l, W_lT)) yl=H(xl,WlH)T(xl,WlT)+xl(1T(xl,WlT))

其中, H H H非线性变换 T T T变换门(transform gate), 1 − T 1-T 1T携带门(carry gate)。

3.2 ResNet的基本形式

ResNet的每一层可以表示为:

y l = f ( x l + F ( x l , W l ) ) y_l = f(x_l + F(x_l, W_l)) yl=f(xl+F(xl,Wl))

其中, F F F残差函数,通常是一个两层或三层的卷积神经网络。

3.3 具体实例与推演

Highway Network为例,假设我们有一个简单的两层网络,其输入为 x x x,输出为 y y y,第一层和第二层的权重分别为 W 1 W_1 W1 W 2 W_2 W2,偏置分别为 b 1 b_1 b1 b 2 b_2 b2激活函数为ReLU。

  1. 第一层输出

y 1 = H ( x , W 1 H ) ⋅ T ( x , W 1 T ) + x ⋅ ( 1 − T ( x , W 1 T ) ) y_1 = H(x, W_1H) \cdot T(x, W_1T) + x \cdot (1 - T(x, W_1T)) y1=H(x,W1H)T(x,W1T)+x(1T(x,W1T))

其中, H ( x , W 1 H ) = ReLU ( W 1 H x + b 1 H ) H(x, W_1H) = \text{ReLU}(W_1Hx + b_1H) H(x,W1H)=ReLU(W1Hx+b1H) T ( x , W 1 T ) = σ ( W 1 T x + b 1 T ) T(x, W_1T) = \sigma(W_1Tx + b_1T) T(x,W1T)=σ(W1Tx+b1T) σ \sigma σsigmoid函数

  1. 第二层输出

y = H ( y 1 , W 2 H ) ⋅ T ( y 1 , W 2 T ) + y 1 ⋅ ( 1 − T ( y 1 , W 2 T ) ) y = H(y_1, W_2H) \cdot T(y_1, W_2T) + y_1 \cdot (1 - T(y_1, W_2T)) y=H(y1,W2H)T(y1,W2T)+y1(1T(y1,W2T))

其中, H ( y 1 , W 2 H ) = ReLU ( W 2 H y 1 + b 2 H ) H(y_1, W_2H) = \text{ReLU}(W_2Hy_1 + b_2H) H(y1,W2H)=ReLU(W2Hy1+b2H) T ( y 1 , W 2 T ) = σ ( W 2 T y 1 + b 2 T ) T(y_1, W_2T) = \sigma(W_2Ty_1 + b_2T) T(y1,W2T)=σ(W2Ty1+b2T)

通过引入skip connectionHighway Network允许信息直接从输入层传递到输出层,避免了信息在传递过程中的损失

第四节:相似公式比对

公式/网络结构共同点不同点
Highway Network都引入了skip connection来允许信息跨层传递。Highway Network使用了变换门和携带门来控制信息的传递。
ResNet都解决了深层网络的退化问题。ResNet通过残差连接实现信息的跨层传递,结构更加简洁。
LSTM(时间维度展开)都在某种程度上实现了信息的“跨层”传递(时间维度上的展开)。LSTM是在时间维度上展开,用于处理序列数据,与空间维度上的skip connection不同。

第五节:核心代码与可视化

由于Highway Network和ResNet的实现涉及复杂的神经网络结构和训练过程,这里我们提供一个简化的Python代码示例,用于演示skip connection的基本概念。请注意,这只是一个示意性的代码,并不直接对应于具体的Highway Network或ResNet实现。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 定义激活函数ReLU和sigmoid
def relu(x):
    return np.maximum(0, x)

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 模拟一个简单的两层Highway Network
def highway_network(x, W1H, b1H, W1T, b1T, W2H, b2H, W2T, b2T):
    # 第一层
    H1 = relu(np.dot(x, W1H) + b1H)
    T1 = sigmoid(np.dot(x, W1T) + b1T)
    y1 = H1 * T1 + x * (1 - T1)
    
    # 第二层
    H2 = relu(np.dot(y1, W2H) + b2H)
    T2 = sigmoid(np.dot(y1, W2T) + b2T)
    y = H2 * T2 + y1 * (1 - T2)
    
    return y

# 初始化权重和偏置(随机初始化)
np.random.seed(0)
W1H, b1H = np.random.randn(3, 3), np.random.randn(3)
W1T, b1T = np.random.randn(3, 1), np.random.randn(1)
W2H, b2H = np.random.randn(3, 3), np.random.randn(3)
W2T, b2T = np.random.randn(3, 1), np.random.randn(1)

# 输入数据
x = np.array([1, 2, 3])

# 通过Highway Network传递
y = highway_network(x, W1H, b1H, W1T, b1T, W2H, b2H, W2T, b2T)

# 可视化结果
sns.set_theme(style="whitegrid")
fig, ax = plt.subplots()

# 输入数据可视化
ax.bar(['x1', 'x2', 'x3'], x, label='Input x', alpha=0.6)

# 输出数据可视化
ax.bar(['y1', 'y2', 'y3'], y, label='Output y', alpha=0.6, bottom=np.array([4, 5, 6]))  # bottom用于错位显示

# 添加图例和标签
ax.set_title('Highway Network with Skip Connection')
ax.set_xlabel('Neurons')
ax.set_ylabel('Values')
ax.legend()

# 添加注释
for i, (xi, yi) in enumerate(zip(x, y)):
    ax.annotate(f'x{i+1}={xi:.1f}\ny{i+1}={yi:.1f}', xy=(i, yi+4), xytext=(i, yi+5),  # 错位显示注释
                arrowprops=dict(facecolor='black', shrink=0.05))

plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2270492.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

目标检测入门指南:从原理到实践

目录 1. 数据准备与预处理 2. 模型架构设计 2.1 特征提取网络原理 2.2 区域提议网络(RPN)原理 2.3 特征金字塔网络(FPN)原理 2.4 边界框回归原理 2.5 非极大值抑制(NMS)原理 2.6 多尺度训练与测试原理 2.7 损失函数设计原理 3. 损失函数设计 4. 训练策略优化 5. 后…

搭建开源版Ceph分布式存储

系统:Rocky8.6 三台2H4G 三块10G的硬盘的虚拟机 node1 192.168.2.101 node2 192.168.2.102 node3 192.168.2.103 三台虚拟机环境准备 1、配置主机名和IP的映射关系 2、关闭selinux和firewalld防火墙 3、配置时间同步且所有节点chronyd服务开机自启 1、配置主机名和…

租用服务器还是服务器托管:哪种方案更适合您?

随着企业对网络服务质量要求的不断提高,租用服务器和服务器托管是两种常见的选择,各自具备独特的优势和适用场景。这篇文章将从多个维度对这两种方案进行详细分析,帮助大家进行对比选择。 租用服务器的优劣势分析 优点 无需大额初始投入 租用…

LDD3学习6--Scull的变种

1 整体介绍 之前在LDD3学习1里面就提过scull的变种,LDD学习1--启程-CSDN博客,大概的变种有这些: 名称全名说明对应章节scullSimple Character Utility for Loading Localities基础版本3scullcScull with Slab cache使用基于slab高速缓存8.2.…

设计模式の状态策略责任链模式

文章目录 前言一、状态模式二、策略模式三、责任链模式 前言 本篇是关于设计模式中的状态模式、策略模式、以及责任链模式的学习笔记。 一、状态模式 状态模式是一种行为设计模式,核心思想在于,使某个对象在其内部状态改变时,改变该对象的行为…

【网络协议】路由信息协议 (RIP)

未经许可,不得转载。 路由信息协议(Routing Information Protocol,简称 RIP)是一种使用跳数(hop count)作为路由度量标准的路由协议,用于确定源网络和目标网络之间的最佳路径。 文章目录 什么是…

linux下安装达梦数据库v8详解

目录 操作系统、数据库 1、下载达梦数据库 2、安装前准备 2.1、建立数据库用户和组 2.2、修改文件打开最大数 2.3、挂载镜像 2.4、新建安装目录 3、数据库安装 4、配置环境变量 5、初始化数据库实例 6、注册服务 7、使用数据库 8、卸载数据库 9、多实例管理 10、…

小程序租赁系统的优势与应用探索

内容概要 小程序租赁系统,听起来很高大上,但实际上它比你想象的要实用得多!设想一下,几乎所有的租赁需求都能通过手机轻松解决。这种系统的便捷性体现在让用户随时随地都能发起租赁请求,而不再受制于传统繁琐的手续。…

(leetcode算法题)​122. 买卖股票的最佳时机 II​ 和 123. 买卖股票的最佳时机 III

这两个题都可以进行转化,转换成等价问题求解 对于122的等价转换 求出所有能够赚钱的区间,这些区间满足一下特点 1. 首尾相接, 2. 区间末尾的值大于区间开头的值 3. 每个区间尽可能的小 新的问题只要用贪心的思想就能求得问题的解 只要求出上…

oceanbase集群访问异常问题处理

1.报错现象 2.问题排查 检查obproxy状态发现为不可用状态 重启obproxy 依次重启Obproxy集群 观察任务状态 重启完成 Obproxy状态正常 3.验证登录 登录成功

WeNet:面向生产的流式和非流式端到端语音识别工具包

这篇文章介绍了WeNet,一个面向生产的开源端到端(E2E)语音识别工具包。WeNet的主要特点和贡献如下: 统一流式和非流式识别:提出了一种名为U2的两阶段框架,能够在单一模型中同时支持流式和非流式语音识别&…

ArcGIS计算矢量要素集中每一个面的遥感影像平均值、最大值等统计指标

本文介绍在ArcMap软件中,基于矢量面要素集,计算在其中每一个面区域内,遥感影像的像元个数、平均值、总和等统计值,并将统计信息附加到矢量图层的属性表中的方法。 首先,明确一下本文的需求。现在有一个矢量面要素集&am…

Wallpaper壁纸制作学习记录13

骨骼物理模拟 Wallpaper Engine还允许您为人偶变形骨骼配置某些物理模拟。选择骨骼时,点击编辑约束来配置骨骼这些属性。 警告 请记住,物理模拟可能会根据用户的最大FPS设置略微改变其行为。 Wallpaper Engine编辑器将始终以高帧速率渲染。您可以将壁纸…

CertiK《Hack3d:2024年度安全报告》(附报告全文链接)

CertiK《Hack3d:2024年度安全报告》现已发布,本次报告深入分析了2024年Web3.0领域的安全状况。2024年损失总额超过23亿美元,同比增幅高达31.61%;其中,12月的损失金额最少。过去一年,网络钓鱼攻击和私钥泄露…

SpiderFlow平台v0.5.0之数据库连接

一、寻找lib目录安装方式 在 SpiderFlow 平台中,连接数据库时需要指定数据库的 DriverClassName,并确保正确配置数据库驱动。通常,驱动文件(JAR 文件)需要放置在指定的文件夹中,以便 SpiderFlow 可以找到并…

如何在notepad++里面,修改注释颜色

问题:我使用notepad加载.bib格式的文件,我想把第一行的GSA弄成紫色的,并且注释的格式是:%注释% 实现以后得效果展示: 接下来进行一步步讲解。 1. 不同的文件使用的语言不同,于是需要自己创建一个语言。如…

生态碳汇涡度相关监测与通量数据分析实践技术应用

1.以涡度通量塔的高频观测数据为例,基于MATLAB开展上机操作: 2.涡度通量观测基本概况:观测技术方法、数据获取与预处理等 3.涡度通量数据质量控制:通量数据异常值识别与剔除等 4.涡度通量数据缺失插补:结合气象数据…

[QT]控件的核心属性

一、控件的核心属性 1.enable属性 表示一个控件是否可用,可以用isEnabled()接口获取到当前控件的可用状态,同时来提供了setEnabled()接口设置控件是否可用,传递的参数为true和false。 isEnabled(); setEnabled(bool); Demo:通过一…

Vue 3 slot/插槽继承使用方法示例(基于 Ant Design Vue)

目录 Vue 3 插槽继承使用方法示例(基于 Ant Design Vue) 实例演示 背景 问题 解决方案:插槽继承 如何解决 插槽继承的原理 实现步骤 1. 子组件:封装 EaAutoComplete.vue 说明: 2. 父组件:自定义插…

成立一家无人机培训机构需要哪些基础配置

成立一家无人机培训机构,需要一系列基础配置来确保教学质量、学员安全以及机构的正常运营。以下是根据公开发布的信息整理出的关键基础配置: 一、场地配置 1. 飞行场:提供一个安全、宽敞的室外飞行环境,面积最好大于三千平米&…