卷积神经网络-迁移学习

news2024/11/17 3:52:08

文章目录

  • 一、迁移学习
    • 1.定义与性质
    • 2.步骤
  • 二、Batch Normalization(批次归一化)
  • 三、ResNet网络
    • 1.核心思想
    • 2.残差结构
      • (1)残差块
      • (2)残差结构类型
  • 四、总结

一、迁移学习

迁移学习(Transfer Learning)是一种强大的机器学习方法,其核心思想是将在一个任务(源任务)上学到的知识或模型迁移到另一个相关任务(目标任务)上,以提高新任务的性能。以下是对迁移学习的详细解析:

1.定义与性质

  • 定义:迁移学习是指利用已经训练好的模型,在新的任务上进行微调。迁移学习可以加快模型训练速度,提高模型性能,并且在数据稀缺的情况下也能很好地工作。
  • 性质:迁移学习侧重于将已经学习过的知识迁移应用于新的问题中,以减少目标任务对大量新数据的依赖,加快模型训练速度,并提高模型的泛化能力。

2.步骤

  • 选择预训练的模型和适当的层:通常,我们会选择在大规模图像数据集(如ImageNet)上预训练的模型,如VGG、ResNet等。然后,根据新数据集的特点,选择需要微调的模型层。对于低级特征的任务(如边缘检测),最好使用浅层模型的层,而对于高级特征的任务(如分类),则应选择更深层次的模型。
  • 冻结预训练模型的参数:保持预训练模型的权重不变,只训练新增加的层或者微调一些层,避免因为在数据集中过拟合导致预训练模型过度拟合。
  • 在新数据集上训练新增加的层:在冻结预训练模型的参数情况下,训练新增加的层。这样,可以使新模型适应新的任务,从而获得更高的性能。
  • 微调预训练模型的层:在新层上进行训练后,可以解冻一些已经训练过的层,并且将它们作为微调的目标。这样做可以提高模型在新数据集上的性能。
  • 评估和测试:在训练完成之后,使用测试集对模型进行评估。如果模型的性能仍然不够好,可以尝试调整超参数或者更改微调层。

二、Batch Normalization(批次归一化)

Batch Normalization(批归一化,简称BN)是一种在深度学习中广泛使用的技术,旨在加速神经网络的训练过程并提高模型的性能。
作用:

  • 加速训练过程:Batch Normalization通过减少内部协变量偏移(Internal Covariate Shift),即隐藏层输入分布的变化,使得网络对初始权重选择的依赖较小,对学习率的选择也相对不敏感。这有助于加速神经网络的收敛速度。

  • 提高模型性能:通过归一化操作,Batch Normalization有助于减少梯度消失和梯度爆炸问题,从而提高模型的训练稳定性和泛化能力。

  • 减少过拟合:Batch Normalization在小批量样本上计算均值和方差,可以看作是对小批量样本进行一种正则化处理,有助于减少过拟合现象。

三、ResNet网络

为了解决深层网络中的退化问题,可以人为地让神经网络某些层跳过下一层神经元的连接,隔层相连,弱化每层之间的强联系。这种神经网络被称为 残差网络 (ResNets)。

1.核心思想

ResNet的核心思想在于残差学习(Residual Learning),即网络学习的是输入和输出之间的残差(即差异),而不是直接学习完整的输出。这种设计有助于减少深层网络在训练过程中的信息损失,从而提高训练效率和模型性能。

2.残差结构

残差结构是深度学习中一种非常重要的网络设计思想,它通过引入直接连接来缓解梯度消失、梯度爆炸和退化问题、提升网络性能和泛化能力。

(1)残差块

在这里插入图片描述
一个典型的残差块包含两条路径:一条是主路径(通常由几个卷积层组成),另一条是shortcut路径(直接连接输入和输出)。主路径的输出与shortcut路径的输出相加后作为残差块的最终输出。通过这种方式,残差块能够在保持原始输入信息的同时,对输入进行进一步的特征提取和转换。

(2)残差结构类型

ResNet网络通常采用多个残差块堆叠的结构,这些残差块可以根据不同的需求和网络深度进行调整。例如,ResNet-18、ResNet-34、ResNet-50等变体在网络深度和复杂度之间做了平衡,适用于不同的应用场景。此外,ResNet网络还采用了批量归一化(Batch Normalization)等技术来加速训练过程并提高模型性能。
在这里插入图片描述
在这里插入图片描述
这里我们为大家展示ResNet-18的网络结构,并具体介绍对应的内容。如下:

  • 第一步,残差网络需要的image大小固定为224x224,使用第一步就是确保我们传入的数据大小为224x224,如果不符合,可能会导致后续训练出现问题,所以这里我们可能需要运用数据增强来处理数据。
  • 第二步,我们进入卷积层,一个64x7x7的卷积层,其步长为2、边缘填充为3。该卷积层通常使用较大的卷积核和步长,以快速减小特征图的尺寸,比如这里就将特征图的尺寸减小一倍变成64x112x112。
  • 第三步,进行了最大池化操作,用于进一步减小特征图的尺寸并增加感受野,这里将特征图减小至64x56x56。
  • 第四步,我们进入第一个残差块,内部包含两个卷积层和一个残差连接。第一个卷积层使用3x3的卷积核,步长为1,边缘填充为1,输出通道数与输入相同为64x56x56。该卷积层后通常跟着批量归一化(Batch Normalization)和ReLU激活函数。第二个同样使用3x3的卷积核,步长为1,边缘填充为1。该卷积层后也进行批量归一化和ReLU激活。将两个卷积的结果输出后与shortcut路径的输出相加,这里两者的尺寸匹配,不需要对输入特征图进行操作。下面再一次进行上序残差块的操作,得出结果再次相加。
  • 第五步,这里进入到新一步的残差块,这里第一个卷积层我们将通道数进行加倍操作,由原来的64变成128,同时更改步长为2,使输出结果变成128x28x28,然后同样进行批量归一化(Batch Normalization)和ReLU激活函数。第二个卷积层进行基本一致的操作,只需要将步长更改为1即可,最后我们将输出结果与shortcut路径的输出相加,这里因为我们更改了输出通道与步长,导致两者的尺寸或通道数不匹配,所以我们需要对shortcut路径的输出进行1x1的卷积操作以调整其尺寸和通道数。然后相加并再次进行上序残差块操作。
  • 第六步,下面我们按照上序步骤对其进行同样的通道与步长更改,将其由128x28x28改至256x14x14,再把256x14x14改为512x7x7。并在每次更改通道与步长时,对shortcut路径的输出进行1x1的卷积操作,与输出结果相加即可。
  • 第七步,在经过8次残差块后,我们最终得到512x7x7的输出结果,对该结果进行平均池化,最后得到 FC为(512,1000)。这里最后的结果1000为ResNet_18的特征标签个数,具体运用时,我们应该更改为自己数据集的特征标签个数。可以通过下述方式更改,例如我们的数据集为20,我们可以获取ResNet_18的特征个数,然后创建一个新的全连接层,输入ResNet_18特征,然后再输入自己数据集的输出,即20。
    in_features = resnet_model.fc.in_features  
    resnet_model.fc = nn.Linear(in_features, 20)  
    

残差结构的引入使得训练很深的卷积神经网络成为可能,并在多个图像识别任务中取得了优异的性能。通过残差学习,网络可以更容易地学习到恒等映射,从而缓解深层网络训练中的梯度问题。

四、总结

本文主要通过迁移学习为大家引入ResNet网络,为大家介绍了残差网络的两个核心结构:批次归一化与残差结构,通过这两个核心结构解决梯度消失、爆炸和退化问题。其中着重介绍了残差结构的类型与ResNet_18的网络模型与具体操作。这些核心特点使得ResNet网络能够训练得更深且性能更强,在计算机视觉和深度学习领域得到了广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2168401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zabbix基本概念与组件

文章目录 一、zabbix简介二、​​​​​​​zabbix构成三、​​​​​​​zabbix监控对象四、​​​​​​​zabbix常用术语五、 Zabbix 6.0 新特性1.Zabbix server高可用防止硬件故障或计划维护期的停机2.Kubernetes系统从多个维度采集指标 六、zabbix 工作原理1、主动模式2、…

操作配置笔记

一、检查: 1.查看当前配置 display current-configuration 2.查看路由表 display ip routing-table 3.查看当前配置情况 display this 4.查看当前设备版本 display version 5.查看接口 display interface display ip interface 6.查看保存的当前配置 display sav…

openinstall鸿蒙SDK再升级,功能全面支持HarmonyOS NEXT

万众期待的鸿蒙操作系统HarmonyOS NEXT即将发布,国产自主的全场景智能操作系统诞生,将为生态伙伴共创共享创造新蓝海,鸿蒙生态的加速构建,也有望催生出互联网生态的第三极。 作为首批鸿蒙生态伙伴,openinstall在App渠…

AR 眼镜之-蓝牙电话-来电铃声与系统音效

目录 📂 前言 AR 眼镜系统版本 蓝牙电话 来电铃声 系统音效 1. 🔱 Android9 原生的来电铃声,走的哪个通道? 2. 💠 Android9 原生的来电铃声,使用什么播放? 2.1 来电铃声创建准备 2.2 来…

C语言指针系列2——加深理解

大家,今天讲的知识点是一块儿一块儿的,所以大家要好好学习喔~ 话不多说,开始正题 关键字:const (三种用法) 1. int* const p; 2. int const* p; 3. const int* const p; 首先我们要了解一下const&#xff…

828华为云征文|使用Flexus X实例安装宝塔面板教学

目录 一、Flexus X实例简介 1.1 概述 1.2 产品规格 二、切换操作系统 2.1 Huawei Cloud EulerOS 2.0 标准版 2.2 切换镜像 三、部署宝塔面板 3.1 安装宝塔面板 3.2 放通安全组规则 3.3 登录宝塔面板 四、使用感受 4.1 柔性算力随心配 4.2 一直加速一直快 4.3 越用…

C++之分割字符串的两种方式

方式一 #include <string> #include <vector> #include <sstream> #include <iostream>std::vector<std::string> split(const std::string& str, char delim) {std::stringstream ss(str);std::string item;std::vector<std::string>…

防火墙-CentOS7-firewalld

文章目录 一、防火墙以及Linux防火墙服务介绍什么是防火墙&#xff0c;有什么用防火墙的结构防火墙的作用为什么需要防火墙防火墙何时需要开启防火墙何时可以关闭名词什么是入站&#xff1f;出站 Linux防火墙发展历程1. 初期阶段2. iptables的出现3. 发展与扩展4. nftables的引…

Codeforces Round 592 (Div. 2) C题 The Football Season(Exgcd)

题目链接 https://codeforces.com/problemset/problem/1244/C 思路 其实就是要求 a x b y c axbyc axbyc的一组 x y xy xy的最小整数解。因为题目保证了 a > b a>b a>b&#xff0c;所以只需要使得 y y y最小即可。 我们对 a x b y c axbyc axbyc推导得到&…

jmeter断言---响应断言

请求http://www.baidu.com 检查&#xff1a;让程序检查响应数据中是否包含“百度一下&#xff0c;你就知道” 操作步骤&#xff1a; 1.添加线程组 2.添加http请求 3.添加断言&#xff08;需要在http请求下添加断言&#xff0c;而且可以根据断言测试字段等信息新建不同的断…

黑盒测试与白盒测试总结

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 黑盒测试与白盒测试是软件测试中两种不同的测试方法&#xff0c;它们的主要区别在于测试者对被测试软件的了解程度。下面&#xff0c;我们将详细介绍这两种测试方…

Windows大幅提高内存使用率,大幅减少内存占用率

事情原因&#xff1a;在笔记本16G内存使用生产力工具不够用的情况下&#xff0c;我把内存条加到了32G&#xff0c;开始的时候是好的&#xff0c;后来打开个IDEA&#xff0c;居然占用了80%的内存&#xff0c;其实IDEA也就占了4G内存&#xff0c;后经过查阅资料后得出了解决办法……

Fabric V2.5 通用溯源系统——使用Hyperledger Caliper压力测试

Hyperledger Caliper 0.6.0 是一款测试区块链性能的工具,支持Hyperledger Fabric、Ethereum等,支持丰富的测试配置参数,测试完成后将直接输出报告,相较于tape更加专业,但是配置稍微有些复杂。本文将一步一步配置Caliper以测试Fabric V2.5 通用溯源系统中的注册用户、查询用…

Java语法-类和对象之继承与多态(中)

1. 继承 为什么要继承? 从生物学角度来说,继承就是把父辈的基因遗传给子代,然后子代再在细胞分裂的途中产生变异,生成比父辈更加适应环境的物种.其中很重要的就是继承给子代的基因(父类的方法和属性)和子代在父辈的基础上产生的变异(方法的重写). 比如猫和狗都是哺乳动物,是在…

刷题小记3----每日一题精进Java技能(详细思路解析✅)

文章目录 一、两种排序方法二、最小公倍数三、另类加法四、倒置字符串五、统计回文 一、两种排序方法 题目链接&#xff1a;两种排序方法 题目描述&#xff1a; 考拉有n个字符串字符串&#xff0c;任意两个字符串长度都是不同的。考拉最近学习到有两种字符串的排序方法&#x…

相亲交友系统软件大比拼

在当今社会&#xff0c;相亲交友系统已成为许多单身人士寻找理想伴侣的重要途径之一。随着技术的发展&#xff0c;各种相亲交友软件层出不穷&#xff0c;它们各自拥有独特的特色和服务模式。今天&#xff0c;我们将对几款热门的相亲交友系统软件进行一番大比拼&#xff0c;看看…

技术成神之路:设计模式(十六)代理模式

介绍 代理模式&#xff08;Proxy Pattern&#xff09;是一种结构性设计模式&#xff0c;它通过代理对象来控制对另一个对象的访问。代理对象在功能上与真实对象相似&#xff0c;但可以在访问真实对象前后添加一些额外的处理。代理模式常用于控制对某个对象的访问、延迟实例化、…

【隐私计算篇】利用多方安全计算MPC实现VGG16人脸识别隐私推理

1. 背景介绍 本文主要介绍一种利用多方安全计算MPC技术&#xff0c;实现VGG16的人脸识别模型&#xff0c;侧重于模型推理阶段&#xff0c;目前已经公开专利&#xff0c;因此以下内容的分享都是基于公开材料。该分享涉及到最小化多方安全计算(MPC)以及明密文混合计算的思想&…

【Python报错已解决】TypeError: tuple indices must be integers or slices, not str

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 专栏介绍 在软件开发和日常使用中&#xff0c;BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

??实验——完全使用Ansible部署多台服务器的服务

文章目录 需求两台Web服务器部署同一Web应用WeCenter&#xff0c;且两台服务器的用户上传的数据目录挂载到共享存储服务器中&#xff0c;总数据保存在一台数据库服务器中使用sersync简单实现两台共享存储服务器之间的Web应用共享数据目录的数据同步每天定时将两台Web服务器的We…