5.11组会衍生总结:train/eval/BN、CNN与特征图、极大似然与EM、方差n与n-1(有偏估计/无偏估计)

news2025/3/1 10:21:41

目录

  • 组会问题:
  • 1.关于模型的train/eval与batchnorm
    • 1-1.理论
    • 1-2.实际运用(包含loss反向传播)
  • 2.CNN详解,特征图是什么
    • CNN处理过程
    • 特征图(也叫通道)(num_features)
    • 总结(包含CNN图片的规律分析):
  • 3.极大似然估计与EM最大期望
  • 4.方差的n与n-1(有偏估计与无偏估计)

组会问题:

  1. gan在训练g时要固定d吗:不用,optim中指定的有参数,先计算g和d分别的loss,再通过↓分别对g和d进行训练
opt.zero_grad()
loss.backward()
opt.step()
  1. 什么是对比学习
  2. bert、blip
  3. 不同网络的encoder和decoder
  4. retrieval
  5. bn做了什么,数据发生了什么变化,激励函数包括什么,scale和shift是什么,数据发生了什么变化,对多维数据如何bn:下文有说,其中bn的处理单位是通道
  6. 特征图是什么,ground truth是什么:特征图=通道,在下文讲了; ground truth是real的东西,应该是现实中已经有的例子,在pix2pixHD和dance论文中都有说,可能一般用于图片生成/风格迁移的GAN网络?
  7. (衍生问题)map是什么: feature map指每一层网络的通道;pix2pixHD中的semantic label maps是指下图
    在这里插入图片描述

1.关于模型的train/eval与batchnorm

1-1.理论

model.train()

  • 启用 BatchNormalization 和 Dropout

model.eval()

  • 不启用 BatchNormalization 和 Dropout.
  • 框架会自动把 BN 和 DropOut 固定住,不会取平均,而是用训练好的值,不然的话,一旦test的batch_size过小,很容易就会被BN层导致生成图片颜色失真极大!
  • 如果不加model.eval(),有输入数据,即使不训练,它也会改变权值。这是model中含有batch normalization层所带来的的性质(虽然看源码没看出来)。

BN详解

  • BN是将每个通道进行标准化(变为标准正态分布),单位为一个batch批次的一个通道,例如若数据大小为(batch, C, W, H)则求平均后的大小为©;然后可以进行affine,即对标准化的数据进行* weight和+ bias。参考与代码:深入理解Pytorch的BatchNorm操作(含部分源码)
  • 为什么要进行BN:BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,经过BN后,大部分Activation的值落入非线性激励函数(如tanh)的线性区内,其对应的导数远离导数饱和区,这样来加速训练收敛过程。参考:整理学习之Batch Normalization(批标准化)
  • 为什么有scale和shift操作(对应* weight和+ bias):BN使得数据集中分布在了激活函数的线性部分,需要再用一个反操作来在一定程度下抵消这个线性化。参考:整理学习之Batch Normalization(批标准化)

1-2.实际运用(包含loss反向传播)

模型进行train的步骤(以毕设中face_enhance为例):

  • model.train()将BN和droupout激活,好像不一定要用,而且模型中不一定有BN
  • 设置G和D的optim,包含了训练的参数,分别为G和D的参数
  • model计算各种loss,并将loss分为G和D的loss
  • 对G训练
g_opt.zero_grad()
gen_loss.backward()
g_opt.step()
  • 对D训练和上面一样

模型进行eval的步骤

  • model.eval(),好像不一定要用
  • torch.no_grad()
  • 没咋看了

2.CNN详解,特征图是什么

CNN处理过程

  • 输入为7×7×3(意思是(7×7)×3),最后一维3表示图像颜色通道
  • Filter为3×3×3(意思是(3×3)×3),那么这里的卷积核大小为3×3
  • 需要注意的是输入的最后一维(3)要和Filter的最后一维(3)保持一致
  • 计算方式为: 每一个对应位置相乘,最终结果相加,最后不要忘记加上偏置项
  • 所以,如果前面层特征图数量为3,则每个卷积有3层,即大小为(n*n)*3
    在这里插入图片描述
    上图来源

特征图(也叫通道)(num_features)

  • 每个层中矩阵(n*n)的个数
  • 比如图上输入有3个特征图,由于有2个filter所以输出为2个特征图
  • 所以有多少filter就有多少特征图,比如以下VGG网络
    在这里插入图片描述
    上图来源

总结(包含CNN图片的规律分析):

  • 特征图即为通道,特征图数 = 通道数 = 每一层矩阵数 = 前一层filter数,特征图数一般写在每层输出大小的第3维(如上vgg图左 224 * 224 * 64),写在convx-的后面(如图上vgg图右conv3-64),写在 @的前面(如图下8@28*28)在这里插入图片描述
    上图来源
  • 一般图中,写的都是输出的维度,而不是filter(如vgg图左224 * 224 * 64),有可能写在开头(如上图6@28*28);一般表中,写的都是filter(如vgg图右conv3-64)。这可能是因为,图是具体例子,而表是网络结构
  • pool层如果没有参数则不算在总层数内(如vgg-16中不算pool)而conv和fc有可训练参数所以算在层数内(如vgg-16中仅conv+fc有16层)
  • 一个filter的参数数 = 输入/前一层特征图数 * 一个filter的大小(即n*n)+ 1个bias = 输入特征数 * (n * n) + 1;一层conv的所有filter的参数总数 = 一个filter的参数数 * 该层总filter数

3.极大似然估计与EM最大期望

  • 极大似然估计是已知数据和数据分布模型,求模型参数使模型最可能出现已有结果的问题。对于不同问题使用的求参数方法不同,比如对于参数少的,只有p的模型,可以直接求导;参数多的显然不能直接求导,还有EM最大期望等方法。
  • EM是迭代使用极大似然估计的方法,比如求混合高斯模型的参数时,看参考链接的方法

4.方差的n与n-1(有偏估计与无偏估计)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/515097.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业文化和品牌文化是两回事

商业通常谈两类文化:企业文化,品牌文化 1)组织内部的文化 2)品牌以产品为依托,给消费群体营造的文化 “积极稳定”的文化氛围打造是个慢活 企业文化,既要挂在墙上,又要挂在嘴上,最终…

二叉查找树和平衡二叉树

二叉查找树 下面是一张数据库的表,有两列,分别是 Col1 和 Col2 我们来查找一下col289的这行数据,SQL语句如下: select * from a where col2 87没有用索引时执行上面的查询 , 数据从磁盘一条一条拿来对比最终找到结果,如果数据表很大,数据又在表尾的话,需要花费非…

Open3D点云数据处理(一):VSCode配置python,并安装open3d教程

文章目录 1 python下载与安装1.1 python下载1.2 python安装1.3 验证python是否安装成功 2 VSCode下载与安装2.1 下载2.2 安装2.3 安装汉化插件2.4 vscode安装python扩展2.5 编写一个简单的python程序并运行2.6 在外部终端中打印运行结果2.7 测试代码:使用python画一…

常用的网页设计工具,有哪些比较推荐

网页设计并不容易,易于使用的网页设计工具更难找到。随着网络的快速发展,网站迅速崛起,网页设计也很流行。本文收集了7款易于使用的网页设计工具,每一种近年来都受到网页设计师的广泛欢迎,以确保实用和易于使用。我希望…

背包九讲(dp问题详解)

一、01背包问题 首先了解一下题目: 有 N 件物品和一个容量是 V 的背包。每件物品只能使用一次。 第 i 件物品的体积是 vi,价值是 wi。 求解将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且总价值最大。 输出最大价值。…

Java中的抽象类介绍

Java中的抽象类介绍 抽象类可以包含普通类的成员,它可以包含普通的属性、方法和内部类等成员。这些成员既可以被抽象类的子类继承和使用,也可以被抽象类自身使用。抽象类中的非抽象方法必须要有具体实现,否则无法通过编译。抽象类中也可以拥…

Leetcode2379. 得到 K 个黑块的最少涂色次数

Every day a Leetcode 题目来源:2379. 得到 K 个黑块的最少涂色次数 解法1:滑动窗口 首先题目给出一个下标从 0 开始长度为 n 的字符串 blocks,其中 blocks[i] 是 ‘W’ 或者 ‘B’ ,分别表示白色块要么是黑色块。 现在我们可…

抗体偶联药物都有哪些?(详细名单)

抗体偶联药物ADC简介 抗体-药物偶联物或ADC是一类生物制药药物,设计用于治疗癌症的靶向疗法。与化学疗法不同,ADC 旨在靶向并杀死肿瘤细胞,同时保留健康细胞。截至 2023 年5月,约有 433 家制药公司正在开发 ADC。 ADC 是由与具有…

SPI基础

SPI硬件接口 SPI协议使用3条总线以及片选线。3条总线分别是SCK、MOSI、MISO,片选线为SS(NSS、CS) SPI基础属性 主从模式:主机模式,从机模式 通讯频率:不定,根据设备速率确定 数据位数:4位、7位&#xff…

基于狮群算法优化的核极限学习机(KELM)分类算法-附代码

基于狮群算法优化的核极限学习机(KELM)分类算法 文章目录 基于狮群算法优化的核极限学习机(KELM)分类算法1.KELM理论基础2.分类问题3.基于狮群算法优化的KELM4.测试结果5.Matlab代码 摘要:本文利用狮群算法对核极限学习机(KELM)进行优化,并用于分类 1.KE…

【华为机试】——每日刷题经验分享

【华为机试】——每日刷题经验分享😎 前言🙌题目:HJ9 提取不重复的整数 总结撒花💞 😎博客昵称:博客小梦 😊最喜欢的座右铭:全神贯注的上吧!!! &a…

被ChatGPT“抢饭碗”的人

ChatGPT问世至今,互联上讨论声绵延不绝。有人说,AI会替代基础性工作。 一名金融从业者对《橡果商业评论》表示,这实际上是对人类经验的替代,那些引以为傲的经验,来源于对历史的总结,AI出现后,“…

【C++STL】红黑树(更新中)

前言 上篇博客学习了平衡二叉搜索树(AVLTree),了解到AVL树的性质,二叉搜索树因为其独特的结构,查找、插入和删除在平均和最坏情况下都是O(logn)。AVL树的效率就是高在这个地方。 但是在AVL树中插入或者删除结点,使得高度差的绝对…

【GO 编程语言】数组

数组 文章目录 数组一、数组是什么二、初始化数组三、数组的遍历四、数组类型五、数组排序 一、数组是什么 Go 语言提供了数组类型的 数据结构。 数组是具有相同唯一类型的一组已编号且长度固定的数据项序列,这种类型可以是任意的原始类型。例如整型、字符串或者自定义类型。 …

HTTP第八讲——请求方法

目前 HTTP/1.1 规定了八种方法,单词都必须是大写的形式 GET:获取资源,可以理解为读取或者下载数据;HEAD:获取资源的元信息;POST:向资源提交数据,相当于写入或上传数据;P…

echarts 如何保存为图片时,如何同时保存滚动条隐藏的数据

echarts 如何保存为图片&#xff0c;如何保存滚动条隐藏的数据 效果展示上代码内容讲解面临的问题解决思路&#xff08;当前代码的思路&#xff09; 效果展示 这是直接将保存的图片显示在网页下方了 上代码 <!DOCTYPE html> <html><head><meta charse…

【2023/05/11】Edsger Dijkstra

Hello&#xff01;大家好&#xff0c;我是霜淮子&#xff0c;2023倒计时第6天。 Share Sorrow is hushed into peace in my heart like the evening among thr silent trees. 译文&#xff1a; 忧思在我的心里平静下去&#xff0c;正如暮色降临在寂静的山林中。 Some unsee…

【报告回顾】精、稳、敏、融,步入人民金融时代

易观分析&#xff1a;2022年&#xff0c;在深化金融供给侧结构性改革和高质量增长要求的指引下&#xff0c;赋能实体、公平普惠、审慎经营成为银行业转型发展的关键词。一方面面临内外部复杂的经济环境和不确定性风险&#xff0c;银行主打稳健策略&#xff0c;数字化转型仍在持…

Redis的伪集群搭建与配置

文章目录 Redis主从集群模式搭建过程分级管理容灾冷处理 Redis主从集群模式 Redis 的主从集群是一个“一主多从”的读写分离集群。集群中的 Master 节点负责处理客户端的读写请求&#xff0c;而 Slave 节点仅能处理客户端的读请求。只所以要将集群搭建为读写分离模式&#xff…

5.最长回文子串——Manacher(马拉车)算法

给你一个字符串 s&#xff0c;找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同&#xff0c;则该字符串称为回文字符串。 示例 1&#xff1a; 输入&#xff1a;s "babad" 输出&#xff1a;"bab" 解释&#xff1a;"aba" 同样是符合…