画图不易,有用就点个赞
这里创建了一个随机张量,形状为 (4, 3, 4, 4),分别对应
形状为 (batch_size, num_channels, height, width)
batch_size:批次
num_channels: 通道(什么是通道看上一章节)
input_tensor = torch.randn(4, 3, 4, 4)
创建了个下面这样子的东西
计算归一化是需要参考值的,因为需要知道最大值最小值,已经参与计算的数量,参考值来自于哪里呢,如下
合并起来,可以看到 num_channels = 3,所以分别计算3次
计算均值和方差公式如下:
看不懂是不是,我也看不懂,举个简单的例子
假设一批数字为 [3, 7, 2, 9, 4]
均值
方差
然后进行归一化
计算完之后形状不会改变,只是值变了而已,上面新的数字组合起来均值接近0,方差接近1。其实认识这个计算过程意义不是很大,你就当在实际模型运算的时候,肯定会产生一些很大的值很小的值,假如生成的数据区间在[ 50,120 ],我们需要将这些值传入到激活函数里面,把 50 到120 传sigmoid激活函数里面,基本上都是0.9999…,数据之间根本没差异。
sigmoid函数,不进行归一化
sigmoid函数,归一化,将数字移动到激活函数有明显变化的区域,这就有差异了,充分发挥了激活函数的作用