当你打印detect层的三个特征层时,发现有三种不同的长和宽,如下图所示:
我提出三个问题:
为什么不一样呢,输入有什么含义吗?
为什么网络初始化四次(forward)?
下面来逐个击破
1. torch.Size([1, 3, 32, 32, 8]) (这个数据为detect层输出的最大宽度特征层)
第一层调用:train.py
model = Model(cfg or ckpt["model"].yaml, ch=3, nc=nc, anchors=hyp.get("anchors")).to(device) # create
第二层调用:
在yolo/DetectionModel里面定义的,是一个固定的输入,为[1,3,256,256]卷积完之后就如上。
使用256这个参数主要是因为①最大stride的倍数(8,16 ,32,64…),②这个数降采样之后的值真好,不会造成资源的浪费。
主要是用来网络初始化的,创建网络的
if isinstance(m, (Detect, Segment)):
s = 256 # 2x min stride 256
m.inplace = self.inplace
car_detect=[0,0,0,0]
forward = lambda x: self.forward(x)[0] if isinstance(m, Segment) else self.forward(x)
_,rs=forward(torch.zeros(1, ch, s, s)) #forward
m.stride = torch.tensor([s / x.shape[-2] for x in rs[0]]) # forward torch.Size([1, 3, 32, 32, 8])
# if m.stride==torch.tensor([]):
# m.stride = torch.tensor([8, 16, 32])
check_anchor_order(m)
m.anchors /= m.stride.view(-1, 1, 1)
self.stride = m.stride
self._initialize_biases() # only run once
2. torch.Size([1, 3, 4, 4, 8])
第一层调用:train.py
model = Model(cfg or ckpt["model"].yaml, ch=3, nc=nc, anchors=hyp.get("anchors")).to(device) # create
第二层:
还是在yolo/DetectionModel里面实现的。
# Init weights, biases
initialize_weights(self)
self.info() # 第二遍 计算层数,参数,梯度等 YOLOv5s summary: 245 layers, 8091510 parameters, 8091510 gradients, 16.8 GFLOPs
LOGGER.info("")
主要是self.info()这个函数。
其中im是输入,是[1,3,32,32]卷积出来第一个卷积层也是上面的。
为什么是32呢,这个是因为①是最大stride,降采样使能成功 ②为什么不使用其他32的倍数,因为这个是最小计算量,确保网络能够正确处理图像的前提。
主要是来计算网络的参数的,如层数,参数,计算量等。
这个flops计算量是这个模型的最快执行时间。
p = next(model.parameters()) # 获取第一个模型的参数:32,3,6,6
stride = max(int(model.stride.max()), 32) if hasattr(model, "stride") else 32 # max stride 压缩程度
# torch.empty创建任意数据类型的张量 torch.tensor() 只创建torch.FloatTensor类型的张量
# 使用32是因为①是最大stride,降采样使能成功 ②为什么不使用其他32的倍数,因为这个是最小计算量,确保网络能够正确处理图像的前提
im = torch.empty((1, p.shape[1], stride, stride), device=p.device) # input image in BCHW format
# 浮点运算次数,可以用来衡量算法/模型复杂度 1GFLOPs = 10^9 FLOPs
# 计算量(时间复杂度,flops) 与输入参数有关系 网络执行时间的长短
# 参数量(空间复杂度,params)占用显存的大小 只与网络有关系
# 这个地方除以2 是因为加法(偏置)可能没有算进去,所以初一二让他接近真实值,flops值越大越好
flops = thop.profile(deepcopy(model), inputs=(im,), verbose=False)[0] / 1e9 * 2 # stride GFLOPs thop.profile计算flops,verbose是日志显示
imgsz = imgsz if isinstance(imgsz, list) else [imgsz, imgsz] # expand if int/float
fs = f", {flops * imgsz[0] / stride * imgsz[1] / stride:.1f} GFLOPs" # 640x640 GFLOPs 计算真实图片的flops,使用最大stride就是为了简化计算,作为一个标准,
3. torch.Size([1, 3, 80, 60, 8])
第一步调用:
是在train中调用的,想要统计是否使用AMP(自动混合精度)
amp = check_amp(model) # check AMP 第三次 计算是否使用amp自动混合精度(torch16和torch32)
第二步调用:
下面会调用Autoshape,im就是引用的data/imges/bus.jpg的一张yolo自带的图,进行初始化的。im进行resize后的shape是[1,3,640,480]。
主要是想用一张图片,然后用两种方式FP32 inference和AMP inference进行推理,然后计算相似度,大于阈值,就是用AMP。
为什么使用AutoShape类,首先这个对输入包容性很大,无论是file还是uri或者numpy,torch等其他类型都可以进行统一预测,输出结果。
n, ims = (len(ims), list(ims)) if isinstance(ims, (list, tuple)) else (1, [ims]) # number, list of images
shape0, shape1, files = [], [], [] # image and inference shapes, filenames
for i, im in enumerate(ims):
f = f"image{i}" # filename
if isinstance(im, (str, Path)): # filename or uri
im, f = Image.open(requests.get(im, stream=True).raw if str(im).startswith("http") else im), im
im = np.asarray(exif_transpose(im))
elif isinstance(im, Image.Image): # PIL Image
im, f = np.asarray(exif_transpose(im)), getattr(im, "filename", f) or f
files.append(Path(f).with_suffix(".jpg").name)
if im.shape[0] < 5: # image in CHW
im = im.transpose((1, 2, 0)) # reverse dataloader .transpose(2, 0, 1)
im = im[..., :3] if im.ndim == 3 else cv2.cvtColor(im, cv2.COLOR_GRAY2BGR) # enforce 3ch input
s = im.shape[:2] # HWC
shape0.append(s) # image shape
g = max(size) / max(s) # gain
shape1.append([int(y * g) for y in s])
ims[i] = im if im.data.contiguous else np.ascontiguousarray(im) # update
shape1 = [make_divisible(x, self.stride) for x in np.array(shape1).max(0)] # inf shape 640,480
x = [letterbox(im, shape1, auto=False)[0] for im in ims] # pad
x = np.ascontiguousarray(np.array(x).transpose((0, 3, 1, 2))) # stack and BHWC to BCHW
x = torch.from_numpy(x).to(p.device).type_as(p) / 255 # uint8 to fp16/32
with amp.autocast(autocast):
# Inference
with dt[1]:
y = self.model(x, augment=augment) # forward
总结
第几次调用forward | 输入尺寸 | 作用 |
---|---|---|
第一次调用 | torch.Size([1, 3, 256, 256]) | 主要用于创建网络,计算stride的值 |
第二次调用 | torch.Size([1, 3,32, 32 ]) | 主要用于计算网络参数的,如层数,参数,计算量等 |
第三次调用 | torch.Size([1, 3, 640, 480]) | 主要是确认是否使用amp |
注:此处的数据建立在stride的最大值为32的
专栏指路:
YOLOv5评价指标:yolov5 评价指标_yolov5评价指标-CSDN博客
YOLOv5网络结构:yolov5 网络结构_yolov5头部网络-CSDN博客
YOLOv5主要流程:yolov5 主要流程_yolov5网络流程-CSDN博客