【学习记录】锚框

主要解释程序代码，具体解析在代码中进行标注

锚框，具体看见网址https://zh-v2.d2l.ai/chapter_computer-vision/anchor.html#iou

对应程序解析：https://fkjkkll.github.io/2021/11/23/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8BSSD/#more

返回的锚框变量 Y 的形状

访问以 (250, 250) 为中心的第一个锚框

显示以图像中一个像素为中心的所有锚框

交并比(IoU)

将真实边界框分配给锚框

标记锚框的类和偏移量

在图像中绘制这些地面真相边界框和锚框

根据狗和猫的真实边界框，标注这些锚框的分类和偏移量

应用逆偏移变换来返回预测的边界框坐标

以下 nms 函数按降序对置信度进行排序并返回其索引

将非极大值抑制应用于预测边界框

将上述算法应用到一个带有四个锚框的具体示例中

在图像上绘制这些预测边界框和置信度

返回结果的形状是（批量大小，锚框的数量，6）

输出由非极大值抑制保存的最终预测边界框

%matplotlib inline
import torch
from d2l import torch as d2l

torch.set_printoptions(2)  # 输出数值保存小数点后两位
'''
torch.set_printoptions 还有许多其他可用选项，下面是一些常见的参数：

precision: 设置小数点后的位数。
threshold: 总共显示的元素数量阈值。如果元素数量超过这个阈值，将使用省略号表示部分内容。
edgeitems: 当张量元素数量超过 threshold 时，显示张量两端的元素数量。
linewidth: 每行显示的字符数。
sci_mode: 是否使用科学记数法显示数字。
'''

# 函数参数：输入图像、尺寸列表和宽高比列表
def multibox_prior(data, sizes, ratios): 
    '''
    s 指的是长宽的缩放比例而非面积的缩放比例，比如 s=0.5，则面积就是原图像的 0.5^2=0.25 倍。
    r 是宽高比，指的是将原图像归一化为正方形后截取的锚框的宽高比；
    或者说是在原图像的宽高比基础上乘以 r，才是锚框的宽高比。
    '''
    '''生成以每个像素为中心具有不同形状的锚框'''
    in_height, in_width = data.shape[-2:]
    device, num_sizes, num_ratios = data.device, len(sizes), len(ratios)
    boxes_per_pixel = (num_sizes + num_ratios - 1)
    size_tensor = torch.tensor(sizes, device=device)
    ratio_tensor = torch.tensor(ratios, device=device)
    
    # 为空将锚点移动到像素中心，需要设置偏移量
    # 因为一个像素的高为1且宽为1， 我们选择偏移我们的中心0.5
    offset_h, offset_w = 0.5, 0.5
    steps_h = 1.0 / in_height  # 在y轴缩放步长
    steps_w = 1.0 / in_width  # 在x轴缩放步长
    
    # 生成锚框的所有中心点
    center_h = (torch.arange(in_height, device=device) + offset_h) * steps_h
    center_w = (torch.arange(in_width, device=device) + offset_w) * steps_w
    shift_y, shift_x = torch.meshgrid(center_h, center_w, indexing='ij')
    shift_y, shift_x = shift_y.reshape(-1), shift_x.reshape(-1)
    
    # 生成“boxes_per_pixel”个高和宽，
    # 之后用于创建锚框的四角坐标(xmin,xmax,ymin,ymax)
    w = torch.cat((size_tensor * torch.sqrt(ratio_tensor[0]),
                   sizes[0] * torch.sqrt(ratio_tensor[1:]))) * in_height / in_width
    h = torch.cat((size_tensor / torch.sqrt(ratio_tensor[0]),
                  sizes[0] / torch.sqrt(ratio_tensor[1:])))
    # 除以2来获得半高和半宽， 生成了每个锚框相对于中心点的偏移量，并将这些偏移量应用于图像的每个像素位置
    anchor_manipulations = torch.stack((-w, -h, w, h)).T.repeat(in_height * in_width, 1) / 2
    '''
    0维上复制in_height * in_width次, 1维上复制1次, 即保持原样
    torch.stack((-w, -h, w, h)) 的输出形状为 (4, num_anchors)。
    转置操作 .T 将张量的形状变为 (num_anchors, 4)，其中每一行代表一个锚框的四个坐标偏移量 (xmin, ymin, xmax, ymax)。
    .repeat(in_height * in_width, 1) 将每个锚框的偏移量重复 in_height * in_width 次。
    in_height * in_width 是图像中的像素总数，因此这一步骤的作用是为图像中的每个像素生成所有锚框的偏移量。
    重复后的张量形状为 (in_height * in_width * num_anchors, 4)，其中每 num_anchors 行对应图像的一个像素位置。
    '''
    
    # 每个中心点都将有“boxes_per_pixel”个锚框，
    # 所以生成含所有锚框中心的网格，重复了“boxes_per_pixel”次
    out_grid = torch.stack([shift_x, shift_y, shift_x, shift_y],
                dim=1).repeat_interleave(boxes_per_pixel, dim=0)
    '''
    repeat_interleave(repeats, dim=None)
    repeates: 重复次数
    dim: 在某个维度上重复

    repeat与repeat_interleave的区别:
    repeat_interleave(): 在原有的tensor上, 按每一个tensor复制。
    repeat(): 根据原有的tensor复制n个, 然后拼接在一起
    '''
    output = out_grid + anchor_manipulations
    # 对于每个像素增加其对应的偏移量，获得每个像素点对应的所有锚框的位置
    return output.unsqueeze(0)