锚框
目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边界从而更准确地预测目标的真实边界框(ground-truth bounding box)。 不同的模型使用的区域采样方法可能不同。 这里我们介绍其中的一种方法:以每个像素为中心,生成多个缩放比和宽高比(aspect ratio)不同的边界框。 这些边界框被称为锚框(anchor box)。
文章目录
- 锚框
- 生成多个锚框
- 理论
- 实现
- 生成锚框
- 展示锚框
- 交并比(IoU)
- 理论
- 实现
- 将真实边界框分配给锚框
- 理论
- 实现
- 标记类别和偏移量
- 理论
- 实现
- 举个例子
- 使用非极大值抑制预测边界框
生成多个锚框
理论
假设输入图像的高度为 h h h,0宽度为 w w w。 我们以图像的每个像素为中心生成不同形状的锚框:缩放比为 s ∈ ( 0 , 1 ] s\in(0,1] s∈(0,1],宽高比为 r > 0 r>0 r>0。 那么锚框的宽度和高度分别是 w s r ws \sqrt{r} wsr和 h s r hs\sqrt{r} hsr。 请注意,当中心位置给定时,已知宽和高的锚框是确定的。
要生成多个不同形状的锚框,让我们设置许多缩放比(scale)取值
s
1
,
.
.
.
,
s
n
s_1,...,s_n
s1,...,sn和许多宽高比(aspect ratio)取值
r
1
,
.
.
.
,
r
m
r_1,...,r_m
r1,...,rm。 当使用这些比例和长宽比的所有组合以每个像素为中心时,输入图像将总共有
h
w
n
m
hwnm
hwnm个锚框。 尽管这些锚框可能会覆盖所有真实边界框,但计算复杂性很容易过高。 在实践中,我们只考虑包含
s
1
s_1
s1或
r
1
r_1
r1的组合:
(
s
1
,
r
1
)
,
(
s
1
,
r
2
)
,
.
.
.
,
(
s
1
,
r
m
)
,
(
s
2
,
r
1
)
,
(
s
3
,
r
1
)
,
.
.
.
,
(
s
n
,
r
1
)
(s_1,r_1),(s_1,r_2),...,(s_1,r_m),(s_2,r_1),(s_3,r_1),...,(s_n,r_1)
(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...,(sn,r1)
也就是说,以同一像素为中心的锚框的数量是 n + m − 1 n+m-1 n+m−1。 对于整个输入图像,将共生成 w h ( n + m − 1 ) wh(n+m-1) wh(n+m−1)个锚框。
实现
生成锚框
#@save
def multibox_prior(data, sizes, ratios):
"""生成以每个像素为中心具有不同形状的锚框"""
in_height, in_width = data.shape[-2:]
device, num_sizes, num_ratios = data.device, len(sizes), len(ratios)
boxes_per_pixel = (num_sizes + num_ratios - 1)
size_tensor = torch.tensor(sizes, device=device)
ratio_tensor = torch.tensor(ratios, device=device)
# 为了将锚点移动到像素的中心,需要设置偏移量。
# 因为一个像素的高为1且宽为1,我们选择偏移我们的中心0.5
offset_h, offset_w = 0.5, 0.5
steps_h = 1.0 / in_height # 在y轴上缩放步长
steps_w = 1.0 / in_width # 在x轴上缩放步长
# 生成锚框的所有中心点
center_h = (torch.arange(in_height, device=device) + offset_h) * steps_h
center_w = (torch.arange(in_width, device=device) + offset_w) * steps_w
shift_y, shift_x = torch.meshgrid(center_h, center_w, indexing='ij')
shift_y, shift_x = shift_y.reshape(-1), shift_x.reshape(-1)
# 生成“boxes_per_pixel”个高和宽,
# 之后用于创建锚框的四角坐标(xmin,xmax,ymin,ymax)
w = torch.cat((size_tensor * torch.sqrt(ratio_tensor[0]),
sizes[0] * torch.sqrt(ratio_tensor[1:])))\
* in_height / in_width # 处理矩形输入
h = torch.cat((size_tensor / torch.sqrt(ratio_tensor[0]),
sizes[0] / torch.sqrt(ratio_tensor[1:])))
# 除以2来获得半高和半宽
anchor_manipulations = torch.stack((-w, -h, w, h)).T.repeat(
in_height * in_width, 1) / 2
# 每个中心点都将有“boxes_per_pixel”个锚框,
# 所以生成含所有锚框中心的网格,重复了“boxes_per_pixel”次
out_grid = torch.stack([shift_x, shift_y, shift_x, shift_y],
dim=1).repeat_interleave(boxes_per_pixel, dim=0)
output = out_grid + anchor_manipulations
return output.unsqueeze(0)
函数流程:
- 首先获取输入数据 data 的高度和宽度,以及设备类型 device、锚框数量 num_sizes 和长宽比数量 num_ratios。
- 计算每个像素点生成的锚框数量 boxes_per_pixel,其等于锚框数量加上长宽比数量减一。
- 定义 size_tensor 和 ratio_tensor 分别表示锚框的大小和长宽比。
- 定义偏移量 offset_h 和 offset_w,用于将锚框的中心点移动到像素的中心。因为一个像素的高为1且宽为1,所以选择偏移量为0.5。
- 计算在 y 轴和 x 轴上需要缩放的步长 steps_h 和 steps_w。
- 生成所有锚框中心点的坐标,其中 center_h 和 center_w 分别表示每个像素点的中心点的 y 坐标和 x 坐标。
- 计算每个锚框的宽度和高度。
- 将宽度和高度除以2,以得到半高和半宽。
- 生成包含所有锚框中心点的网格 out_grid,每个中心点都将有boxes_per_pixel 个锚框。
- 将所有锚框中心点的坐标和锚框的宽度和高度进行组合,得到最终生成的所有锚框的四个坐标(xmin、ymin、xmax、ymax)。
- 最后,将所有锚框的坐标张量的维度从 (num_boxes, 4) 转换为 (1, num_boxes, 4) 的形式,其中 num_boxes 表示锚框的数量。
展示锚框
#@save
def show_bboxes(axes, bboxes, labels=None, colors=None):
"""显示所有边界框"""
def _make_list(obj, default_values=None):
if obj is None:
obj = default_values
elif not isinstance(obj, (list, tuple)):
obj = [obj]
return obj
labels = _make_list(labels)
colors = _make_list(colors, ['b', 'g', 'r', 'm', 'c'])
for i, bbox in enumerate(bboxes):
color = colors[i % len(colors)]
rect = d2l.bbox_to_rect(bbox.detach().numpy(), color)
axes.add_patch(rect)
if labels and len(labels) > i:
text_color = 'k' if color == 'w' else 'w'
axes.text(rect.xy[0], rect.xy[1], labels[i],
va='center', ha='center', fontsize=9, color=text_color,
bbox=dict(facecolor=color, lw=0))
函数名为show_bboxes,输入参数为axes(图像坐标轴对象)、bboxes(边界框坐标)、labels(边界框标签,可选)、colors(边界框颜色,可选)。
_make_list 是一个内部函数,用于将参数转换为列表或元组。如果输入参数为 None,则使用默认值;如果参数不是列表或元组,则将其转换为单元素列表。
labels 和 colors 分别表示边界框标签和颜色,如果未指定,则默认使用 None 和颜色列表 [‘b’, ‘g’, ‘r’, ‘m’, ‘c’]。
遍历所有边界框,依次进行以下操作:
- 根据颜色列表选取颜色。
- 将边界框坐标转换为 Rectangle 对象,即矩形框。
- 在图像坐标轴对象上添加矩形框。
- 如果指定了边界框标签,则在矩形框中心添加文本标签。
其中,bbox_to_rect 是一个用于将边界框坐标转换为 Rectangle 对象的辅助函数。该函数返回 matplotlib.patches.Rectangle 对象,并设置其边框颜色和填充颜色。
d2l.set_figsize()
bbox_scale = torch.tensor((w, h, w, h))
fig = d2l.plt.imshow(img)
show_bboxes(fig.axes, boxes[250, 250, :, :] * bbox_scale,
['s=0.75, r=1', 's=0.5, r=1', 's=0.25, r=1', 's=0.75, r=2',
's=0.75, r=0.5'])
交并比(IoU)
理论
IoU(Intersection over Union,交并比),也被称为 Jaccard 系数,是一种用于衡量两个集合重叠程度的指标。在计算机视觉中,IoU 通常被用于评估目标检测和语义分割等任务中模型的性能。
具体地,假设有两个集合 A A A 和 B B B,其分别对应于两个边界框或两个图像分割结果。交集 A ∩ B A\cap B A∩B 表示两个集合的重叠部分,而并集 A ∪ B A\cup B A∪B 表示两个集合的全部部分。则交并比定义为:
I o U ( A , B ) = A ∩ B A ∪ B IoU(A,B)=\frac{A \cap B}{A \cup B} IoU(A,B)=A∪BA∩B
IoU 的取值范围为 [ 0 , 1 ] [0, 1] [0,1],其中 0 0 0 表示两个集合没有重叠部分, 1 1 1 表示两个集合完全一致。
在目标检测和语义分割等任务中,通常将 IoU 用作模型性能的评估指标。例如,在目标检测中,一个边界框被认为是正确的,当且仅当它与真实边界框的 IoU 大于某个阈值;在语义分割中,一个像素被认为是正确的,当且仅当它在预测结果和真实结果中都被标记为正类,并且它们的 IoU 大于某个阈值。
接下来部分将使用交并比来衡量锚框和真实边界框之间、以及不同锚框之间的相似度。 给定两个锚框或边界框的列表,以下box_iou函数将在这两个列表中计算它们成对的交并比。
实现
#@save
def box_iou(boxes1, boxes2):
"""计算两个锚框或边界框列表中成对的交并比"""
box_area = lambda boxes: ((boxes[:, 2] - boxes[:, 0]) *
(boxes[:, 3] - boxes[:, 1]))
# boxes1,boxes2,areas1,areas2的形状:
# boxes1:(boxes1的数量,4),
# boxes2:(boxes2的数量,4),
# areas1:(boxes1的数量,),
# areas2:(boxes2的数量,)
areas1 = box_area(boxes1)
areas2 = box_area(boxes2)
# inter_upperlefts,inter_lowerrights,inters的形状:
# (boxes1的数量,boxes2的数量,2)
inter_upperlefts = torch.max(boxes1[:, None, :2], boxes2[:, :2])
inter_lowerrights = torch.min(boxes1[:, None, 2:], boxes2[:, 2:])
inters = (inter_lowerrights - inter_upperlefts).clamp(min=0)
# inter_areasandunion_areas的形状:(boxes1的数量,boxes2的数量)
inter_areas = inters[:, :, 0] * inters[:, :, 1]
union_areas = areas1[:, None] + areas2 - inter_areas
return inter_areas / union_areas
函数名为 box_iou,输入参数为 boxes1(第一个边界框列表)和 boxes2(第二个边界框列表)。
函数内部定义了一个 box_area 函数,用于计算边界框的面积。该函数输入为边界框列表,返回一个行向量,表示每个边界框的面积。
计算边界框列表 boxes1 和 boxes2 中每个边界框的面积,分别保存在 areas1 和 areas2 中。
计算两个边界框的交集。对于每对边界框,首先计算它们的左上角和右下角点的坐标,并取它们的最大值和最小值,得到交集的左上角和右下角点的坐标。然后计算交集的宽度和高度,并使用 clamp 函数将其截断至非负值。最后计算交集的面积,保存在 inter_areas 中。
计算两个边界框的并集。对于每对边界框,将它们的面积相加,减去它们的交集面积,得到并集的面积,保存在 union_areas 中。
计算两个边界框的交并比,即将交集面积除以并集面积,得到一个矩阵,其中第 i i i 行第 j j j 列的元素表示第 i i i 个边界框和第 j j j 个边界框的交并比。
其中,torch.max 和 torch.min 函数用于计算两个张量的逐元素最大值和最小值,生成一个新的张量。clamp 函数用于截断张量中的元素,将小于指定值的元素替换为指定值,将大于指定值的元素替换为指定值。
将真实边界框分配给锚框
理论
当你获取到一系列锚框后,如何将真实边界框和锚框匹配起来呢?
对于给定图像,假设锚框是 A 1 , . . , A n a A_1,..,A_{n_a} A1,..,Ana,真实边界框是 B 1 , . . , B n b B_1,..,B_{n_b} B1,..,Bnb,其中 n a > n b n_a>n_b na>nb。 让我们定义一个矩阵 X ∈ R n a × n b X\in R^{n_a \times n_b} X∈Rna×nb,其中第 i i i行、第 j j j列的元素 x i j x_{ij} xij是锚框 A i A_i Ai和真实边界框 B j B_j Bj的IoU。 该算法包含以下步骤。
-
在矩阵 X X X中找到最大的元素,并将它的行索引和列索引分别表示为 i 1 i_1 i1和 j 1 j_1 j1。然后将真实边界框 B j 1 B_{j_1} Bj1分配给锚框 A i 1 A_{i_1} Ai1。这很直观,因为 A i 1 A_{i_1} Ai1和 B j 1 B_{j_1} Bj1是所有锚框和真实边界框配对中最相近的。在第一个分配完成后,丢弃矩阵中 i 1 i_1 i1行和 j 1 j_1 j1列中的所有元素。
-
在矩阵 X X X中找到剩余元素中最大的元素,并将它的行索引和列索引分别表示为 i 2 i_2 i2和 j 2 j_2 j2。我们将真实边界框 B j 2 B_{j_2} Bj2分配给锚框 A i 2 A_{i_2} Ai2,并丢弃矩阵中 i 2 i_2 i2行和 j 2 j_2 j2列中的所有元素。
-
此时,矩阵 X X X中两行和两列中的元素已被丢弃。我们继续,直到丢弃掉矩阵 X X X中 n b n_b nb列中的所有元素。此时已经为这 n b n_b nb个锚框各自分配了一个真实边界框。
-
只遍历剩下的 n a − n b n_a-n_b na−nb个锚框。例如,给定任何锚框 A i A_i Ai,在矩阵 X X X的第 i i i行中找到与 A i A_i Ai的IoU最大的真实边界框 B i B_i Bi,只有当此IoU大于预定义的阈值时,才将 B j B_j Bj分配给 A i A_i Ai。
下面用一个具体的例子来说明上述算法。 如左图所示,假设矩阵 X X X中的最大值为 x 23 x_{23} x23,我们将真实边界框 B 3 B_3 B3分配给锚框 A 2 A_2 A2。 然后,我们丢弃矩阵第2行和第3列中的所有元素,在剩余元素(阴影区域)中找到最大的 x 71 x_{71} x71,然后将真实边界框 B 1 B_1 B1分配给锚框 A 7 A_7 A7。 接下来,如中图所示,丢弃矩阵第7行和第1列中的所有元素,在剩余元素(阴影区域)中找到最大的 x 54 x_{54} x54,然后将真实边界框 B 4 B_4 B4分配给锚框 A 5 A_5 A5。最后,如右图所示,丢弃矩阵第5行和第4列中的所有元素,在剩余元素(阴影区域)中找到最大的 x 92 x_{92} x92,然后将真实边界框 B 2 B_2 B2分配给锚框 A 9 A_9 A9。 之后,我们只需要遍历剩余的锚框 A 1 , A 3 , A 4 , A 4 , A 6 , A 8 A_1,A_3,A_4,A_4,A_6,A_8 A1,A3,A4,A4,A6,A8,然后根据阈值确定是否为它们分配真实边界框。
实现
#@save
def assign_anchor_to_bbox(ground_truth, anchors, device, iou_threshold=0.5):
"""将最接近的真实边界框分配给锚框"""
num_anchors, num_gt_boxes = anchors.shape[0], ground_truth.shape[0]
# 位于第i行和第j列的元素x_ij是锚框i和真实边界框j的IoU
jaccard = box_iou(anchors, ground_truth)
# 对于每个锚框,分配的真实边界框的张量
anchors_bbox_map = torch.full((num_anchors,), -1, dtype=torch.long,
device=device)
# 根据阈值,决定是否分配真实边界框
max_ious, indices = torch.max(jaccard, dim=1)
anc_i = torch.nonzero(max_ious >= iou_threshold).reshape(-1)
box_j = indices[max_ious >= iou_threshold]
anchors_bbox_map[anc_i] = box_j
col_discard = torch.full((num_anchors,), -1)
row_discard = torch.full((num_gt_boxes,), -1)
for _ in range(num_gt_boxes):
max_idx = torch.argmax(jaccard)
box_idx = (max_idx % num_gt_boxes).long()
anc_idx = (max_idx / num_gt_boxes).long()
anchors_bbox_map[anc_idx] = box_idx
jaccard[:, box_idx] = col_discard
jaccard[anc_idx, :] = row_discard
return anchors_bbox_map
这段代码的作用是:
将最接近的真实边界框(ground truth boxes)分配给锚框(anchors)。它的步骤是:
-
计算锚框和真实边界框之间的IoU(交并比),结果存储在jaccard矩阵中。第i行和第j列的元素x_ij是锚框i和真实边界框j的IoU。
-
为每个锚框初始化一个默认值为-1的变量anchorsbboxmap,用于存储分配给它的真实边界框的索引。
-
根据IoU阈值(默认为0.5),决定是否将真实边界框分配给锚框。IoU大于阈值的锚框的索引存储在anci中,对应的真实边界框索引存储在boxj中。这些锚框的anchorsbboxmap中的值更新为对应的真实边界框索引。
-
然后开始贪心分配剩余的真实边界框。每次选取jaccard矩阵中IoU最大的元素,获取其锚框索引ancidx和真实边界框索引boxidx,并更新anchorsbboxmap和jaccard矩阵。
-
重复步骤4,直到所有真实边界框都分配给锚框,或剩余的真实边界框和锚框的IoU都小于阈值。
-
返回anchorsbboxmap,它存储了每个锚框对应的真实边界框的索引(若未分配则为-1)。
这个函数的目的是为每个锚框分配一个真实的边界框,这有助于锚框预测真实边界框的位置,从而提高目标检测的精度。
标记类别和偏移量
理论
现在我们可以为每个锚框标记类别和偏移量了。 假设一个锚框 A A A被分配了一个真实边界框 B B B。 一方面,锚框 A A A的类别将被标记为与 B B B相同。 另一方面,锚框 A A A的偏移量将根据 B B B和 A A A中心坐标的相对位置以及这两个框的相对大小进行标记。 鉴于数据集内不同的框的位置和大小不同,我们可以对那些相对位置和大小应用变换,使其获得分布更均匀且易于拟合的偏移量。 这里介绍一种常见的变换。 给定框 A A A和 B B B,中心坐标分别为 ( x a , y a ) (x_a,y_a) (xa,ya)和 ( x b , y b ) (x_b,y_b) (xb,yb),宽度分别为 w a w_a wa和 w b w_b wb,高度分别为 h a h_a ha和 h b h_b hb,可以将 A A A的偏移量标记为:
( x b − x a w a − μ x σ x , y b − y a w a − μ y σ y , l o g w b w a − μ w σ w , l o g h b h a − μ h σ h ) (\frac{\frac{x_b-x_a}{w_a}-\mu_x}{\sigma_x},\frac{\frac{y_b-y_a}{w_a}-\mu_y}{\sigma_y},\frac{log\frac{w_b}{w_a}-\mu_w}{\sigma_w},\frac{log\frac{h_b}{h_a}-\mu_h}{\sigma_h}) (σxwaxb−xa−μx,σywayb−ya−μy,σwlogwawb−μw,σhloghahb−μh)
其中常量的默认值为 μ x = μ y = μ w = μ h = 0 , σ x = σ y = 0.1 , σ w = σ h = 0.2 \mu_x=\mu_y=\mu_w=\mu_h=0,\sigma_x=\sigma_y=0.1,\sigma_w=\sigma_h=0.2 μx=μy=μw=μh=0,σx=σy=0.1,σw=σh=0.2。这种转换在下面的 offset_boxes 函数中实现。
#@save
def offset_boxes(anchors, assigned_bb, eps=1e-6):
"""对锚框偏移量的转换"""
c_anc = d2l.box_corner_to_center(anchors)
c_assigned_bb = d2l.box_corner_to_center(assigned_bb)
offset_xy = 10 * (c_assigned_bb[:, :2] - c_anc[:, :2]) / c_anc[:, 2:]
offset_wh = 5 * torch.log(eps + c_assigned_bb[:, 2:] / c_anc[:, 2:])
offset = torch.cat([offset_xy, offset_wh], axis=1)
return offset
这个函数的作用是计算锚框和分配给它的真实边界框之间的偏移量。它的步骤是:
-
将锚框(anchors)和真实边界框(assignedbb)的角点形式转换为中心宽高的形式,分别存储在canc和cassignedbb中。
-
计算真实边界框中心相对于锚框中心的偏移量offset_xy。由于真实边界框和锚框的尺度可能不同,所以偏移量是相对于锚框宽度和高度的比例,且扩大10倍。
-
计算真实边界框宽高相对于锚框宽高的偏移量offset_wh。由于宽高的比例是对数尺度的,所以计算log比例,且加上一个很小的数eps防止log(0)。
-
将offsetxy和offsetwh在axis=1的方向上拼接,得到最终的偏移量offset。
-
返回offset。
这个函数计算的偏移量用于锚框预测真实边界框。通过添加偏移量,可以调整锚框的位置和形状,使其更接近真实边界框,从而实现目标检测。
如果一个锚框没有被分配真实边界框,我们只需将锚框的类别标记为背景(background)。 背景类别的锚框通常被称为负类锚框,其余的被称为正类锚框。 我们使用真实边界框(labels参数)实现以下multibox_target函数,来标记锚框的类别和偏移量(anchors参数)。 此函数将背景类别的索引设置为零,然后将新类别的整数索引递增一。
实现
#@save
def multibox_target(anchors, labels):
"""使用真实边界框标记锚框"""
batch_size, anchors = labels.shape[0], anchors.squeeze(0)
batch_offset, batch_mask, batch_class_labels = [], [], []
device, num_anchors = anchors.device, anchors.shape[0]
for i in range(batch_size):
label = labels[i, :, :]
anchors_bbox_map = assign_anchor_to_bbox(
label[:, 1:], anchors, device)
bbox_mask = ((anchors_bbox_map >= 0).float().unsqueeze(-1)).repeat(
1, 4)
# 将类标签和分配的边界框坐标初始化为零
class_labels = torch.zeros(num_anchors, dtype=torch.long,
device=device)
assigned_bb = torch.zeros((num_anchors, 4), dtype=torch.float32,
device=device)
# 使用真实边界框来标记锚框的类别。
# 如果一个锚框没有被分配,标记其为背景(值为零)
indices_true = torch.nonzero(anchors_bbox_map >= 0)
bb_idx = anchors_bbox_map[indices_true]
class_labels[indices_true] = label[bb_idx, 0].long() + 1
assigned_bb[indices_true] = label[bb_idx, 1:]
# 偏移量转换
offset = offset_boxes(anchors, assigned_bb) * bbox_mask
batch_offset.append(offset.reshape(-1))
batch_mask.append(bbox_mask.reshape(-1))
batch_class_labels.append(class_labels)
bbox_offset = torch.stack(batch_offset)
bbox_mask = torch.stack(batch_mask)
class_labels = torch.stack(batch_class_labels)
return (bbox_offset, bbox_mask, class_labels)
这段代码定义了一个名为 multibox_target 的函数,其主要目的是为锚框(anchor boxes)分配真实边界框(ground truth bounding boxes)和相应的类标签。这是物体检测任务中的一个关键步骤,通常用于训练检测器。这个函数接受两个输入参数:anchors 和 labels。
输入参数说明:
- anchors:一个表示锚框的张量,形状为 (1, num_anchors, 4)。锚框是预定义的边界框,用于在物体检测任务中预测物体的位置。
- labels:一个表示真实边界框及其类别的张量,形状为 (batch_size, num_labels, 5)。每个真实边界框包含类别信息和坐标信息。
函数返回三个张量:bbox_offset(边界框偏移量),bbox_mask(用于过滤未分配的锚框)和 class_labels(每个锚框的类别标签)。
函数的主要步骤如下:
- 初始化一些变量,如 batch_size、device 和 num_anchors。
- 遍历每个样本(迭代 batch_size):
a. 使用 assign_anchor_to_bbox 函数将每个锚框分配给最接近的真实边界框。
b. 创建一个用于过滤未分配锚框的掩码(mask)。>
c. 初始化类标签和分配的边界框坐标为零。
d. 将锚框的类别标签设置为对应真实边界框的类别。没有被分配的锚框将被标记为背景(类别为零)。
e. 将分配的边界框坐标赋值给对应的锚框。
f. 计算锚框与分配的真实边界框之间的偏移量,并将其乘以掩码。
g. 将偏移量、掩码和类标签添加到相应的批处理列表中。 - 将批处理列表转换为张量并返回。
这个bbox_mask的作用是在计算偏移量时对没有被分配的锚框的偏移量进行遮蔽,使其不更新。
这个函数的输出可用于训练物体检测器,以学习如何预测物体的位置和类别。
举个例子
ground_truth = torch.tensor([[0, 0.1, 0.08, 0.52, 0.92],
[1, 0.55, 0.2, 0.9, 0.88]])
anchors = torch.tensor([[0, 0.1, 0.2, 0.3], [0.15, 0.2, 0.4, 0.4],
[0.63, 0.05, 0.88, 0.98], [0.66, 0.45, 0.8, 0.8],
[0.57, 0.3, 0.92, 0.9]])
fig = d2l.plt.imshow(img)
show_bboxes(fig.axes, ground_truth[:, 1:] * bbox_scale, ['dog', 'cat'], 'k')
show_bboxes(fig.axes, anchors * bbox_scale, ['0', '1', '2', '3', '4']);
使用上面定义的multibox_target函数,我们可以根据狗和猫的真实边界框,标注这些锚框的分类和偏移量。 在这个例子中,背景、狗和猫的类索引分别为0、1和2。 下面我们为锚框和真实边界框样本添加一个维度。
labels = multibox_target(anchors.unsqueeze(dim=0),
ground_truth.unsqueeze(dim=0))
返回的结果中有三个元素,都是张量格式。第三个元素包含标记的输入锚框的类别。
让我们根据图像中的锚框和真实边界框的位置来分析下面返回的类别标签。 首先,在所有的锚框和真实边界框配对中,锚框 A 4 A_4 A4与猫的真实边界框的IoU是最大的。 因此, A 4 A_4 A4的类别被标记为猫。 去除包含 A 4 A_4 A4或猫的真实边界框的配对,在剩下的配对中,锚框 A 1 A_1 A1和狗的真实边界框有最大的IoU。 因此, A 1 A_1 A1的类别被标记为狗。 接下来,我们需要遍历剩下的三个未标记的锚框: A 2 , A 3 , A 0 A_2,A_3,A_0 A2,A3,A0。 对于 A 0 A_0 A0,与其拥有最大IoU的真实边界框的类别是狗,但IoU低于预定义的阈值(0.5),因此该类别被标记为背景; 对于 A 2 A_2 A2,与其拥有最大IoU的真实边界框的类别是猫,IoU超过阈值,所以类别被标记为猫; 对于 A 3 A_3 A3,与其拥有最大IoU的真实边界框的类别是猫,但值低于阈值,因此该类别被标记为背景。
labels[2]
返回的第二个元素是掩码(mask)变量,形状为(批量大小,锚框数的四倍)。 掩码变量中的元素与每个锚框的4个偏移量一一对应。 由于我们不关心对背景的检测,负类的偏移量不应影响目标函数。 通过元素乘法,掩码变量中的零将在计算目标函数之前过滤掉负类偏移量。
labels[1]
返回的第一个元素包含了为每个锚框标记的四个偏移值。 请注意,负类锚框的偏移量被标记为零。
labels[0]
学会计算偏移量,那么偏移量有什么用?
锚框的偏移量在目标检测任务中起着重要的作用。它用于表示锚框与真实边界框之间的位置和尺度差异,从而帮助模型准确地定位目标。
具体来说,锚框的偏移量有以下几个用途:
位置定位:通过计算锚框与真实边界框的偏移量,可以确定目标物体在图像中的精确位置。偏移量指示了需要将锚框移动多少距离才能与真实边界框对齐。
目标分类:偏移量可以帮助模型进行目标分类。在目标检测任务中,每个锚框都与一个类别相关联。通过将锚框的位置与对应的真实边界框进行比较,可以将正确的类别分配给与真实边界框对齐的锚框。
尺度调整:锚框的偏移量还可以帮助模型进行目标的尺度调整。通过计算锚框与真实边界框的尺度差异,可以对锚框的大小进行调整,使其更好地适应不同尺度的目标。
使用非极大值抑制预测边界框
在预测时,我们先为图像生成多个锚框,再为这些锚框一一预测类别和偏移量。 一个预测好的边界框则根据其中某个带有预测偏移量的锚框而生成。 下面我们实现了offset_inverse函数,该函数将锚框和偏移量预测作为输入,并应用逆偏移变换来返回预测的边界框坐标。
#@save
def offset_inverse(anchors, offset_preds):
"""根据带有预测偏移量的锚框来预测边界框"""
anc = d2l.box_corner_to_center(anchors)
pred_bbox_xy = (offset_preds[:, :2] * anc[:, 2:] / 10) + anc[:, :2]
pred_bbox_wh = torch.exp(offset_preds[:, 2:] / 5) * anc[:, 2:]
pred_bbox = torch.cat((pred_bbox_xy, pred_bbox_wh), axis=1)
predicted_bbox = d2l.box_center_to_corner(pred_bbox)
return predicted_bbox
这段代码实现了根据锚框和预测的偏移量来预测边界框。它做了以下几步:
将锚框的四角坐标转换为中心坐标和宽高anc,使用d2l.boxcornerto_center()函数。
预测的偏移量offsetpreds中的前两个值代表中心坐标的偏移量,用anc中的中心坐标加上偏移量乘以宽高的1/10来预测边界框的中心坐标predbbox_xy。
offsetpreds中的后两个值代表宽高的对数,用e指数运算符和anc中的宽高乘以偏移量的1/5来预测边界框的宽高predbbox_wh。
将预测的中心坐标和宽高拼接成pred_bbox。
将predbbox从中心坐标转换为四角坐标,使用d2l.boxcentertocorner()函数,结果是predicted_bbox。
所以整个过程是:根据锚框和预测偏移量得到中心坐标和宽高,再转换为四角坐标,从而预测出边界框。
这个过程在目标检测中很常用,通过锚框和偏移量的方式预测边界框可以更加精确,而不仅仅是直接在图片上滑动一个固定大小的窗口。
当有许多锚框时,可能会输出许多相似的具有明显重叠的预测边界框,都围绕着同一目标。 为了简化输出,我们可以使用非极大值抑制(non-maximum suppression,NMS)合并属于同一目标的类似的预测边界框。
以下是非极大值抑制的工作原理。 对于一个预测边界框 B B B,目标检测模型会计算每个类别的预测概率。 假设最大的预测概率为 p p p,则该概率所对应的类别 B B B即为预测的类别。 具体来说,我们将 p p p称为预测边界框 B B B的置信度(confidence)。 在同一张图像中,所有预测的非背景边界框都按置信度降序排序,以生成列表 L L L。然后我们通过以下步骤操作排序列表 L L L:
- 从 L L L中选取置信度最高的预测边界框 B 1 B_1 B1作为基准,然后将所有与 B 1 B_1 B1的IoU超过预定阈值 c c c的非基准预测边界框从 L L L中移除。这时, L L L保留了置信度最高的预测边界框,去除了与其太过相似的其他预测边界框。简而言之,那些具有非极大值置信度的边界框被抑制了。
- 从 L L L中选取置信度第二高的预测边界框 B 2 B_2 B2作为又一个基准,然后将所有与 B 2 B_2 B2的IoU大于 c c c的非基准预测边界框从 L L L中移除。
- 重复上述过程,直到 L L L中的所有预测边界框都曾被用作基准。此时, L L L中任意一对预测边界框的IoU都小于阈值 c c c;因此,没有一对边界框过于相似。
- 输出列表 L L L中的所有预测边界框。
以下nms函数按降序对置信度进行排序并返回其索引。
#@save
def nms(boxes, scores, iou_threshold):
"""对预测边界框的置信度进行排序"""
B = torch.argsort(scores, dim=-1, descending=True)
keep = [] # 保留预测边界框的指标
while B.numel() > 0:
i = B[0]
keep.append(i)
if B.numel() == 1: break
iou = box_iou(boxes[i, :].reshape(-1, 4),
boxes[B[1:], :].reshape(-1, 4)).reshape(-1)
inds = torch.nonzero(iou <= iou_threshold).reshape(-1)
B = B[inds + 1]
return torch.tensor(keep, device=boxes.device)
非极大值抑制预测边界框实现:
#@save
def multibox_detection(cls_probs, offset_preds, anchors, nms_threshold=0.5,
pos_threshold=0.009999999):
"""使用非极大值抑制来预测边界框"""
device, batch_size = cls_probs.device, cls_probs.shape[0]
anchors = anchors.squeeze(0)
num_classes, num_anchors = cls_probs.shape[1], cls_probs.shape[2]
out = []
for i in range(batch_size):
cls_prob, offset_pred = cls_probs[i], offset_preds[i].reshape(-1, 4)
conf, class_id = torch.max(cls_prob[1:], 0)
predicted_bb = offset_inverse(anchors, offset_pred)
keep = nms(predicted_bb, conf, nms_threshold)
# 找到所有的non_keep索引,并将类设置为背景
all_idx = torch.arange(num_anchors, dtype=torch.long, device=device)
combined = torch.cat((keep, all_idx))
uniques, counts = combined.unique(return_counts=True)
non_keep = uniques[counts == 1]
all_id_sorted = torch.cat((keep, non_keep))
class_id[non_keep] = -1
class_id = class_id[all_id_sorted]
conf, predicted_bb = conf[all_id_sorted], predicted_bb[all_id_sorted]
# pos_threshold是一个用于非背景预测的阈值
below_min_idx = (conf < pos_threshold)
class_id[below_min_idx] = -1
conf[below_min_idx] = 1 - conf[below_min_idx]
pred_info = torch.cat((class_id.unsqueeze(1),
conf.unsqueeze(1),
predicted_bb), dim=1)
out.append(pred_info)
return torch.stack(out)
这段代码实现了使用非极大值抑制来预测边界框。主要步骤如下:
-
获得预测的类别置信度clsprobs,预测的偏移量offsetpreds和锚框anchors。
-
对每个图片进行预测。遍历每个图片i,获得该图片的类别置信度clsprob,偏移量预测offsetpred和锚框anchors。
-
找到每个锚框的最大类别置信度和类别classid。使用torch.max()找到每个锚框的最大类别置信度conf和对应类别classid。
-
根据锚框和偏移量预测解码得到预测边界框predictedbb。使用offsetinverse()函数解码。
-
对预测边界框进行非极大值抑制,得到保留的边界框索引keep。使用nms()函数实现。
-
找到非保留边界框的索引non_keep,并将其类别设置为背景-1。
-
根据keep和nonkeep得到排序后的全部索引allidsorted,并根据此索引从classid,conf和predicted_bb中取出相应的类别、置信度和预测框。
-
找到置信度小于pos_threshold的预测框,将其类别设置为背景-1,置信度设置为1-conf。
-
将类别、置信度和预测框拼接为pred_info,作为该图片的预测结果。
-
将所有图片的预测结果pred_info拼接并返回。
预测结果类似下面图片:
现在我们可以调用multibox_detection函数来执行非极大值抑制,其中阈值设置为0.5。 请注意,我们在示例的张量输入中添加了维度。
我们可以看到返回结果的形状是(批量大小,锚框的数量,6)。 最内层维度中的六个元素提供了同一预测边界框的输出信息。 第一个元素是预测的类索引,从0开始(0代表狗,1代表猫),值-1表示背景或在非极大值抑制中被移除了。 第二个元素是预测的边界框的置信度。 其余四个元素分别是预测边界框左上角和右下角的 ( x , y ) (x,y) (x,y)轴坐标(范围介于0和1之间)。
极大值抑制后: