box_iou交并比及assign_anchor_to

box_iou交并比及assign_anchor_to_bbox个人理解

news2025/10/14 20:17:49

接上篇文章，李沐沐神的《动手学深度学习》中的show_bboxes还是比较好理解的，于是来看这两个方法
以下内容建议对照源代码理解

def box_iou

首先我们来设置boxes1和boxes2的初始值

boxes1 = torch.tensor([[1,2,5,6],[2,1,4,6],[-1,2,7,6],
                      [1,2,5,8]])
boxes2 = torch.tensor([[0,3,5,7],[1,2,3,7],[0,4,5,7],
                      [0,5,5,7]])

设置了第一组的四个锚框的左横，下纵，右横，上纵坐标（详情上一篇文章）和第二组的四个锚框坐标

boxes1[:,2],boxes1[:,0]
'''结果'''
(tensor([5, 4, 7, 5]), tensor([ 1,  2, -1,  1]))
boxes1[:,3],boxes1[:,1]
'''结果'''
(tensor([6, 6, 6, 8]), tensor([2, 1, 2, 2]))

很显然这两个语句将这一组锚框的右横、左横和上纵、下纵坐标表示了出来，而右横坐标-左横坐标便得出了这一个锚框的长，上纵坐标-下纵坐标便得出了这个锚框的宽，相乘便是这个锚框的面积
下面的方法便是求一组锚框的面积

(boxes1[:,2]-boxes1[:,0])*(boxes1[:,3]-boxes1[:,1])
'''结果'''
tensor([16, 10, 32, 24])

与上面求得的各个坐标相对应
于是便有了这个方法

box_area = lambda boxes: ((boxes[:, 2] - boxes[:, 0]) *
                              (boxes[:, 3] - boxes[:, 1]))

下面的语句中包含
inter_upperlefts = torch.max(boxes1[:, None, :2], boxes2[:, :2])
inter_lowerrights = torch.min(boxes1[:, None, 2:], boxes2[:, 2:])
而其中的torch.max(boxes1[:, None, :2], boxes2[:, :2])与 torch.min(boxes1[:, None, 2:], boxes2[:, 2:])实在让人费解，到底为什么要在boxes中增加一个None呢？
让我们带着上面假设的boxes1和boxes2继续向下看
首先我们要知道带None和不带None有什么区别

torch.max(boxes1[:,:2],boxes2[:,:2])
'''结果'''
tensor([[1, 3],
        [2, 2],
        [0, 4],
        [1, 5]])

给boxes1中四个锚框取名为A1,A2,A3,A4，boxes2中四个锚框取名为B1,B2,B3,B4，能够看出这是将A1B1做比较，A2B2、A3B3、A4B4分别做比较

torch.max(boxes1[:,None,:2],boxes2[:,:2])
'''结果'''
tensor([[[1, 3],
         [1, 2],
         [1, 4],
         [1, 5]],

        [[2, 3],
         [2, 2],
         [2, 4],
         [2, 5]],

        [[0, 3],
         [1, 2],
         [0, 4],
         [0, 5]],

        [[1, 3],
         [1, 2],
         [1, 4],
         [1, 5]]])

答案是将A1与所有B做比较，A2与所有B作比较…
接着来看min部分的代码

torch.min(boxes1[:, 2:], boxes2[:, 2:])
'''结果'''
tensor([[5, 6],
        [3, 6],
        [5, 6],
        [5, 7]])

torch.min(boxes1[:, None, 2:], boxes2[:, 2:])
'''结果'''
tensor([[[5, 6],
         [3, 6],
         [5, 6],
         [5, 6]],

        [[4, 6],
         [3, 6],
         [4, 6],
         [4, 6]],

        [[5, 6],
         [3, 6],
         [5, 6],
         [5, 6]],

        [[5, 7],
         [3, 7],
         [5, 7],
         [5, 7]]])

同样也是答案是将A1与所有B做比较，A2与所有B作比较…，这样就知道了加None的作用
在这里插入图片描述
像这张图，相交部分的下横坐标与左纵坐标取两个锚框的max值
相交部分的上横坐标与右纵坐标取两个锚框的min值

inters = (inter_lowerrights - inter_upperlefts).clamp(min=0)
inters
'''结果'''
tensor([[[4, 3],
         [2, 4],
         [4, 2],
         [4, 1]],

        [[2, 3],
         [1, 4],
         [2, 2],
         [2, 1]],

        [[5, 3],
         [2, 4],
         [5, 2],
         [5, 1]],

        [[4, 4],
         [2, 5],
         [4, 3],
         [4, 2]]])

将这两组答案相减，便得到了所有锚框交接的长和宽，clamp(min=0)意思是将小于0的长和宽变为0，因为长和宽都不为0

将长和宽相乘便是相交锚框的面积

inter_areas = inters[:, :, 0] * inters[:, :, 1]
inter_areas
'''结果'''
tensor([[12,  8,  8,  4],
        [ 6,  4,  4,  2],
        [15,  8, 10,  5],
        [16, 10, 12,  8]])

再算出原始锚框的面积

areas1 = box_area(boxes1)
areas2 = box_area(boxes2)

相交部分的所有面积（同样有None，人们也叫这个机制为广播机制）

union_areas = areas1[:, None] + areas2 - inter_areas
union_areas
'''结果'''
tensor([[24, 18, 23, 22],
        [24, 16, 21, 18],
        [37, 34, 37, 37],
        [28, 24, 27, 26]])

相除便得到了io比

inter_areas / union_areas
''''''
tensor([[0.5000, 0.4444, 0.3478, 0.1818],
        [0.2500, 0.2500, 0.1905, 0.1111],
        [0.4054, 0.2353, 0.2703, 0.1351],
        [0.5714, 0.4167, 0.4444, 0.3077]])

assign_anchor_to_bbox方法

设置初始值
生成锚框的数量和真实锚框的数量
io比

num_anchors, num_gt_boxes = 4, 4
jaccard=torch.tensor([[0.5000, 0.4444, 0.3478, 0.1818],
        [0.2500, 0.2500, 0.1905, 0.1111],
        [0.4054, 0.2353, 0.2703, 0.1351],
        [0.5714, 0.4167, 0.4444, 0.3077]])

max_ious, indices = torch.max(jaccard, dim=1)
max_ious, indices
'''结果'''
(tensor([0.5000, 0.2500, 0.4054, 0.5714]), tensor([0, 0, 0, 0]))

dim=0即在横方向比较，max_ious储存了所有行最大的io比，indices储存了最大io比的位置，这里很巧都是第一个最大
设置最小的io比，即小于这个的io比不做考虑

iou_threshold = 0.3

anc_i = torch.nonzero(max_ious >= iou_threshold).reshape(-1)
torch.nonzero(max_ious >= iou_threshold).reshape(-1)
'''结果'''
tensor([0, 2, 3])

只有序号为0，2，3的位置算作有效io比
而下一段代码

box_j = indices[max_ious >= iou_threshold]
box_j
'''结果'''
tensor([0, 0, 0])

表示了有效io比的行里最大的io比，与上面的anc_i对应

后面的就比较好理解了
剩下的多看看视频理解老师的思路就可以了

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/985922.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！