YOLOv8改进 | 2023 | MPDIoU、InnerMPDIoU助力细节涨点

论文地址：官方论文地址点击即可跳转

代码地址：官方并没有开源的该损失的函数的代码，我根据文章内容进行了复现代码块在第三章

一、本文介绍

本文为读者详细介绍了YOLOv8模型的最新改进，带来的改进机制是最新的损失函数MPDIoU和融合了最新的Inner思想的InnerMPDIoU(效果打爆之前的所有的损失函数)提升检测精度和处理细节方面的作用。通过深入探讨MPDIoU和InnerMPDIoU(全网首发)的工作原理和实际代码实现，本文旨在指导读者如何将这些先进的损失函数技术应用到YOLOv8模型中，以提高其性能和准确性。文章内容涵盖从理论基础、代码实现，到实际教你如何添加本文的机制到你的模型中。

专栏回顾：YOLOv8改进系列专栏——本专栏持续复习各种顶会内容——科研必备

实验效果图如下所示->

因为资源有限我发的文章都要做对比实验所以本次实验我只用了一百张图片检测的是安全帽训练了一百个epoch，该结果只能展示出该机制有效，但是并不能产生决定性结果，因为具体的效果还要看你的数据集和实验环境所影响。

分析下这个结果图片：最左面的是基础版本没做任何修改的，中间的只是修改了MPDIoU可以看到涨点相对于基础版本的大概有0.05个点左右，但是我增加了InnerMPDIoU的效果基本持平(我个人觉得是我的数据集原因)所以大家自己进行实验的时候可以多做一轮进行一下对比。

一、本文介绍

二、MPDIoU的机制原理

三、MPDIoU的代码复现

四、手把手教你添加MPDIoU到你的模型中

4.1 CARAFE的添加教程

五、全文总结

二、MPDIoU的机制原理

问题提出：文章指出，在目标检测和实例分割的过程中，传统的边界框回归（BBR）损失函数难以优化预测框和真实框在宽高比相同但具体尺寸不同时的情况，下面是描述现有的边界框回归的方法的计算因素总结（包括GIoU、DIoU、CIoU和EIoU）的计算因素。这些度量方法是用于评估和优化边界框回归模型性能的关键工具。虽然文章没有直接展示下图的内容，但它们包括以下几个方面：

GIoU（Generalized IoU）：除了传统的IoU（交并比）之外，GIoU还考虑了边界框之间的包含关系和空间分布。

DIoU（Distance IoU）：在IoU的基础上，DIoU还考虑了边界框中心点之间的距离，以改进对齐和尺度不一致的情况。

CIoU（Complete IoU）：结合了DIoU的特点，并加入了宽高比的考虑，进一步提高了对边界框的精确度。

EIoU（Expected IoU）：这是一种更高级的度量方法，考虑了预测边界框与真实边界框之间的预期相似度。

文章提出的MPDIoU是在这些现有度量方法的基础上发展起来的，旨在通过直接最小化预测框和真实框之间的关键点距离，提供一种易于实现的解决方案，用于计算两个轴对齐矩形之间的MPDIoU

MPDIoU的提出：为了克服这一挑战，文章提出了一种新的边界框相似度度量方法——MPDIoU（Minimum Point Distance Intersection over Union）。MPDIoU是基于水平矩形的最小点距离来计算的，能够综合考虑重叠区域、中心点距离以及宽度和高度的偏差。

下图展示了两种不同的边界框回归结果情况。其中，绿色框代表真实的边界框，而红色框代表预测的边界框。在这两种情况下，传统的损失函数（如GIoU、DIoU、CIoU和EIoU）计算出的损失值是相同的，但是使用MPDIoU方法计算出的损失值却有所不同。这说明传统方法在某些特定情况下可能无法区分不同的预测结果，而MPDIoU能更准确地反映预测框和真实框之间的差异。

这个发现突显了MPDIoU在处理边界框回归问题上的优势，尤其是在区分具有相同宽高比但不同尺寸或位置的边界框时。MPDIoU通过直接计算预测框和真实框之间的关键点距离，提供了更精确的损失度量方法。

LMPDIoU损失函数：基于MPDIoU的概念，文章定义了一种新的损失函数LMPDIoU。LMPDIoU的公式如下：

$LMPDIoU=1-MPDIoU$

这一公式表明LMPDIoU损失函数与MPDIoU的相似度成反比关系，即MPDIoU越高，LMPDIoU损失越低，这推动模型预测的边界框更加接近真实框。

公式推理：在下图展示了作者提出的LMPDIoU损失函数的各种因素。

这些因素包括如何在训练阶段通过最小化损失函数来使模型预测的边界框接近其真实边界框。具体来说，每个预测的边界框

$B_{prd} = \left[ \begin{array}{c} x_{prd} \\ y_{prd} \\ w_{prd} \\ h_{prd} \end{array} \right]$

通过最小化以下损失函数来逼近其真实边界框：

$B_{gt} = [x_{gt}, y_{gt}, w_{gt}, h_{gt}]^T$

$L = \min_{\Theta} L(B_{gt}, B_{prd} | \Theta)$

其中， $B_{gt}$ 是真实边界框的集合，而 $\Theta$ 是回归深度模型的参数。文章中提出的 $LMPDIoU$ 损失函数公式为：

$LMPDIoU=1-MPDIoU$

实验验证：通过在多个数据集（如PASCAL VOC、MS COCO和IIIT5k）上对YOLACT和YOLOv7等模型的训练和测试，文章验证了MPDIoU和LMPDIoU在实际应用中的有效性。实验结果显示，这种新的损失函数在多个方面优于传统的损失函数，尤其是在处理具有相似宽高比但不同尺寸的边界框时。

下面是一些检测效果对比图

总结来说，文章通过引入MPDIoU和LMPDIoU(我又将其和Inner的思想结合了在一起形成了InnerMPDIoU双重提高了效果)，提供了一种新的视角来优化目标检测中的边界框回归问题，同时通过实验验证了其在提高检测模型准确性方面的有效性。

三、MPDIoU的代码复现

论文中不仅提出了MPDIoU还提出了一个LMPDIoU但是这个LMPDIoU我用了以后模型根本收敛不了，所以我不知道这是我数据集的原因还是其它原因导致的，但是MPDIoU我使用效果是非常好的，其中我还添加了Focus和Inner的思想，如果你Inner和MPDIoU都设置为True使用的就是InnerMPDIoU，如果Inner为False但是MPDIoU设置为True就是MPDIoU,Focus同理，支持FocusInnerMPDIoU,所以大家可以多进行尝试。

class WIoU_Scale:
    ''' monotonous: {
            None: origin v1
            True: monotonic FM v2
            False: non-monotonic FM v3
        }
        momentum: The momentum of running mean'''

    iou_mean = 1.
    monotonous = False
    _momentum = 1 - 0.5 ** (1 / 7000)
    _is_train = True

    def __init__(self, iou):
        self.iou = iou
        self._update(self)

    @classmethod
    def _update(cls, self):
        if cls._is_train: cls.iou_mean = (1 - cls._momentum) * cls.iou_mean + \
                                         cls._momentum * self.iou.detach().mean().item()

    @classmethod
    def _scaled_loss(cls, self, gamma=1.9, delta=3):
        if isinstance(self.monotonous, bool):
            if self.monotonous:
                return (self.iou.detach() / self.iou_mean).sqrt()
            else:
                beta = self.iou.detach() / self.iou_mean
                alpha = delta * torch.pow(gamma, beta - delta)
                return beta / alpha
        return 1

def bbox_iou(box1, box2, x1y1x2y2=True, ratio=1, GIoU=False, DIoU=False, CIoU=False, SIoU=False,
             EIoU=False, WIoU=False, MPDIoU=False, LMPDIoU=False, Inner=False, Focal=False, alpha=1, gamma=0.5,
             scale=False, eps=1e-7):
    if Inner:
        (x1, y1, w1, h1), (x2, y2, w2, h2) = box1.chunk(4, -1), box2.chunk(4, -1)
        w1_, h1_, w2_, h2_ = w1 / 2, h1 / 2, w2 / 2, h2 / 2

        # Inner-IoU      #Inner-IoU        #Inner-IoU        #Inner-IoU        #Inner-IoU        #Inner-IoU        #Inner-IoU
        b1_x1, b1_x2, b1_y1, b1_y2 = x1 - w1_ * ratio, x1 + w1_ * ratio, \
                                                             y1 - h1_ * ratio, y1 + h1_ * ratio
        b2_x1, b2_x2, b2_y1, b2_y2 = x2 - w2_ * ratio, x2 + w2_ * ratio, \
                                                             y2 - h2_ * ratio, y2 + h2_ * ratio
        inter = (torch.min(b1_x2, b2_x2) - torch.max(b1_x1, b2_x1)).clamp(0) * \
                      (torch.min(b1_y2, b2_y2) - torch.max(b1_y1, b2_y1)).clamp(0)
        union = w1 * ratio * h1 * ratio + w2 * ratio * h2 * ratio - inter + eps

        iou = inter / union  # inner_iou

    else:
        # Returns the IoU of box1 to box2. box1 is 4, box2 is nx4
        box2 = box2.T
        # Get the coordinates of bounding boxes
        if x1y1x2y2:  # x1, y1, x2, y2 = box1
            b1_x1, b1_y1, b1_x2, b1_y2 = box1[0], box1[1], box1[2], box1[3]
            b2_x1, b2_y1, b2_x2, b2_y2 = box2[0], box2[1], box2[2], box2[3]
        else:  # transform from xywh to xyxy
            b1_x1, b1_x2 = box1[0] - box1[2] / 2, box1[0] + box1[2] / 2
            b1_y1, b1_y2 = box1[1] - box1[3] / 2, box1[1] + box1[3] / 2
            b2_x1, b2_x2 = box2[0] - box2[2] / 2, box2[0] + box2[2] / 2
            b2_y1, b2_y2 = box2[1] - box2[3] / 2, box2[1] + box2[3] / 2

        # Intersection area
        inter = (torch.min(b1_x2, b2_x2) - torch.max(b1_x1, b2_x1)).clamp(0) * \
                (torch.min(b1_y2, b2_y2) - torch.max(b1_y1, b2_y1)).clamp(0)

        # Union Area
        w1, h1 = b1_x2 - b1_x1, b1_y2 - b1_y1 + eps
        w2, h2 = b2_x2 - b2_x1, b2_y2 - b2_y1 + eps
        union = w1 * h1 + w2 * h2 - inter + eps

        # IoU
        # iou = inter / union # ori iou
        iou = torch.pow(inter / (union + eps), alpha)  # alpha iou

    if scale:
        self = WIoU_Scale(1 - (inter / union))

    if CIoU or DIoU or GIoU or EIoU or SIoU or WIoU or MPDIoU or LMPDIoU:
        cw = b1_x2.maximum(b2_x2) - b1_x1.minimum(
            b2_x1)  # convex (smallest enclosing box) width
        ch = b1_y2.maximum(b2_y2) - b1_y1.minimum(b2_y1)  # convex height
        if CIoU or DIoU or EIoU or SIoU or WIoU or MPDIoU or LMPDIoU:  # Distance or Complete IoU
            # https://arxiv.org/abs/1911.08287v1
            c2 = (cw ** 2 + ch ** 2) ** alpha + eps  # convex diagonal squared
            rho2 = (((b2_x1 + b2_x2 - b1_x1 - b1_x2) ** 2 + (
                    b2_y1 + b2_y2 - b1_y1 - b1_y2) ** 2) / 4) ** alpha  # center dist ** 2
            if CIoU:  # https://github.com/Zzh-tju/DIoU-SSD-pytorch/blob/master/utils/box/box_utils.py#L47
                v = (4 / math.pi ** 2) * (torch.atan(w2 / h2) - torch.atan(w1 / h1)).pow(2)
                with torch.no_grad():
                    alpha_ciou = v / (v - iou + (1 + eps))
                if Focal:
                    return iou - (rho2 / c2 + torch.pow(v * alpha_ciou + eps, alpha)), torch.pow(
                        inter / (union + eps),
                        gamma)  # Focal_CIoU
                else:
                    return iou - (rho2 / c2 + torch.pow(v * alpha_ciou + eps, alpha))  # CIoU
            elif MPDIoU:
                d1 = (b2_x1 - b1_x1) ** 2 + (b2_y1 - b1_y1) ** 2
                d2 = (b2_x2 - b1_x2) ** 2 + (b2_y2 - b1_y2) ** 2
                w = (b2_x2 - b2_x1)   # x2 - x1
                h = (b2_y2 - b2_y1)  # y2 - y1
                if Focal:
                    return iou - ((d1 + d2) / (w ** 2 + h ** 2)), torch.pow(inter / (union + eps), gamma)  # Focal_MPDIoU
                else:
                    return iou - ((d1 + d2)/(w ** 2 + h ** 2))
            elif LMPDIoU:
                d1 = (b2_x1 - b1_x1) ** 2 + (b2_y1 - b1_y1) ** 2
                d2 = (b2_x2 - b1_x2) ** 2 + (b2_y2 - b1_y2) ** 2
                w = (b2_x2 - b2_x1)   # x2 - x1
                h = (b2_y2 - b2_y1)  # y2 - y1
                if Focal:
                    return 1 - (iou - ((d1 + d2)/(w ** 2 + h ** 2))), torch.pow(inter / (union + eps), gamma)  # Focal_MPDIo  # MPDIoU
                else:
                    return 1 - (iou - ((d1 + d2) / (w ** 2 + h ** 2)))
            elif EIoU:
                rho_w2 = ((b2_x2 - b2_x1) - (b1_x2 - b1_x1)) ** 2
                rho_h2 = ((b2_y2 - b2_y1) - (b1_y2 - b1_y1)) ** 2
                cw2 = torch.pow(cw ** 2 + eps, alpha)
                ch2 = torch.pow(ch ** 2 + eps, alpha)
                if Focal:
                    return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2), torch.pow(
                        inter / (union + eps),
                        gamma)  # Focal_EIou
                else:
                    return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2)  # EIou
            elif SIoU:
                # SIoU Loss https://arxiv.org/pdf/2205.12740.pdf
                s_cw = (b2_x1 + b2_x2 - b1_x1 - b1_x2) * 0.5 + eps
                s_ch = (b2_y1 + b2_y2 - b1_y1 - b1_y2) * 0.5 + eps
                sigma = torch.pow(s_cw ** 2 + s_ch ** 2, 0.5)
                sin_alpha_1 = torch.abs(s_cw) / sigma
                sin_alpha_2 = torch.abs(s_ch) / sigma
                threshold = pow(2, 0.5) / 2
                sin_alpha = torch.where(sin_alpha_1 > threshold, sin_alpha_2, sin_alpha_1)
                angle_cost = torch.cos(torch.arcsin(sin_alpha) * 2 - math.pi / 2)
                rho_x = (s_cw / cw) ** 2
                rho_y = (s_ch / ch) ** 2
                gamma = angle_cost - 2
                distance_cost = 2 - torch.exp(gamma * rho_x) - torch.exp(gamma * rho_y)
                omiga_w = torch.abs(w1 - w2) / torch.max(w1, w2)
                omiga_h = torch.abs(h1 - h2) / torch.max(h1, h2)
                shape_cost = torch.pow(1 - torch.exp(-1 * omiga_w), 4) + torch.pow(1 - torch.exp(-1 * omiga_h), 4)
                if Focal:
                    return iou - torch.pow(0.5 * (distance_cost + shape_cost) + eps, alpha), torch.pow(
                        inter / (union + eps), gamma)  # Focal_SIou
                else:
                    return iou - torch.pow(0.5 * (distance_cost + shape_cost) + eps, alpha)  # SIou
            elif WIoU:
                if Focal:
                    raise RuntimeError("WIoU do not support Focal.")
                elif scale:
                    return getattr(WIoU_Scale, '_scaled_loss')(self), (1 - iou) * torch.exp(
                        (rho2 / c2)), iou  # WIoU https://arxiv.org/abs/2301.10051
                else:
                    return iou, torch.exp((rho2 / c2))  # WIoU v1
            if Focal:
                return iou - rho2 / c2, torch.pow(inter / (union + eps), gamma)  # Focal_DIoU
            else:
                return iou - rho2 / c2  # DIoU

        c_area = cw * ch + eps  # convex area
        if Focal:
            return iou - torch.pow((c_area - union) / c_area + eps, alpha), torch.pow(
                inter / (union + eps),
                gamma)  # Focal_GIoU https://arxiv.org/pdf/1902.09630.pdf
        else:
            return iou - torch.pow((c_area - union) / c_area + eps,
                                         alpha)  # GIoU https://arxiv.org/pdf/1902.09630.pdf
    if Focal:
        return iou, torch.pow(inter / (union + eps), gamma)  # Focal_IoU
    else:
        return iou  # IoU

四、手把手教你添加MPDIoU到你的模型中

4.1 CARAFE的添加教程

添加教程这里不再重复介绍、因为专栏内容有许多，添加过程又需要截特别图片会导致文章大家读者也不通顺如果你已经会添加注意力机制了，可以跳过本章节，如果你还不会，大家可以看我下面的文章，里面详细的介绍了拿到一个任意机制(C2f、Conv、Bottleneck、Loss、DetectHead)如何添加到你的网络结构中去。

本为提到损失函数里面也有详细版本的教程，再次强调一下使用方法：如果你Inner和MPDIoU都设置为True使用的就是InnerMPDIoU，如果Inner为False但是MPDIoU设置为True就是MPDIoU,Focus同理，还支持FocusInnerMPDIoU。

添加教程->YOLOv8改进 | 如何在网络结构中添加注意力机制、C2f、卷积、Neck、检测头

这里顺便推荐一下我之前的博客讲的是InnerIoU这个损失函数的思想我做了很多次实验都可以有效涨点，里面进行了详细的介绍大家有兴趣可以进行回顾。

InnerIoU回顾：YOLOv8改进 | 2023 | InnerIoU、InnerSIoU、InnerWIoU、FocusIoU等损失函数

五、全文总结

到此本文的正式分享内容就结束了，在这里给大家推荐我的YOLOv8改进有效涨点专栏，本专栏目前为新开的平均质量分98分，后期我会根据各种最新的前沿顶会进行论文复现，也会对一些老的改进机制进行补充，目前本专栏免费阅读(暂时，大家尽早关注不迷路~)，如果大家觉得本文帮助到你了，订阅本专栏，关注后续更多的更新~