源自Deformable Convolutional Networks的一种可变形卷积实现解析

news2025/4/22 5:05:30

衍生记录:深度学习pytorch之简单方法自定义9类卷积即插即用

文章目录

    • 概述
    • 1. 可变形卷积的背景
    • 2. DeformConv2D概述
      • 2.1 构造函数分析
      • 2.2 前向传播函数解析
        • 2.2.1 偏移量的计算与应用
        • 2.2.2 目标位置的计算
        • 2.2.3 四个角的插值
        • 2.2.4 双线性插值的权重
        • 2.2.5 特征图的采样与卷积操作
    • 3. 可变形卷积的优势
    • 4. 完整代码
    • 5. 总结

概述

在深度学习中的计算机视觉任务中,卷积神经网络(CNN)是最常见且强大的模型之一。然而,传统的卷积操作在处理具有几何变换(如旋转、平移、缩放等)或变形的图像时,通常表现得不够灵活。为了解决这一问题,可变形卷积(Deformable Convolution)应运而生。可变形卷积(Deformable Convolution),来源于微软亚洲研究院(MSRA)在 ICCV 2017 发表的论文:《Deformable Convolutional Networks》(作者:Jifeng Dai 等,论文地址:arXiv:1703.06211)。

本文将详细解析 DeformConv2D 类,它是可变形卷积的一种实现,帮助我们更好地理解可变形卷积的工作原理。
提示:DeformConv2D完整代码见4.完整代码

1. 可变形卷积的背景

传统卷积神经网络(CNN)中的卷积操作通过在图像上滑动固定大小的卷积核来提取局部特征。每个卷积核的权重是固定的,这使得卷积操作对输入图像的空间位置不够敏感。因此,在面对具有复杂空间变换(如变形物体、物体位移等)的图像时,传统的卷积核可能无法有效地捕捉到这些变化。

可变形卷积通过引入动态调整卷积核位置的机制,解决了这一问题。它能够根据输入图像的特征自适应地调整卷积核的采样位置,从而更好地适应输入的几何变换。

2. DeformConv2D概述

DeformConv2D 类是实现可变形卷积操作的核心组件。它的主要功能是允许卷积核在图像中根据学习到的偏移量进行自适应调整。通过这种方式,卷积操作能够更加灵活地适应图像中的空间变形,提高了网络在处理复杂图像时的表现。
在这里插入图片描述

3×3标准卷积和可变形卷积的采样位置示意图。(a)标准卷积的规则采样网格(绿色点)。 (b)可变形卷积中变形的采样位置(深蓝色点)和增强的偏移量(浅蓝色箭头)。 (c)(d)是(b)的特殊情况,显示可变形卷积如何对尺度、(各向异性)纵横比和旋转进行广义化。

2.1 构造函数分析

DeformConv2D 的构造函数如下:

def __init__(self, inc=3, outc=16, kernel_size=3, padding=1, bias=None):
    super(DeformConv2D, self).__init__()
    self.offset = nn.Conv2d(inc, 18, kernel_size=kernel_size, padding=padding)
    self.kernel_size = kernel_size
    self.padding = padding
    self.zero_padding = nn.ZeroPad2d(padding)
    self.conv_kernel = nn.Conv2d(inc, outc, kernel_size=kernel_size, stride=kernel_size, bias=bias)
  • incoutc:输入和输出通道数。
  • kernel_sizepadding:卷积核的大小和填充方式。
  • self.offset:用于计算偏移量的卷积层,它输出每个像素的偏移量。输出通道数为18,表示每个像素有9个x方向和9个y方向的偏移量。
  • self.conv_kernel:最终执行标准卷积操作的卷积层。

2.2 前向传播函数解析

DeformConv2D 的前向传播函数实现了变形卷积的主要步骤,下面我们一一解析:

def forward(self, x):
    offset = self.offset(x)  # 计算偏移量
    offset = offset.permute(0, 2, 3, 1)  # 调整偏移量的形状

    if self.padding > 0:
        x = self.zero_padding(x)  # 如果有填充,执行填充操作

    # 计算目标位置 p
    p_0 = self._get_p_0(x)  # 输入图像每个像素的位置
    p_n = self._get_p_n()  # 卷积核的相对位置网格
    p = self._get_p(p_0, offset, p_n)  # 每个像素的目标位置

    # 计算四个角的插值位置
    q_lt, q_rb, q_lb, q_rt = self._get_q(p)
    mask = self._get_mask(p)  # 掩码,标记哪些区域无效
    g_lt, g_rb, g_lb, g_rt = self._get_g(p, q_lt, q_rb, q_lb, q_rt)  # 双线性插值的权重

    # 从输入图像中采样数据
    x_q = self._get_x_q(x, q_lt, q_rb, q_lb, q_rt)

    # 重塑采样后的数据并执行卷积操作
    x_offset = self._reshape_x_offset(x_q, g_lt, g_rb, g_lb, g_rt)
    out = self.conv_kernel(x_offset)
    return out
2.2.1 偏移量的计算与应用

通过 self.offset(x) 计算每个像素的偏移量,偏移量表示了卷积核应该滑动到哪里。然后,偏移量的维度调整为 (batch_size, height, width, 18),其中18是每个像素在x方向和y方向的偏移量。

2.2.2 目标位置的计算

输入图像的每个像素都有一个对应的目标位置 p,它由原始位置 p_0 和通过偏移量计算的变化量构成。公式如下:

p = p 0 + Δ p p = p_0 + \Delta p p=p0+Δp

其中,p_0 是像素的原始位置,Δp 是偏移量。

2.2.3 四个角的插值

在目标位置 p 处,可能不落在整数位置。因此,需要通过四个邻近整数位置(左上 q_lt,右下 q_rb,左下 q_lb 和右上 q_rt)进行双线性插值。

2.2.4 双线性插值的权重

双线性插值的权重 g_ltg_rbg_lbg_rt 通过目标位置与邻近整数位置的距离计算得出。通过这些权重,可以计算目标位置的值。

2.2.5 特征图的采样与卷积操作

在计算出权重后,我们可以从输入图像中根据目标位置 p 进行采样。然后,通过 _reshape_x_offset 函数将采样结果整理成适合卷积操作的格式,最后用 self.conv_kernel 执行标准的卷积操作。

3. 可变形卷积的优势

传统卷积核对图像的每个位置进行固定的采样,而可变形卷积通过学习得到的偏移量使得卷积核可以根据图像的内容动态地调整其采样位置。这带来了以下几个优势:

  1. 更好的空间适应性:对于具有旋转、平移等空间变换的图像,可变形卷积能够自适应调整卷积核位置,从而提高模型的表现。

  2. 提高了图像变形的容忍度:在处理复杂的图像变形时(如物体的非刚性变形),传统卷积可能难以有效捕捉这些变化,而可变形卷积通过自适应调整,能够更好地应对这些挑战。

  3. 提升了模型的灵活性和表达能力:可变形卷积使得网络可以更好地捕捉图像中的复杂变化模式,尤其是在目标检测、图像分割等任务中表现尤为出色。

4. 完整代码

使用代码,其中inc为输入通道,outc为输出通道:

    model = DeformConv2D(inc=3, outc=32, kernel_size=3, padding=1, bias=None)
    x = torch.zeros(16, 3, 224, 224)
    outs = model(x)

定义代码:

from torch.autograd import Variable, Function
import torch
from torch import nn
import numpy as np


class DeformConv2D(nn.Module):
    def __init__(self, inc=3, outc=16, kernel_size=3, padding=1, bias=None):
        super(DeformConv2D, self).__init__()
        self.offset = nn.Conv2d(inc, 18, kernel_size=kernel_size, padding=padding)
        self.kernel_size = kernel_size
        self.padding = padding
        self.zero_padding = nn.ZeroPad2d(padding)
        self.conv_kernel = nn.Conv2d(inc, outc, kernel_size=kernel_size, stride=kernel_size, bias=bias)

    def forward(self, x):

        offset = self.offset(x)

        dtype = offset.data.type()
        ks = self.kernel_size
        N = offset.size(1) // 2

        # Change offset's order from [x1, x2, ..., y1, y2, ...] to [x1, y1, x2, y2, ...]
        # Codes below are written to make sure same results of MXNet implementation.
        # You can remove them, and it won't influence the module's performance.
        offsets_index = Variable(torch.cat([torch.arange(0, 2*N, 2), torch.arange(1, 2*N+1, 2)]), requires_grad=False).type_as(x).long()
        offsets_index = offsets_index.unsqueeze(dim=0).unsqueeze(dim=-1).unsqueeze(dim=-1).expand(*offset.size())
        offset = torch.gather(offset, dim=1, index=offsets_index)
        # ------------------------------------------------------------------------

        if self.padding:
            x = self.zero_padding(x)

        # (b, 2N, h, w)
        p = self._get_p(offset, dtype)

        # (b, h, w, 2N)
        p = p.contiguous().permute(0, 2, 3, 1)
        q_lt = Variable(p.data, requires_grad=False).floor()
        q_rb = q_lt + 1

        q_lt = torch.cat([torch.clamp(q_lt[..., :N], 0, x.size(2)-1), torch.clamp(q_lt[..., N:], 0, x.size(3)-1)], dim=-1).long()
        q_rb = torch.cat([torch.clamp(q_rb[..., :N], 0, x.size(2)-1), torch.clamp(q_rb[..., N:], 0, x.size(3)-1)], dim=-1).long()
        q_lb = torch.cat([q_lt[..., :N], q_rb[..., N:]], -1)
        q_rt = torch.cat([q_rb[..., :N], q_lt[..., N:]], -1)

        # (b, h, w, N)
        mask = torch.cat([p[..., :N].lt(self.padding)+p[..., :N].gt(x.size(2)-1-self.padding),
                          p[..., N:].lt(self.padding)+p[..., N:].gt(x.size(3)-1-self.padding)], dim=-1).type_as(p)
        mask = mask.detach()
        floor_p = p - (p - torch.floor(p))
        p = p*(1-mask) + floor_p*mask
        p = torch.cat([torch.clamp(p[..., :N], 0, x.size(2)-1), torch.clamp(p[..., N:], 0, x.size(3)-1)], dim=-1)

        # bilinear kernel (b, h, w, N)
        g_lt = (1 + (q_lt[..., :N].type_as(p) - p[..., :N])) * (1 + (q_lt[..., N:].type_as(p) - p[..., N:]))
        g_rb = (1 - (q_rb[..., :N].type_as(p) - p[..., :N])) * (1 - (q_rb[..., N:].type_as(p) - p[..., N:]))
        g_lb = (1 + (q_lb[..., :N].type_as(p) - p[..., :N])) * (1 - (q_lb[..., N:].type_as(p) - p[..., N:]))
        g_rt = (1 - (q_rt[..., :N].type_as(p) - p[..., :N])) * (1 + (q_rt[..., N:].type_as(p) - p[..., N:]))

        # (b, c, h, w, N)
        x_q_lt = self._get_x_q(x, q_lt, N)
        x_q_rb = self._get_x_q(x, q_rb, N)
        x_q_lb = self._get_x_q(x, q_lb, N)
        x_q_rt = self._get_x_q(x, q_rt, N)

        # (b, c, h, w, N)
        x_offset = g_lt.unsqueeze(dim=1) * x_q_lt + \
                   g_rb.unsqueeze(dim=1) * x_q_rb + \
                   g_lb.unsqueeze(dim=1) * x_q_lb + \
                   g_rt.unsqueeze(dim=1) * x_q_rt

        x_offset = self._reshape_x_offset(x_offset, ks)
        out = self.conv_kernel(x_offset)

        return out

    def _get_p_n(self, N, dtype):
        p_n_x, p_n_y = np.meshgrid(range(-(self.kernel_size-1)//2, (self.kernel_size-1)//2+1),
                          range(-(self.kernel_size-1)//2, (self.kernel_size-1)//2+1), indexing='ij')
        # (2N, 1)
        p_n = np.concatenate((p_n_x.flatten(), p_n_y.flatten()))
        p_n = np.reshape(p_n, (1, 2*N, 1, 1))
        p_n = Variable(torch.from_numpy(p_n).type(dtype), requires_grad=False)

        return p_n

    @staticmethod
    def _get_p_0(h, w, N, dtype):
        p_0_x, p_0_y = np.meshgrid(range(1, h+1), range(1, w+1), indexing='ij')
        p_0_x = p_0_x.flatten().reshape(1, 1, h, w).repeat(N, axis=1)
        p_0_y = p_0_y.flatten().reshape(1, 1, h, w).repeat(N, axis=1)
        p_0 = np.concatenate((p_0_x, p_0_y), axis=1)
        p_0 = Variable(torch.from_numpy(p_0).type(dtype), requires_grad=False)

        return p_0

    def _get_p(self, offset, dtype):
        N, h, w = offset.size(1)//2, offset.size(2), offset.size(3)

        # (1, 2N, 1, 1)
        p_n = self._get_p_n(N, dtype)
        # (1, 2N, h, w)
        p_0 = self._get_p_0(h, w, N, dtype)
        p = p_0 + p_n + offset
        return p

    def _get_x_q(self, x, q, N):
        b, h, w, _ = q.size()
        padded_w = x.size(3)
        c = x.size(1)
        # (b, c, h*w)
        x = x.contiguous().view(b, c, -1)

        # (b, h, w, N)
        index = q[..., :N]*padded_w + q[..., N:]  # offset_x*w + offset_y
        # (b, c, h*w*N)
        index = index.contiguous().unsqueeze(dim=1).expand(-1, c, -1, -1, -1).contiguous().view(b, c, -1)

        x_offset = x.gather(dim=-1, index=index).contiguous().view(b, c, h, w, N)

        return x_offset

    @staticmethod
    def _reshape_x_offset(x_offset, ks):
        b, c, h, w, N = x_offset.size()
        x_offset = torch.cat([x_offset[..., s:s+ks].contiguous().view(b, c, h, w*ks) for s in range(0, N, ks)], dim=-1)
        x_offset = x_offset.contiguous().view(b, c, h*ks, w*ks)

        return x_offset


if __name__ == '__main__':
    model = DeformConv2D(inc=3, outc=32, kernel_size=3, padding=1, bias=None)

    x = torch.zeros(16, 3, 224, 224)
    outs = model(x)
    print(outs.shape)

5. 总结

DeformConv2D 类通过引入偏移量和动态调整卷积核的位置,成功实现了可变形卷积。与传统卷积相比,可变形卷积能更灵活地处理图像中的几何变换,从而提升了网络对复杂图像的适应性和表达能力。这一创新使得网络能够捕捉更复杂的空间特征,为计算机视觉中的任务提供了强大的支持。

可变形卷积不仅在学术研究中具有重要意义,也在实际应用中表现出强大的能力,特别是在目标检测、图像分割等任务中,展示了其巨大的潜力。

通过学习可变形卷积的工作原理,我们可以更好地理解现代计算机视觉技术的前沿发展,也为我们在深度学习中的应用提供了更多灵活的工具和思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2318821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【最后203篇系列】020 rocksdb agent

今天还是挺开心的一天,又在工具箱里加了一个工具。嗯,但是快下班的时候也碰到一些不太顺心的事,让我有点恼火。我还真没想到一个专职的前端,加测试,以及其他一堆人,竟然不知道后端返回的markdown,在前端渲染…

mysql-connector-python 报错(0xC0000005)

报错情况: 原因: mysql-connector-python版本不对,我们的mysql版本为sql8.0需要下载mysql-connector-python8.0....的库 方法: pip install mysql-connector-python8.1.0 即可

从零开始实现Stable Diffusion本地部署

1. 依赖安装 文件打包下载地址(Stable Diffusion) # git : 用于下载源码 https://git-scm.com/downloads/win # Python 作为基础编译环境 https://www.python.org/downloads/ # Nvidia 驱动,用于编译使用GPU显卡硬件 https://ww…

RAG各类方法python源码解读与实践:利用Jupyter对RAG技术综合评测【3万字长文】

检索增强生成(RAG )是一种结合信息检索与生成模型的混合方法。它通过引入外部知识来提升语言模型的性能,从而提高回答的准确性和事实正确性。为了简单易学,不使用LangChain框架或FAISS向量数据库,而是利用Jupyter Note…

RPA+AI 技术到底好在哪里?

在自动化领域,RPA与生成式AI都是强大的技术,都可以用来实现自动执行重复耗时的任务。 主要区别是:传统RPA擅长处理结构化与规则明确简单的流程,而在非结构化数据处理、动态上下文适应、智能决策等能力上有欠缺;而基于…

flowable适配达梦7 (2.1)

经过第一版的问题解决,后端项目可以启动,前端页面也集成进去。 前端在流程设计页面报错 之后发现主要是组件中modelerStore这个值没有 解决方法:在data增加对象 给component/process/designer.vue 中涉及到的每个子组件传入 :modelerStore“modeler…

基于java的ssm+JSP+MYSQL的母婴用品网站(含LW+PPT+源码+系统演示视频+安装说明)

系统功能 管理员功能模块: 主页 个人中心 用户管理 商品分类管理 商品信息管理 留言板管理 成长交流 系统管理 订单管理 留言管理 用户功能模块: 主页 个人中心 我的收藏管理 订单管理 前台首页功能模块: 首页 商品信息 论…

面试八股 —— Redis篇

重点:缓存 和 分布式锁 缓存(穿透,击穿,雪崩) 降级可作为系统的保底策略,适用于穿透,击穿,雪崩 1.缓存穿透 2.缓存击穿 3.缓存雪崩 缓存——双写一致性 1.强一致性业务&#xff08…

gradle-8.13

gradle-8.13 稍微看了下,基于Maven改造的 https://gradle.org/install/https://github.com/gradle/gradle-distributions/releaseshttps://github.com/gradle/gradle-distributions/releases/download/v8.13.0/gradle-8.13-all.zip https://github.com/gradle/gra…

不使用负压电源,ADC如何测量正负压?

电路图来自ZLinear的开源数据采集板卡DL8884_RFN,是一个比较常见的电压偏置采集法 对电路进行分析,所以说可以先看下采集卡的模拟输入部分的参数如下: 通道数量: 8通道单端输入/4通道差分输入 分辨率: 16位逐次逼近型(SAR) ADC 采样速率: 40…

SinoSteel生产企业ERP实施建议书final(143页PPT)(文末有下载方式)

资料解读:SinoSteel 生产企业 ERP 实施建议书 final 详细资料请看本解读文章的最后内容。 在当今竞争激烈的商业环境中,企业的信息化建设对于提升竞争力和实现可持续发展至关重要。中钢集团作为一家大型跨国企业集团,在钢铁行业占据重要地位。…

贴片陶瓷天线和蓝牙天线的layout注意事项

板载天线,也有封装成器件进行使用: 看到这里,细心的人发现,天线接入芯片的时候,旁边也直接接地了: F型天线(Inverted F Antenna, IFA)的一端接地,看起来像是“短路”&am…

关于波士顿动力2025年3月的人形机器人最新视频

这是完整的视频: 波士顿动力最新逆天表演-机器人Atlas行走、奔跑、爬行、杂技_哔哩哔哩_bilibili 至少从目前来看,综合对比运动的幅度、各关节的协调性、整体的顺遂性、动作的拟人程度,波士顿动力是已知人形机器人中最好的。 尤其需要关注…

Wi-Fi NAN 架构(Wi-Fi Aware Specification v4.0,第2章:2.3~2.6)

1. NAN 数据通信架构 1.1 单播支持 要在两个NAN设备之间启动单播数据通信,服务需发起一个NAN数据路径(NDP,NAN Data Path)请求。这对NAN设备之间会建立一个NAN设备链路(NDL,NAN Device Link)&…

在Oracle Linux 7上安装Oracle 11gr2数据库

好久没有安装Oracle 11g了,虽然是老版本,但是还是有很多公司在用,自从有了oracle linux感觉安装变简单了。 1.安装先决条件包,此包会配置系统参数,建立oracle用户等: yum install oracle-rdbms-server-11gR2-preinstall 安装完这个oracle自…

python爬虫概述

0x00 python爬虫概述 以豆瓣的选电影模块为例,当查看源代码搜索猫猫的奇幻漂流瓶是搜不到的 这时服务器的工作方式应该是这样的 客户端浏览器第一次访问其实服务器端是返回的一个框架(html代码) 当客户端浏览器第二次通过脚本等方式进行访问时服务器端才返回的数据…

【C++】STL库面试常问点

STL库 什么是STL库 C标准模板库(Standard Template Libiary)基于泛型编程(模板),实现常见的数据结构和算法,提升代码的复用性和效率。 STL库有哪些组件 STL库由以下组件构成: ● 容器&#xf…

Qt 控件概述 QWdiget 1.1

目录 qrc机制 qrc使用 1.在项目中创建一个 qrc 文件 2.将图片导入到qrc文件中 windowOpacity: cursor 光标 cursor类型 自定义Cursor font tooltip focusPolicy styleSheet qrc机制 之前提到使用相对路径的方法来存放资源,还有一种更好的方式…

C# Exe + Web 自动化 (BitComet 绿灯 自动化配置、设置)

BitComet GreenLight,内网黄灯转绿灯 (HighID), 增加p2p连接率提速下载-CSDN博客 前两天写个这个,每次开机关机后要重来一遍很麻烦的索性写个自动化。 先还是按照上面的教程自己制作一遍,留下Luck 以及 路由器相关的 端口记录信息。 (因为自…

1-1 MATLAB深度极限学习机

本博客来源于CSDN机器鱼,未同意任何人转载。 更多内容,欢迎点击本专栏目录,查看更多内容。 参考[1]魏洁.深度极限学习机的研究与应用[D].太原理工大学[2023-10-14].DOI:CNKI:CDMD:2.1016.714596. 目录 0.引言 1.ELM-AE实现 2.DE…