【IVIF:搜索架构】

news2024/11/27 22:37:41

Searching a Hierarchically Aggregated Fusion Architecture for Fast Multi-Modality Image Fusion

(搜索用于快速多模态图像融合的分层聚合融合架构)

现有的基于CNN的方法使主要点在于设计各种体系结构,以端到端的方式实现这些任务。但是,这些手工设计无法应对高要求的融合任务,导致目标模糊和纹理细节丢失。为了缓解这些问题,本文提出了一种新颖的方法,旨在根据各种模态原理和融合机制搜索有效的体系结构。具体来说,我们构建了一个分层聚合的融合体系结构,从特征级和对象级融合视角提取和细化融合的特征,该融合的特征负责获得互补的目标/细节表示。然后,通过研究各种有效的实践,我们复合了一个更灵活的融合特定搜索空间。受协作原理的激励,我们采用了一种新的搜索策略,该策略具有不同的原则损失和硬件约束,可以充分发现组件。结果,我们可以获得具有快速推理时间的特定于任务的体系结构。

介绍

最近,神经架构搜索 (NAS) 方法取得了重大进展,可以分为三类,早期进化算法,基于强化学习的 和基于可微梯度的搜索。具体来说,可微方案已广泛用于各种视觉任务,例如图像恢复和分类。最近,NAS方案提供了多模态融合的工具。这些方法追求最终预测的准确性,而忽略了融合过程。原始搜索空间 (例如,可分离的卷积和池化) 忽略了使NAS停留在初始阶段的特定于任务的领域知识。因此,设计适当的搜索方案需要对探索融合图像特征的良好认识。

为了部分克服上述限制,这项工作提出了一种分层聚合的体系结构,而不是使用简单的网络为各种融合任务构建宏结构。具体而言,我们首先提出了一个特征级融合模块来获得初始融合结果。然后,我们研究了不同模态图像的典型属性,并设计了一个对象级融合模块,以基于目标/细节对象的内部信息来完善结果。通过引入聚合模块,我们可以获得具有不同目标和丰富文本细节的互补和全面的融合结果。此外,与当前的手工CNN方案不同,我们基于所提出的高效灵活的搜索空间来构造结构。考虑到特定于融合的知识,我们将高/低频分解和多尺度融合机制以及有效的块 (例如,残余,密集和注意模块) 集成到搜索空间中。然后,我们提供了一种协作学习策略,这是一种基于可区分搜索的新解决方案,可以逐步从不同的模块中发现整个体系结构,从而确保对每个原则组件进行充分的搜索。在不同阶段,各种损失被用来约束这些模块的基本作用。
贡献
1)为了解决基于cnn的方法中的主要绊脚石,我们首先构建一个分层聚合的体系结构来获得互补的融合图像,通过特征级融合和面向模态的特性进行整合。
2) 我们提出了一种面向融合的搜索空间,该空间利用融合原理,包括高/低频表示和多尺度机制,并引入有效的基本操作来促进图像融合。
3) 协作搜索策略旨在搜索整体在不同的原则损失和硬件约束的帮助下,从模块化级别逐步构建体系。所提出的搜索策略可确保结构的设计原理得到充分表征。

方法

请添加图片描述

图1: 我们提出的体系结构和搜索空间的主要组成部分的示意图。在子图 (a) 中,我们说明了分层聚合的融合体系结构,包括融合级融合,特定于目标/细节的对象级融合和聚合模块。我们根据 (b) 和 © 中的三个原则单元和几个基本运算符绘制搜索空间。如两个蓝色箭头所示,这些单元由操作员级搜索空间组成,整个体系结构可以视为单元的集成。“GF” 表示引导过滤器。“H” 和 “L” 表示高频/低频特征。

Hierarchically Aggregated Fusion(分层聚合融合)

当前基于启发式深度学习的方法遇到了一些常见问题。(i) 大多数建议的体系结构都不复杂,无法充分利用模态信息的不同统计信息,因此,融合结果上可能会出现模糊的边缘或不清楚的目标。(ii) 由于计算复杂性和大参数量,导致大多数现有的融合方法在时间上通常竞争力较低。
请添加图片描述

为了解决这些问题,我们首先提出了一种分层聚合的融合体系结构,它被解耦为三个重要的原则层次结构,即特征级融合、对象级融合和聚合机制,如图1的子图 (a) 所示。注意到这种分层体系结构可以通过自主搜索来构建,被认为是一个超级网络 (即各种潜在架构的集成)。我们提出了一个主要的模块,称为特征级融合模块 (FFM),旨在设计一个通用融合模块来提取,重建特征并生成融合图像。详细而言,FFM除了候选操作之外,还由一系列候选单元组成,与手动设计密集或残差块相比,它提供了更通用但更灵活的架构,如子图 (a) 的最后一行所示。第 𝑙 层的单元级连续弛豫可以用输出的加权和来实现,这使得整个体系结构是可区分的,并与请添加图片描述

与现有的CNN方法相比,基于架构设计调查来自源图像的不同特征和互补信息是主要区别。来自多模态图像的目标信息和可见/结构细节也需要一种以不同方式提取特定于对象的信息的方案。因此,我们引入了对象级融合模块 (Object-level Fusion Module (OFM) )来优化融合图像

在OFM中,我们将融合对象解耦为两个部分,即目标对象和细节敏感对象。详细地说,对于目标信息,热辐射通常代表红外图像中的目标,并且像素强度明显不同。另一方面,对于细节信息,具有更多纹理细节的可见观察可以提高场景意识。在以下小节中设计的不同原则损失的监督下,可以实现设计目标/细节对象模块的目标。最后,我们还构建了一个聚合模块来确认不同特征的保留程度。它是通过具有两层卷积和sigmoid函数的空间注意机制来实现的,以生成用于聚合两个目标/细节特定输出的权重掩码M。请注意,此聚合模块是预先定义的,无需架构搜索。

Fusion-Oriented Search Space(面向融合的搜索空间)

Fusion-Specific Cell Architectures

我们将三种类型的cells组成到cells级搜索空间中,这提供了这种分层体系结构的外部潜在结构构造,同时考虑了用于融合任务的有效实践,即高/低频表示和多尺度融合。

请添加图片描述
Successive cells。处理特定于硬件的场景,许多NAS方法采用连续小区 (也称为 “选择块”) 来降低搜索成本。N个选择块串联到复合单元 (表示为CSC)。自然地,几个运算符 (在搜索空间中定义) 被嵌入到具有连续权重的每个块中。最后,在每个块中选择权重最大的运算符。整个结构显示在子图 (b) 的第一行中,其中颜色不同的框表示运算符。

Decomposition Cell。基本单元 (即CDC) 由三个部分组成,即特征分解,并行流和特征融合。执行深度图像引导滤波器 以解耦高频/低频特征。着眼于两种特征,每行连接多个神经块。每个块都表示一个可能的操作。我们定义这个单元格有N个 𝑑 块。请注意,由于硬件计算限制,两行单元格中的块共享相同的体系结构。最后,执行conv 1 × 1层以融合高/行频率分量。整个体系结构显示在子图 (b) 的第二行。

多尺度融合Cell。基于多尺度融合原理,我们构建了以下单元。详细结构显示在子图 (b) 的最后一行。多尺度融合单元 (即CMS) 包括四个关键元素,即下采样,并行流,上采样和融合。我们利用strided卷积来降低特征的分辨率。在本文中,我们定义了多尺度特征的分辨率为1x,0.5x和0.25x。然后与分解单元格相同,单元格的每一行包含N个 𝑚 块。对调整大小的特征进行上采样后,我们通过conv 1 × 1层连接并融合它们。

运算符

在这里插入图片描述
子图 © 显示了操作员的主要具体插图。详细来说,我们放弃了跳过连接,池化和零/无操作,这不适合融合任务。
请添加图片描述

Collaborative Search Strategy

在这一部分中,我们介绍了执行连续松弛的三个关键外延,即矢量化形式 𝜶 := {𝜶𝐹,𝜶𝑂} 作为FFM和OFM的内部架构,𝜷 := {𝜷𝐹,𝜷𝑂} 作为外部架构,𝝎 := {𝝎𝐹,𝝎𝑂} 作为权重参数。请注意,我们定义了 𝝎𝑂 表示OFM和聚合模块的权重。在定义搜索空间之后,我们提出了一种协作搜索策略,以逐步发现整个体系结构,与朴素搜索策略相比,这是一种新的解决方案。这是因为当前基于梯度的搜索范例仅直接优化 {𝜶,𝜷} 和 𝝎,而忽略了我们提出的融合原理,难以利用这种复杂的搜索空间。

Bilevel Learning with Hardware-Aware Constraint. (具有硬件感知约束的二级学习)

为了限制搜索模块的计算成本,我们利用推理延迟作为硬件感知约束。我们将此延迟约束项引入为正则化损失,以复合搜索阶段的验证损失。从超级网络中发现低延迟结构的搜索过程可以表述为:
请添加图片描述

Collaborative Architecture Search.(协作架构搜索)

图1显示出了为分层架构执行的整个协作搜索策略。我们详细介绍了最初的战略,并考虑了两个关键因素。首先,行为良好的FFM可以提供具有足够特征的融合图像,以帮助OFM从全局到局部的搜索过程。换句话说,OFM的性能从有利的FFM中受益匪浅。其次,寻求外部架构可以指导内部运算符的构建从宏观到微观。这表明FFM和OFM的搜索关系是协作的。因此,我们提出了一种新的渐进式体系结构搜索策略来解决Eq(2)。详细地说,整个体系结构的搜索策略可以分为两个阶段,分别是FFM和opm的发现。我们首先使用一阶近似对FFM执行策略。L 𝐹 ′ val表示具有延迟约束的验证损失。在获得具有固定架构的FFM的最佳结构之后,我们执行OFM的学习过程。请注意,网络参数 𝝎𝑭 仍在优化,以保持整个架构的一致性。具体地,对于每个模块的搜索,从外部到内部搜索结构,即替换地更新 𝜷 和 𝜶,如Alg中的步骤 (4-13) 所示.

Loss Functions

四种类型的损失被用来搜索/训练我们的候选网络。引入了旨在捕获对比度信息 (例如,以像素强度突出显示的热辐射) 的强度损失,其定义为
在这里插入图片描述
最近,感知损失被用来测量特征域 (例如VGG网络 𝜙) 中的差异,这可以表示像素不同和全局目标的差异。我们将感知损失定义为:
在这里插入图片描述

此外,图像的梯度信息始终表征纹理细节和场景结构。因此,我们使用梯度损失来约束这些文本因素,即:
在这里插入图片描述

Configuration for Infrared-Visible Image Fusion.

显然,此任务的目的是保留来自红外图像的目标的对比度强度和可见图像的纹理细节 (在梯度域中明显显示)。我们在OFM的搜索中引入了这一原理。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/88419.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JSP ssh美食娱乐分享网站系统myeclipse开发oracle数据库MVC模式java编程计算机网页设计

一、源码特点 JSP ssh美食娱乐分享网站系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采 用B/S模式开发。开发环境为TOMCA…

学习二叉树必须要了解的各种遍历方式及节点统计

哈喽,大家好,我是小林。今天给大家分享一下对二叉树的一些常规操作。 愿我们都能保持一颗向上的心。 目录一、前序遍历二、中序遍历三、后序遍历四、 统计节点个数五、统计叶子节点个数六、第K层的节点个数七、二叉树的深度八、查找值为x的节点九、层序遍…

TensorFlow TFRecords简介

TensorFlow TFRecords简介 这篇博客将介绍TensorFlow的TFRecords,提供有关TFRecords的所有信息的一应俱全的介绍。从如何构建基本TFRecords到用于训练 SRGAN 和 ESRGAN 模型的高级TFRecords的所有内容。包括什么是TFRecords,如何序列化,反序…

SQL 语句练习03

目录 一、建表 二、插入数据 三、查询 一、建表 这里先建好我们下面查询需要的表,方便后续查询。 建立如下学生表(命名格式“姓名拼音_三位学号_week5s”, 如LBJ_023_week5s)create table LYL_116_week5s(SNO varchar(4) primary key,SNA…

【Kubernetes】DashBoard部署

kubernetes,是一个全新的基于容器技术的分布式架构领先方案,是谷歌严格保密十几年的秘密武器----Borg系统的一个开源版本,于2014年9月发布第一个版本,2015年7月发布第一个正式版本。 kubernetes的本质是一组服务器集群&#xff0…

数字孪生智慧水务建设综述

随着新时期治水方针的逐步落实,水利现代化、智能化建设已全面开启,数字孪生等新技术的成熟,也为智慧水务体系的搭建提供了技术保障,新时代治水新思路正逐步得到落实。本文将重点对智慧水务的内涵及建设内容进行解读,力…

2022年航空与物流行业研究报告

第一章 行业概况 航空与物流行业是指以各种航空飞行器为运输工具,以空中运输的方式运载人员或货物的企业。航空公司是以各种航空飞行器为运输工具为乘客和货物提供民用航空服务的企业。航空公司使用的飞行器可以是他们自己拥有的,也可以是租来的&#x…

物联网通信技术原理-作业汇总(更新ing)

第一章 第二章 第三章 第四章 第五章 1. 移动通信中典型的多址接入方式有哪些?简要说明其工作原理2. 分集技术的基本原理是什么?简要说明空间、频率和时间分集、合并的异同。 1)分集技术的基本原理 通过多个信道(时间、频率或…

25.访客功能

访客功能 一、需求分析 用户在浏览我的主页时,需要记录访客数据,访客在一天内每个用户只记录一次。 首页展示最新5条访客记录 我的模块,分页展示所有的访客记录 二、数据库表 visitors(访客记录表) { “_id”: …

尚医通 (三十五) --------- 预约下单

目录一、预约下单前端1. 封装 api 请求2. 页面修改二、后端逻辑1. 需求分析2. 搭建 service-order 模块3. 添加订单基础类4. 封装 Feign 调用获取就诊人接口5. 封装 Feign 调用获取排班下单信息接口6. 实现下单接口7. 预约成功后处理逻辑① rabbit-util 模块封装② 封装短信接口…

C++ Reference: Standard C++ Library reference: Containers: map: map: cend

C官网参考链接&#xff1a;https://cplusplus.com/reference/map/map/cend/ 公有成员函数 <map> std::map::cend const_iterator cend() const noexcept;返回指向结束的const_iterator 返回一个指向容器结束后元素的const_iterator。 const_iterator是指向const内容的it…

正弦交流电物理量表征

前言 这一讲主要来表征正弦交流电的物理量 文章目录前言一、周期和频率二、最大值、有效值和平均值一、周期和频率 周期&#xff1a;正弦交流电每重复变化1次所需要的时间称为周期&#xff0c;用符号T表示&#xff0c;单位是秒&#xff08;s&#xff09;。 频率&#xff1a;正…

web前端期末大作业 绿色环境保护(4个页面) HTML5网站模板农业展示网站 html5网页制作代码 html5网页设计作业代码 html制作网页案例代码

&#x1f380; 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

体育馆场地预约管理系统/球馆管理系统

摘 要 随着体育馆规模的不断扩大&#xff0c;人流数量的急剧增加&#xff0c;有关体育馆的各种信息量也在不断成倍增长。面对庞大的信息量&#xff0c;就需要有体育馆场地预约管理系统来提高体育馆工作的效率。通过这样的系统&#xff0c;我们可以做到信息的规范管理和快速查询…

TCP/IP网络原理 【IP篇】

&#x1f389;&#x1f389;&#x1f389;写在前面&#xff1a; 博主主页&#xff1a;&#x1f339;&#x1f339;&#x1f339;戳一戳&#xff0c;欢迎大佬指点&#xff01; 目标梦想&#xff1a;进大厂&#xff0c;立志成为一个牛掰的Java程序猿&#xff0c;虽然现在还是一个…

聚观早报 | 马斯克丢掉世界首富宝座;加密货币FTX创始人被捕

今日要闻&#xff1a;马斯克丢掉世界首富宝座&#xff1b;加密货币FTX创始人被捕&#xff1b;美团推出高峰打车极速版&#xff1b;魔兽制作组正研发新功能&#xff1b;SpaceX出售公司内部股票马斯克丢掉世界首富宝座 12 月 13 日消息&#xff0c;据国外媒体报道&#xff0c;受特…

7-54 孤岛营救问题——状压bfs+三维标记

1944 年&#xff0c;特种兵麦克接到国防部的命令&#xff0c;要求立即赶赴太平洋上的一个孤岛&#xff0c;营救被敌军俘虏的大兵瑞恩。瑞恩被关押在一个迷宫里&#xff0c;迷宫地形复杂&#xff0c;但幸好麦克得到了迷宫的地形图。迷宫的外形是一个长方形&#xff0c; 其南北方…

二、小程序框架

目录 框架 一、响应的数据绑定 二、页面管理 三、基础组件 四、丰富的API 模块化 一、模块化 二、文件作用域 三、API 视图层 View 一、WXML 事件 什么是事件 事件的使用方式 使用 WXS 函数响应事件 事件详解 框架 小程序开发框架的目标是通过尽可能简单、高效…

万字长文详解 YOLOv1-v5 系列模型

一&#xff0c;YOLOv1二&#xff0c;YOLOv2三&#xff0c;YOLOv3四&#xff0c;YOLOv4五&#xff0c;YOLOv5参考资料 一&#xff0c;YOLOv1 YOLOv1 出自 2016 CVPR 论文 You Only Look Once:Unified, Real-Time Object Detection. YOLO 系列算法的核心思想是将输入的图像经过…

同时安装python3和Python2

一刚开始我很疑惑&#xff0c;Python为何要并行两个版本呢&#xff1f;今天我算知道了&#xff0c;原来是因为有的项目一直在用python2。虽然我已经安装了python3但是那些使用python2进行部署的项目我仍然无法使用&#xff0c;这就导致我要在电脑上同时安装python2和Python3了。…