ICCV 2023 | 噪声关联鲁棒的图匹配方法

news2024/10/5 20:24:33

64c7d94bd0afe2adcf26844ac24d730d.gif

©PaperWeekly 原创 · 作者 | 林义杰

单位 | 四川大学

研究方向 | 多模态、多视角学习

9f78deaf350baa7640f97abacdc4a8fa.png

论文标题:

Graph Matching with Bi-level Noisy Correspondence

论文地址:

https://arxiv.org/pdf/2212.04085.pdf

开源代码:

https://github.com/XLearning-SCU/2023-ICCV-COMMON

https://github.com/Thinklab-SJTU/ThinkMatch

本篇文章介绍我们发表于 ICCV 2023 的一项图结构匹配工作(Graph Matching with Bi-level Noisy Correspondence),该工作在国际上率先揭示了图匹配问题中可能存在的“双重噪声关联”问题——图像中关键点标注错误导致图结构中同时出现的节点错误关联与边错误关联,并提出相应解决方案。

956302659a4f3ebc0d1de2666bc8a44c.png

背景

图匹配技术(Graph Matching)广泛应用于各种视觉应用中,如三维重建、目标跟踪、人脸识别等。图匹配算法通过将图像关键点构建为图结构,可实现更鲁棒的特征点配准。基于图匹配方法构建的特征点对应关系,可以拼接与融合不同视角的图像,估计相机姿态、构建三维场景等。

3a2615149c44423f6e486dfdad3c6447.png

▲ 图1 特征匹配示例

尽管图匹配技术在各种应用中取得了很好的性能,目前的匹配方案高度依赖于完美标注的对齐数据。具体地说,现有的图匹配方法几乎均需通过精准对齐的关键点来指导训练,但是真实数据中关键点的标注异常困难。实际场景下往往存在图像能见度差、图像间视角差异大、关键点遮挡等问题,导致人为标注的关键点不精准,甚至存在明显错误。

错误标注的特征关键点会产生不同图像间错误的匹配关系,我们将之称为噪声关联(Noisy Correspondence,NC [1-2]),该问题阻碍了现有的图匹配方法的正常训练,最终导致次优甚至错误的匹配结果。目前所有的图匹配方法都忽视了噪声关联对网络训练的影响,难以取得最优的特征匹配性能。由于特征点标注任务繁杂(待标注关键点多、图像能见度差等等),人为标注大量精准的关键点艰巨且不现实。因此,研究和设计能够适用于噪声关联的鲁棒图匹配方法,具备很高的应用前景和实际价值。

b4e843ca12b2526055175096d823f5bc.png

▲ 图2 图匹配中的双重噪声关联问题,以存在视角差异的沙发为例。图中绿色和红色点表示标注正确和错误的关键点,绿色和红色方块表示正确和错误的指派。

18851b56918f208d3b60056d2eceeeeb.png

创新

一方面,本论文 [3] 在国际上率先揭示了图像特征匹配问题中存在但一直被忽略的重要问题——双重噪声关联(Bi-level Noisy Correspondence, BNC)。如图 2 所示:

1. 由于图像可识别性差和图像间视角差异大,不可避免地会出现一些标注偏移、混淆的关键点,从而导致两个节点之间的不匹配(Node-level Noisy correspondence, NNC);

2. 节点关联噪声问题会进一步污染相对应的边与边之间的关联,从而导致边级别噪声关联(Edge-level noisy correspondence, ENC)。

需要说明的是,图匹配中的噪声关联问题与传统的噪声标签或图文检索中的关联不同图匹配中对齐关系需要服从一一对应的指派约束,即图 A 中的每个关键点在图 B 中必须具有唯一的对应关系。正所谓“牵一发而动全身”,图匹配中单个结点存在的噪声关联可能会导致全局的对齐失败。

另一方面,为解决双重噪声关联问题,本文提出了一种鲁棒匹配方案——基于动量蒸馏的对比匹配(COntrastive Matching with MOmentum distillation, COMMON)。

该方案包含一个鲁棒的二阶对比损失,其创新点在于1)针对图结构定制化的二阶对比学习损失,可更好地探索节点与节点、边与边的相关性;2)基于动量网络估计得到的置信度自适应地惩罚双重噪声关联,实现鲁棒图匹配。我们在三个特征匹配数据集中进行了验证,较为充分验证了方案对双重噪声关联的鲁棒性。

8099eb4aa7a6ecdd0e8295a954fd004f.png

方法

本文提出了一种基于动量蒸馏的对比匹配方案。为更好地探索图结构中的双重相关性,本文提出了一种二阶对比损失,其由三个联合学习目标组成,即对比学习损失、跨图一致性损失和图内一致性损失。为减轻双重噪声关联的影响,方案通过图像输入到动量编码器网络中,利用动量编码器估计的节点和边的置信度自适应地平衡噪声关联。

79f14dbf1151b82bb49a7aceedca46ff.png

▲ 图3 算法框架图。图中绿色和红色的点分别表示标注正确和错误的关键点。红色和绿色方块指示噪声关联和相应估计得到的置信度。

具体地,受近期 Artem 等在 ECCV 2022 [4]上发表的二阶对比学习工作启发,即对比学习算法等价于一阶线性指派问题的求解,其仅考虑到实例间的一阶相关性而忽视了更高阶的关联,我们采用图几何一致性损失来增强对比学习,使其适配图结构的匹配问题。具体地,分别给定图像 A 与图像 B 中的关键点 与 ,所采用的损失函数包含标准对比学习损失 、图内边一致性损失 和跨图边一致性损失 如下所示,

6afee8993b2a70bdc69a19bd9861e638.png

dbf884f04b61bce9dd492a4e94151302.png

c675b0ecae8f9691cc1a63b036e25852.png

其中 为交叉熵损失函数,

b7a4401c8fb140875ecf589b82f68861.png

按行归一化的 Softmax 激活函数。如图 3 中图结构样例所示,图内一致性损失尝试最小化图像 A 与图像 B 中的对应边之间的差异,例如 和 。而除了考虑图内边的对齐之外,还应当考虑跨图边的对齐:为了更好地匹配图像之间的关键点,需要消除同类对象之间的语义差异,例如两匹马之间的种类差异。

因此,给定两条对应的图内边(例如 和 ),我们应当期望同一类型的关键点是等价的、可交换的(例如 和 )。因此,我们通过交换图内边上的关键点去构建跨图边,得到 和 ,并最小化跨图边一致性损失进一步增强二阶对齐能力。

进一步,我们通过动量蒸馏算法去缓解双重噪声关联的不利影响。与传统的噪声标签问题不同,图匹配问题是一个多对多的组合优化问题,而不是一对多的分类问题。因而现有的基于数据划分或标签纠正的噪声标签学习方法并不适用于噪声关联。

启发于神经网络的记忆效应(即网络倾向于优先拟合简单的模式,缓慢更新的动量网络可部分缓解对噪声的拟合),我们采用移动指数平均更新方式的动量网络进行蒸馏从而缓解噪声关联。具体地,我们通过动量网络生成的高质量伪对齐目标去平衡二阶对比学习损失:

6df59fc40ceffeca4355a05ea021b96d.png

dbd878025a88deaaa55da48439b65054.png

其中 与 是由动量网络得到的关键点特征, 是噪声关联矫正超参数, 是通过动量网络估计得到的边置信度,具体如下,

d62c0e8fa156cc96249e78a74025f592.png

06ddf740591ebc35f71fecdfb01f27ef.png

实验

本文在真实场景下的特征匹配数据集 Pascal VOC、SPair-71K、Willow Object Class 上进行了实验,并在 Willow 数据集上通过手动添加关键点扰动模拟噪声,探究方法对噪声关联的有效性。以下展示部分实验结果,更多结果和分析详见原文。

fb0a58348c41c8ac1cf40d6add768603.png

▲ 表1 在Pascal VOC数据集上的匹配性能比较

486b1f0a9e95b9912e58732e5dff8478.png

▲ 表2 在Spair-71k数据集上的匹配性能比较

62c6da48eef4e1fdd18c53fee8c1bf59.png

▲ 图4 针对噪声关联的有效性分析

f7f71c5431780e95e6df7415cbafa322.png

总结


本文是噪声关联学习 NeurIPS2021 Oral [1]、CVPR2022 [2] 等工作的深入延续。[1] 针对跨模态匹配问题,基于对真实数据集 Conceptual Captions 的观察,揭示了假阳性的错误配对现象,首次正式提出了噪声关联学习的概念和方向,并给出了解决方案。[2] 以跨模态行人重识别任务为应用,揭露了噪声标签和其带来的噪声关联,即孪生噪声标签问题。

本文进一步探索视觉应用中特征匹配问题,揭示了图匹配中低质关键点标注导致的双重噪声关联问题,从不同粒度和层次拓宽了噪声关联问题的外沿。

outside_default.png

参考文献

outside_default.png

[1] Z. Huang, G. Niu, X. Liu, W. Ding, X. Xiao, H. Wu, and X. Peng*, Learning with Noisy Correspondence for Cross-modal Matching (NeurIPS), Dec 6-12, 2021, Online. (Oral,录用率约0.6%)

[2] M. Yang, Z. Huang, P. Hu, T. Li, J. Lv, X. Peng*, Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA. Jun. 19-25, 2022.

[3] Y. Lin, M. Yang, J. Yu, P. Hu, C. Zhang, X. Peng*, Graph Matching with Bi-level Noisy Correspondence, International Conference on Computer Vision (ICCV), Paris, France. Oct. 4-6, 2023.

[4] A. Moskalev, I. Sosnovik, V. Fischer, A. Smeulders, Contrasting quadratic assignments for set-based representation learning, European Conference on Computer Vision (ECCV), 2022.

更多阅读

549e3c205e27d2bfefe19dbf992e31fe.png

bc113d8337804806cba9e82c109f0ab7.png

940d86873ac29c2986517f25d6d98955.png

bb867615d0a42d84d37763b132c132d2.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

d2ab221cd40446462ef3a7a10c325427.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

f72dba1159f4caf4851928a4d80b4e16.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1038896.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

word文档莫名其妙的丢失了怎么办?7个方案恢复

不知道你是否曾经遇到过相似的情况:花费了数小时甚至数天编辑的Word文档,却莫名其妙的丢失了。这时的心情可能非常复杂。如果你不知道该怎么办,以下是几种恢复方案,希望能对你有所帮助! 关于Word文档 Word文档通常是由…

Vue路由与nodejs下载安装及环境变量的配置

目录 前言 一、Vue路由 1.路由简介 是什么 作用 应用场景 2.SPA简介 SPA是什么 SPA的优点 注意事项 3.路由实现思路 1.引入路由的js依赖 2.定义组件 3.定义组件与路径的对应关系 4.通过路由关系获取路由对象router 5.将路由对象挂载到实例中 6.触发路由事…

学生选课系统基础版

目录 一.Java 中的集合框架(上) 1.Java中的集合框架概述 2.Collection接口&接口简介 3.学生选课——创建学生类和课程类 4.学生选课——添加课程Ⅰ 5.学生选课——添加课程Ⅱ 6.学生选课——课程查询 7.学生选课——课程修改 8.学生选课——课程删…

Java日志源码详解,SpringBoot日志 slf4j、logback、log4j

日志视频讲解—上日志视频讲解—下学习文档集合 一、前提 在Java中说起日志,定听过这样几个名词:slf4j、logback、log4j,在正式开始之前,先了解几个简单的概念 slf4j、logback、log4j 的作者都是一个人slf4j 的全名是 Simple Log…

ByteTrack 论文学习

1. 解决了什么问题? 多目标跟踪是在给定的视频片段中,预测出目标的边框和 ID 信息。现有方法需要在 true positives 和 false positives 之间做取舍,将高于一定阈值的检测框关联起来,获取其 ID。而那些低得分的目标(如…

全新的Windows12上线抢先体验

AIGC专栏/AI绘画教程/java面试题领取 win12太离谱了,win11还没用几天,win12就已经出来了,如此流畅的页面,很具有和苹果一拼的效果,流畅度也是一流。文末有领取方式。 WIN12系统在色差表现方面也超越了苹果。它采用了前…

华为数通方向HCIP-DataCom H12-831题库(单选题:141-160)

第141题 R3与R1的IS-IS邻居没有建立,根据本图的信息,可能的原因是? A、R3与R1的IS-Level不匹配 B、R3与R1的互连接口circuit-type不匹配 C、R3与R1的IIH认证失 D、R3与R1的System ID重复 答案: B 解析: 从上图的Bad Circuit Type:16 可知道R3与R1的互连接口circuit-type…

【EI会议征稿】第三届计算机图形学、人工智能与数据处理国际学术会议 (ICCAID 2023)

第三届计算机图形学、人工智能与数据处理国际学术会议 2023 3rd International Conference on Computer Graphics, Artificial Intelligence and Data Processing (ICCAID 2023) 第三届计算机图形学、人工智能与数据处理国际学术会议(ICCAID 2023)将于…

基于数据驱动的成本洞察,趣丸科技的FinOps进阶之路~

今年以来,我们注意到越来越多的单位开始积极实践FinOps,而随着FinOps的发展,大家对于其落地过程的关注也更加具体和深入,涉及了账单波动、FinOps的边际效应、成本模型、依赖工具等多个关键问题。 本月「UGeek大咖说」线上直播活动…

机器学习之泛化与过拟合的概念

文章目录 泛化(Generalization):过拟合(Overfitting):例子 泛化(Generalization): 泛化是指机器学习模型在未见过的新数据上表现良好的能力。换句话说,一个好…

【软件测试】Junit5

Selenium自动化测试框架Junit单元测试框架拿着一个技术写自动化测试用例 (Selenium3)拿着一个技术管理已经编写好的测试用例 (Junit5) Junit相关技术 Junit是针对java的一个单元测试框架。 注解 Test 表示当前的这个方法是一个测试用例 添加依赖: 不需要main方…

解决react使用redux toolkits时出现的数组对象长度始终为0的怪异问题

有个react项目在添加购物车后,立马白屏,看一下console报错properties of undefined(reading length) 那意思是说数组没有长度,然后定位Header.tsx的182行,果然是数组长度报错 回到具体代码中:发现shoppingCartItems实…

大模型存在“反转诅咒”现象,无法处理反向问题;Langchain课程资源

🦉 AI新闻 🚀 大模型存在“反转诅咒”现象,无法处理反向问题 摘要:最新研究发现,大语言模型存在“反转诅咒”现象,即明知道“A 是 B”,却答不出“B 是 A”。研究人员进行了两项实验&#xff0…

【RocketMQ专题】快速实战及集群架构原理详解

目录 课程内容一、MQ简介基本介绍*作用(解决什么问题) 二、RocketMQ产品特点2.1 RocketMQ介绍2.2 RocketMQ特点2.3 RocketMQ的运行架构2.4 消息模型 三、RocketMQ快速实战3.1 快速搭建RocketMQ服务3.2 快速实现消息收发3.3 搭建Maven客户端项目3.4 搭建R…

Linear Feedback Shift Register

线性反馈移位寄存器(Linear Feedback Shift Register,简称LFSR)是一种数字电路设计和密码学中常用的寄存器类型。它是一种简单而高效的方式,用于生成伪随机的二进制序列,并在数据混淆、错误检测和加密等领域中有应用。…

怎么用蜂邮EDM和Outlook批量发送邮件带附件

蜂邮EDM和Outlook批量发送邮件带附件的流程?有哪些邮件批量发送邮件附件的方法? 在现代社会中,电子邮件是一种广泛应用的沟通工具,而批量发送邮件带附件则是许多商业和个人用户的常见需求。本文将介绍如何使用蜂邮EDM和Outlook这…

时序预测 | MATLAB实现POA-CNN-BiLSTM鹈鹕算法优化卷积双向长短期记忆神经网络时间序列预测

时序预测 | MATLAB实现POA-CNN-BiLSTM鹈鹕算法优化卷积双向长短期记忆神经网络时间序列预测 目录 时序预测 | MATLAB实现POA-CNN-BiLSTM鹈鹕算法优化卷积双向长短期记忆神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 MATLAB实现POA-CNN-BiLSTM鹈鹕算…

吉力宝:智能科技鞋品牌步力宝引领传统产业创新思维

在现代经济环境下,市场经济下产品的竞争非常的激烈,如果没有营销,产品很可能不被大众认可,酒香也怕巷子深,许多传统产业不得不面临前所未有的挑战。而为了冲出这个“巷子”,许多企业需要采用创新思维&#…

单片机外设-串口(UART)详情

目录 学习UART要先认识一些基础知识 一:什么是串行、并行通信? (1)串行通信 串行通信概念: 串行通信的特点: (2)并行通信 并行通信概念: 并行通信特点&#xff1…

FairMOT 论文学习

1. 解决了什么问题? 现有的多目标跟踪方案将目标检测和 reID 任务放在一个网络里面优化学习,计算效率高。目标检测首先在每一帧中检测出兴趣目标,要么将其与现有的轨迹关联起来,要么创建一个新的轨迹。这两个任务会相互竞争&…