【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 23 日论文合集)

news2024/11/24 1:43:33

文章目录

  • 一、检测相关(4篇)
    • 1.1 Targeted collapse regularized autoencoder for anomaly detection: black hole at the center
    • 1.2 RXFOOD: Plug-in RGB-X Fusion for Object of Interest Detection
    • 1.3 Toward Automated Detection of Microbleeds with Anatomical Scale Localization: A Complete Clinical Diagnosis Support Using Deep Learning
    • 1.4 Comparative Analysis of Segment Anything Model and U-Net for Breast Tumor Detection in Ultrasound and Mammography Images
  • 二、分类|识别相关(3篇)
    • 2.1 Evading Forensic Classifiers with Attribute-Conditioned Adversarial Faces
    • 2.2 Feature Mixing for Writer Retrieval and Identification on Papyri Fragments
    • 2.3 Revisiting Image Classifier Training for Improved Certified Robust Defense against Adversarial Patches
  • 三、分割|语义相关(3篇)
    • 3.1 Robust Semantic Segmentation: Strong Adversarial Attacks and Fast Training of Robust Models
    • 3.2 FlowFace++: Explicit Semantic Flow-supervised End-to-End Face Swapping
    • 3.3 Curriculum Knowledge Switching for Pancreas Segmentation

一、检测相关(4篇)

1.1 Targeted collapse regularized autoencoder for anomaly detection: black hole at the center

用于异常检测的定向塌陷正则化自动编码器:中心黑洞

论文地址:

https://arxiv.org/abs/2306.12627

在这里插入图片描述
自动编码器已被广泛用于最近的异常检测技术的发展。其应用的前提是基于以下概念:在正常训练数据上训练自动编码器之后,异常输入将表现出显著的重建误差。因此,这使得能够清楚地区分正常和异常样本。然而,在实践中,可以观察到,自动编码器可以概括超出正常类,并实现一个小的重建误差的一些异常样本。为了提高性能,各种技术提出了额外的组件和更复杂的训练程序。在这项工作中,我们提出了一个非常简单的替代方案:代替添加神经网络组件、所涉及的计算和繁琐的训练,我们用调节潜在空间中的表示的范数的计算上轻的项来补充重建损失。我们的方法的简单性最大限度地减少了对新应用程序的超参数调整和定制的要求,再加上其允许的数据模态约束,增强了在广泛的应用程序中成功采用的潜力。我们在各种可视化和表格基准测试的方法,并证明该技术相匹配,并经常优于替代品。我们还提供了理论分析和数值模拟,以帮助展示在训练过程中展开的底层过程,以及它如何有助于异常检测。这减轻了基于自动编码器的异常检测算法的黑盒性质,并为进一步研究优势、失败案例和潜在的新方向提供了途径。

1.2 RXFOOD: Plug-in RGB-X Fusion for Object of Interest Detection

RXFOOD:用于感兴趣目标检测的插件RGB-X融合

论文地址:

https://arxiv.org/abs/2306.12621

在这里插入图片描述
不同传感器(近红外、深度等)的出现是对传统RGB摄像机有限应用场景的一种弥补。RGB-X任务依赖于RGB输入和另一种类型的数据输入来解决特定问题,已经成为多媒体领域的热门研究课题。双分支RGB-X深度神经网络的一个关键部分是如何跨模态融合信息。考虑到RGB-X网络内部的大量信息,先前的工作通常应用朴素融合(例如,平均或最大融合)或仅关注相同尺度的特征融合。而在本文中,我们提出了一种新的方法,称为RXFOOD的融合功能跨不同尺度的同一模态分支,并从不同的模态分支同时在一个统一的注意力机制。能量交换模块是为每个特征图的能量矩阵的交互而设计的,能量矩阵反映了特征图中不同位置和不同通道之间的相互关系。RXFOOD方法可以很容易地作为插件模块并入任何双分支编解码器网络,并帮助原始骨干网络更好地专注于重要位置和通道进行感兴趣对象检测。在RGB-NIR显著性目标检测、RGB-D显著性目标检测和RGBFrequency图像篡改检测上的实验结果表明了该算法的有效性。

1.3 Toward Automated Detection of Microbleeds with Anatomical Scale Localization: A Complete Clinical Diagnosis Support Using Deep Learning

走向解剖尺度定位的微出血自动检测:使用深度学习的完整临床诊断支持

论文地址:

https://arxiv.org/abs/2306.13020

在这里插入图片描述
脑微出血(Cerebral Microbleeds,CMB)是脑组织中少量血液产物的慢性沉积,根据其解剖位置,与各种脑血管疾病有明确的关系,包括认知功能减退、脑出血和脑梗死。然而,手动检测的CMB是一个耗时和容易出错的过程,因为它们的稀疏和微小的结构特性。CMB的检测通常受到许多CMB模拟物的存在的影响,这些CMB模拟物导致高假阳性率(FPR),例如钙化和软脑膜血管。本文提出了一种新的3D深度学习框架,该框架不仅检测CMB,而且还告知它们在大脑中的解剖位置(即,肺叶、深部和幕下区域)。对于CMB检测任务,我们提出了一个单一的端到端模型,通过利用U-Net作为骨干与区域建议网络(RPN)。为了显着减少相同的单一模型内的FP,我们开发了一个新的计划,包含特征融合模块(FFM),检测小候选人利用上下文信息和硬样本原型学习(HSPL),挖掘CMB模拟和生成额外的损失项称为浓度损失使用卷积原型学习(CPL)。解剖定位任务不仅告诉CMB属于哪个区域,而且通过利用解剖信息从检测任务中消除一些FP。结果表明,建议的RPN,利用FFM和HSPL优于香草RPN,并实现了94.66%的灵敏度相比。93.33%,每例受试者的平均假阳性数(FPavg)为0.86,而14.73.此外,解剖定位任务通过将FPavg降低到0.56同时保持94.66%的灵敏度来进一步提高检测性能。

1.4 Comparative Analysis of Segment Anything Model and U-Net for Breast Tumor Detection in Ultrasound and Mammography Images

超声和钼靶图像中乳腺肿瘤检测的分段任意模型和U-网的比较分析

论文地址:

https://arxiv.org/abs/2306.12510

在这里插入图片描述
在这项研究中,主要目的是开发一种算法,能够识别和描绘肿瘤区域的乳腺超声(BUS)和乳腺X线摄影图像。该技术采用了两种先进的深度学习架构,即U-Net和预训练的SAM,用于肿瘤分割。U-Net模型专为医学图像分割而设计,并利用其深度卷积神经网络框架从输入图像中提取有意义的特征。另一方面,预训练的SAM架构结合了捕获空间依赖性并生成分割结果的机制。在包含BUS和乳腺摄影图像中的注释肿瘤区域的不同数据集上进行评价,涵盖良性和恶性肿瘤。该数据集能够全面评估算法在不同肿瘤类型中的性能。结果表明,U-Net模型在准确识别和分割BUS和乳腺摄影图像中的肿瘤区域方面优于预训练的SAM架构。U-Net在涉及不规则形状、边界模糊和高肿瘤异质性的挑战性病例中表现出优异的性能。相比之下,预先训练的SAM架构在准确识别肿瘤区域方面表现出限制,特别是对于恶性肿瘤和具有弱边界或复杂形状的对象。这些发现强调了选择适合医学图像分割的适当深度学习架构的重要性。U-Net模型展示了其作为肿瘤检测的强大而准确的工具的潜力,而预训练的SAM架构表明需要进一步改进以提高分割性能。

二、分类|识别相关(3篇)

2.1 Evading Forensic Classifiers with Attribute-Conditioned Adversarial Faces

基于属性条件的对抗性面孔规避法医分类器

论文地址:

https://arxiv.org/abs/2306.13091

在这里插入图片描述
生成模型产生高度逼真的合成人脸图像的能力已经引起了安全和伦理方面的关注。作为针对这种假面孔的第一道防线,已经开发了基于深度学习的法医分类器。虽然这些取证模型可以高精度地检测人脸图像是合成的还是真实的,但它们也容易受到对抗性攻击。虽然这种攻击可以非常成功地逃避法医分类器的检测,但它们引入了通过仔细的人类审查可以检测到的可见噪声模式。此外,这些攻击假定访问目标模型,这可能并不总是正确的。已经尝试直接扰动GANs的潜在空间,以产生可以绕过法医分类器的对抗性假面孔。在这项工作中,我们更进一步,表明有可能成功地生成具有指定属性集的对抗性假脸(例如,头发颜色、眼睛大小、种族、性别等)。为了实现这一目标,我们利用了最先进的生成模型StyleGAN与解纠缠表示,这使得一系列的修改,而不离开自然图像的流形。我们提出了一个框架来搜索StyleGAN的特征空间内的对抗性潜在代码,其中搜索可以通过文本提示或参考图像来引导。我们还提出了一种基于元学习的优化策略,以实现未知目标模型的可转移性能。大量的实验表明,所提出的方法可以产生语义操纵的对抗性假脸,这是真正的指定的属性集,并可以成功地欺骗法医人脸分类器,同时保持人类无法检测。代码:https://github.com/koushiksrivats/face_attribute_attack.

2.2 Feature Mixing for Writer Retrieval and Identification on Papyri Fragments

基于特征混合的纸质纸片作者检索与识别

https://arxiv.org/abs/2306.12939

在这里插入图片描述
本文提出了一种基于深度学习的papyri作者检索和识别方法,重点是识别与特定作者相关的片段以及与同一图像对应的片段。我们提出了一种新的神经网络架构,它结合了残余骨干与特征混合阶段,以提高检索性能,和最终的描述符来自投影层。该方法根据两个基准进行评价:PapyRow,其中我们在写入器和页面检索上实现了26.6%和24.9%的mAP,以及HisFragIR20,显示出最先进的性能(44.0%和29.3%的mAP)。此外,我们的网络具有28.7%的准确率为作家识别。此外,我们进行实验的影响,两个二进制化技术的碎片,并表明二进制化不提高性能。我们的代码和模型可供社区使用。

2.3 Revisiting Image Classifier Training for Improved Certified Robust Defense against Adversarial Patches

重温图像分类器训练以改进针对恶意补丁的认证稳健防御

论文地址:

https://arxiv.org/abs/2306.12610

在这里插入图片描述
针对图像分类器的对抗性补丁的可证明的鲁棒防御确保了对受约束的像素邻域的任何变化的正确预测。PatchCleanser arXiv:2108.09135 [cs.CV]是最先进的认证防御,它使用了双掩蔽策略来实现稳健的分类。该策略的成功很大程度上依赖于模型的不变性图像像素掩蔽。在本文中,我们仔细研究模型训练计划,以提高这种不变性。我们引入了最坏情况掩蔽的概念,而不是使用随机剪切arXiv:1708.04552v2 [cs.CV]增强,如PatchCleanser,即,选择最大化分类损失的掩蔽图像。然而,找到最坏情况的掩码需要详尽的搜索,这可能在训练期间在运行中昂贵得令人望而却步。为了解决这个问题,我们提出了一个两轮的贪婪掩蔽策略(贪婪裁剪),找到一个近似的最坏情况下的掩模位置少得多的计算。我们表明,使用我们的Greedy Cutout训练的模型在一系列数据集和架构上比PatchCleanser中的Random Cutout提高了认证的鲁棒准确性。使用ViT-B16-224模型的ImageNet上认证的稳健准确性从58.1%提高到62.3%,而在图像上任何位置应用3%的正方形补丁。

三、分割|语义相关(3篇)

3.1 Robust Semantic Segmentation: Strong Adversarial Attacks and Fast Training of Robust Models

稳健语义分割:强对抗性攻击和稳健模型的快速训练

https://arxiv.org/abs/2306.12941

在这里插入图片描述
虽然大量的工作集中在设计针对图像分类器的对抗性攻击,但只有少数方法可以攻击语义分割模型。我们发现,攻击分割模型提出了特定于任务的挑战,为此,我们提出了新的解决方案。我们的最终评估协议优于现有的方法,并表明这些可以高估模型的鲁棒性。此外,到目前为止,对抗性训练,最成功的方式获得强大的图像分类器,不能成功地应用于语义分割。我们认为,这是因为要学习的任务更具挑战性,需要显着更高的计算工作量比图像分类。作为一种补救措施,我们表明,通过利用强大的ImageNet分类器的最新进展,可以通过微调强大的骨干,以有限的计算成本训练对抗性强大的分割模型。

3.2 FlowFace++: Explicit Semantic Flow-supervised End-to-End Face Swapping

FlowFace++:显式语义流监督的端到端人脸交换

论文地址:

https://arxiv.org/abs/2306.12686

在这里插入图片描述
本文提出了一个新的人脸交换框架FlowFace++,利用显式语义流监督和端到端架构,以促进形状感知的人脸交换。具体来说,我们的工作预训练面部形状鉴别器来监督面部交换网络。鉴别器是形状感知的,并依赖于语义流引导的操作来明确地计算目标和源面部之间的形状差异,从而优化面部交换网络以生成高度逼真的结果。人脸交换网络是预先训练的人脸掩蔽自动编码器(MAE)、交叉注意融合模块和卷积解码器的堆栈。MAE提供了一个细粒度的面部图像表示空间,这是统一的目标和源面部,从而有利于最终的真实结果。交叉注意融合模块在细粒度的潜在空间中执行源到目标面部交换,同时保留目标图像的其他属性(例如,图像的特征)。表情、头部姿势、头发、背景、照明等)。最后,卷积解码器根据来自交叉注意融合模块的人脸交换潜在嵌入进一步合成交换结果。在野外人脸上进行的大量定量和定性实验表明,我们的FlowFace++明显优于最先进的技术,特别是当源面受到不均匀照明或角度偏移的阻碍时。

3.3 Curriculum Knowledge Switching for Pancreas Segmentation

胰腺分割中的课程知识转换

论文地址:

https://arxiv.org/abs/2306.12651

在这里插入图片描述
胰腺分割是具有挑战性的,由于小比例和高度可变的解剖结构。这促使我们提出了一种新的分割框架,即课程知识转换(CKS)框架,它将胰腺检测分解为三个具有不同难度的阶段:简单,困难,具有挑战性。该框架从简单的阶段切换到具有挑战性的阶段,从而逐渐学会检测胰腺。此外,在切换过程中采用动量更新参数更新机制,保证了当输入数据集发生变化时损失逐渐收敛。实验结果表明,具有CKS框架的不同神经网络骨干在NIH数据集上实现了最先进的性能,如DSC度量所测量的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/677545.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

axios简单使用

axios简单使用 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-wid…

【杂谈】过往时期2-嵌入式求学故事线简忆

前一篇文章 过往时期 - 欢迎来到 Staok - 瞰百易 (gitee.io)。 在我兴趣广泛的过去&#xff0c;关于嵌入式方面的经历啊&#xff0c;讲一条这个的故事线。 小学&#xff0c;电子积木&#xff0c;灯泡&#xff0c;电机&#xff0c;上电发光、风扇旋转&#xff0c;风扇转的快了还…

AnyLogic仿真软件 8.8.2 Crack

AnyLogic仿真软件用于以下行业&#xff1a; 供应链 制造业 运输 仓库运营 铁路物流 矿业 石油和天然气 港口及码头 更多行业 为什么要进行仿真建模&#xff1f; 无风险环境 仿真建模提供了一种安全的方法来测试和探索不同的“假设”场景。在做出现实世界的改变之前做出正确的决…

第10章 隐式转换

第10章 隐式转换 package chapter10object Test01_TestImplicit {def main(args: Array[String]): Unit {val richInt new MyRichInt(12)println(richInt.myMax(15))// 1. 隐式函数implicit def convert(num: Int): MyRichInt new MyRichInt(num)println(12.myMax(15))// 2.…

登录校验原理过程和统一拦截技术(Cookie、Sesstion 和JWT令牌)

一、登录校验 问题&#xff1a;在未登录情况下&#xff0c;我们也可以直接访问部门管理、员工管理等功能。由于浏览器与web服务器中的数据交互是通过HTTP协议的&#xff0c;而HTTP协议是无状态的–即每个页面中的请求和响应都是独立的&#xff0c;没有状态存在。所以我们需要进…

【数据库】关系型数据库与非关系型数据库解析

【数据库】关系型数据库与非关系型数据库解析 文章目录 【数据库】关系型数据库与非关系型数据库解析1. 介绍2. 关系型数据库3. 非关系型数据库4. 区别4.1 数据存储方式不同4.2 扩展方式不同4.3 对事务性的支持不同4.4 总结 参考 1. 介绍 一个通俗易懂的比喻&#xff1a;关系型…

Xpath介绍以及语法

Xpath介绍 XML路径语言&#xff08;XML Path Language&#xff09;&#xff0c;它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构&#xff0c;提供在数据结构树中找寻节点的能力。 起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模…

第8章 模式匹配

第8章 模式匹配 基本概念和用法 模式守卫 package chapter08object Test01_PatternMatchBase {def main(args: Array[String]): Unit {// 1. 基本定义语法val x 5val y x match {case 1 > "one"case 2 > "two"case 3 > "three"ca…

《Reinforcement Learning: An Introduction》第6章笔记

Chapter 6 Temporal-Difference Learning If one had to identify one idea as central and novel to reinforcement learning, it would undoubtedly be temporal-difference (TD) learning. 时序差分学习&#xff08;temporal-difference (TD) learning&#xff09;组合了Mon…

PID控制算法 – 0、PID原理

1、开局一张图 很多地方都觉得PID的控制结构示意图是这样的&#xff1a; 2、目标值&#xff08;Setpoint&#xff09;、输入值&#xff08;Input&#xff09;、误差&#xff08;Error&#xff09; 其实把上图那个输入改为目标值&#xff08;Setpoint&#xff09;更合适&#…

canvas详解08-基本动画

由于我们是用 JavaScript 去操控 canvas 对象,这样要实现一些交互动画也是相当容易的。在本章中,我们将看看如何做一些基本的动画。 可能最大的限制就是图像一旦绘制出来,它就是一直保持那样了。如果需要移动它,我们不得不对所有东西(包括之前的)进行重绘。重绘是相当费…

CoreMark 跑个分:OrangePi5 RK3588S

一、 Orange Pi 5 简介 Orange Pi 5 采用了瑞芯微 RK3588S 新一代八核 64 位处理器&#xff0c;具体为四核A76四核A55&#xff0c;采用了 8nm 工艺设计&#xff0c;主频最高可达 2.4GHz&#xff0c;集成 ARM Mali-G610 MP4 GPU&#xff0c;内嵌高性能 3D 和 2D 图像加速模块&am…

【python桌面应用设计】tkinter库 01. Tkinter程序设计思想和结构(保姆级代码注释)

目录 实现思路代码实战简单的基础结构示例稍微丰富一点的示例 总结 『python图形化GUI界面设计』分享tkinter库、PyQt5库、wxPython库等相关的新手入门教程&#xff0c;目标是编写python程序时可以给程序一个可视化界面。 欢迎关注 『python桌面应用设计』 系列&#xff0c;持续…

ubuntu18.04安装ORBSLAM2

最近倒腾了一下旧项目&#xff0c;发现之前的环境不知道抽了什么风&#xff0c;直接不能用了&#xff0c;好吧&#xff0c;索性从头装过。 一、第三方库 主要包括Pangolin 、 OpenCV 、 Eigen g2o 与 DBoW2在ORB-SLAM2里面自带可以不需要自己搞 # 更新apt库,更新软件列表 su…

七、c++学习(加餐3:深入分析类和对象(下))

我们把这篇《深入分析类和对象》分为两篇&#xff0c;就是为了简化一下大家学习的压力&#xff0c;现在我们接下来看下一篇。 C学习&#xff0c;b站直播视频 文章目录 7.1 对象操作7.1.1 对象拷贝7.1.1.1 无拷贝赋值运算符7.1.1.2 测试编译器会不会自动生成7.1.1.3 自己写拷贝…

【吃透网络安全】2023软考网络管理员考点网络安全(四)防火墙详解

涉及知识点 什么是防火墙&#xff1f;防火墙的概念及定义&#xff0c;防火墙的优缺点&#xff0c;软考网络管理员常考知识点&#xff0c;软考网络管理员网络安全&#xff0c;网络管理员考点汇总。 后面还有更多续篇希望大家能给个赞哈&#xff0c;这边提供个快捷入口&#xf…

Reactive 环境配置 遇到的问题记录

问题&#xff1a;Watchman: watchman--no-pretty get-sockname returned with exit code 1 ERROR: Unknown option --no-pretty 解决方案&#xff1a;运行ReactNative工程watchman运行错误 解决过程就是&#xff0c;我的watchman 没安装好&#xff0c;于是卸载&#xff0c;重新…

电子电气架构 —— OEM关于DTC具体实现相关见解

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 我们当前遇到的几乎所有的成长问题都可以归结道目光短浅、及时满足的天性上,不过在现代社会,用避难趋易和急于求成来指代他们更贴切。 本文主要讲…

Vivado使用技巧之外部编辑器配置

目录 一、前言 二、编辑器配置 2.1 环境变量添加 2.2 环境变量验证 2.3 Vivado设置 2.4 配置验证 2.5 解决Vivado配置失败问题 一、前言 Vivado自带的默认编辑器功能受限&#xff0c;不如第三方编辑器Eclipse&#xff0c;Notepad&#xff0c;Sublime功能强大。因此&…

Python基础篇(八):文件和os、shutil模块

文件和os、shutil模块 1. 文件1.1 打开文件1.2 写入文件1.3 读取文件内容1.4 关闭文件1.5 异常处理 2. os模块2.1 获取当前工作目录2. 创建目录2.3 重命名文件或目录2.4 删除文件2.5 执行系统命令 3. shutil模块3.1 复制文件3.2 移动文件3.3 复制目录&#xff08;包括子目录和文…