文章目录

一、检测相关(11篇)
- 1.1 Adaptive Segmentation Network for Scene Text Detection
- 1.2 EFLNet: Enhancing Feature Learning for Infrared Small Target Detection
- 1.3 MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images
- 1.4 NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
- 1.5 The detection and rectification for identity-switch based on unfalsified control
- 1.6 GADER: GAit DEtection and Recognition in the Wild
- 1.7 A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos
- 1.8 Robust Detection, Assocation, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations
- 1.9 Towards multi-modal anatomical landmark detection for ultrasound-guided brain tumor resection with contrastive learning
- 1.10 Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision
- 1.11 A Weakly Supervised Segmentation Network Embedding Cross-scale Attention Guidance and Noise-sensitive Constraint for Detecting Tertiary Lymphoid Structures of Pancreatic Tumors

一、检测相关(11篇)

1.1 Adaptive Segmentation Network for Scene Text Detection

一种用于场景文本检测的自适应分割网络

https://arxiv.org/abs/2307.15029

在这里插入图片描述
受深度卷积分割算法的启发，场景文本检测器稳步突破数据集的性能上限。然而，这些方法经常遇到阈值选择瓶颈，并且在具有极端纵横比的文本实例上具有较差的性能。在本文中，我们提出了自动学习区分分割阈值，区分文本像素从背景像素的分割为基础的场景文本检测器，然后进一步减少耗时的手动参数调整。此外，我们设计了一个全局信息增强的特征金字塔网络（GE-FPN）捕获文本实例与宏大小和极端宽高比。在GE-FPN之后，我们引入级联优化结构来进一步细化文本实例。最后，结合本文提出的阈值学习策略和文本检测结构，设计了一个自适应分割网络（ASNet）用于场景文本检测。大量的实验表明，所提出的ASNet可以实现国家的最先进的性能在四个文本检测基准，即，ICDAR 2015、MSRA-TD500、ICDAR 2017 MLT和CTW1500。烧蚀实验也验证了我们的贡献的有效性。

1.2 EFLNet: Enhancing Feature Learning for Infrared Small Target Detection

EFLNet：增强红外小目标检测的特征学习

https://arxiv.org/abs/2307.14723

在这里插入图片描述
单帧红外小目标检测被认为是一项具有挑战性的任务，由于目标与背景的极度不平衡，包围盒回归算法对红外小目标极其敏感，并且小目标信息容易在高层语义层丢失。在本文中，我们提出了一个增强的特征学习网络（EFLNet）的基础上YOLOv7框架来解决这些问题。首先，我们注意到红外图像中目标和背景之间存在着极不平衡，这使得模型更加关注背景特征，导致漏检。为了解决这个问题，我们提出了一个新的自适应阈值焦点损失函数，自动调整损失的重量，迫使模型分配更多的关注目标功能。其次，我们引入了归一化高斯Wasserstein距离，以减轻模型收敛的困难所造成的极端敏感的包围盒回归红外小目标。最后，我们将一个动态头机制到网络中，使每个语义层的相对重要性的自适应学习。实验结果表明，我们的方法可以实现更好的性能相比，最先进的基于深度学习的方法在红外小目标的检测性能。

1.3 MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images

MIM-OOD：用于医学图像非分布检测的生成式掩模图像建模

https://arxiv.org/abs/2307.14701

在这里插入图片描述
无监督分布外（OOD）检测在于仅利用在健康解剖结构的图像上训练的模型来识别图像中的异常区域。一种已建立的方法是对图像进行标记化，并用自回归（AR）模型对标记的分布进行建模。AR模型用于1）识别异常令牌和2）具有分布中令牌的绘制中异常表示。然而，AR模型在推理时是缓慢的，并且容易出现错误累积问题，这对OOD检测性能产生负面影响。我们的新方法MIM-OOD克服了速度和错误累积问题，通过用两个特定于任务的网络替换AR模型：1）被优化为识别异常标记的Transformer，以及2）被优化为使用掩码图像建模（MIM）来绘制异常标记的变换器。我们对大脑MRI异常的实验表明，MIM-OOD大大优于AR模型（DICE 0.458 vs 0.301），同时实现了近25倍的加速（9.5s vs 244 s）。

1.4 NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

NERF-DET：用于多视点三维物体检测的学习几何感知体积表示

https://arxiv.org/abs/2307.14620

在这里插入图片描述
我们提出了NeRF-Det，一种新的室内三维检测方法，以RGB图像作为输入。与现有的室内3D检测方法难以对场景几何形状进行建模不同，我们的方法以端到端的方式使用NeRF来明确估计3D几何形状，从而提高3D检测性能。具体来说，为了避免与NeRF的每场景优化相关联的显著额外延迟，我们引入足够的几何先验来增强NeRF-MLP的可推广性。此外，我们巧妙地连接检测和NeRF分支通过一个共享的MLP，使一个有效的适应NeRF检测和产生几何感知的体积表示的3D检测。我们的方法在ScanNet和ARKITScenes基准测试中分别优于最先进的3.9 mAP和3.1 mAP。我们提供了广泛的分析，以阐明NeRF-Det是如何工作的。由于我们的联合训练设计，NeRF-Det能够很好地推广到看不见的场景，用于对象检测，视图合成和深度估计任务，而不需要每个场景的优化。代码可在\url{https：//github.com/facebookresearch/NeRF-Det}获得。

1.5 The detection and rectification for identity-switch based on unfalsified control

基于防伪控制的身份切换检测与纠错

https://arxiv.org/abs/2307.14591

在这里插入图片描述
多目标跟踪（MOT）的目的是对视频中检测到的目标进行连续跟踪和识别。目前，大多数用于多目标跟踪的方法对运动信息进行建模，并将其与外观信息相结合来确定和跟踪目标。针对多目标跟踪中的身份切换问题，提出了一种基于非伪造控制的多目标跟踪方法。我们建立了一系列的外观信息变化的轨迹在跟踪过程中，并设计了一个检测和整流模块，专门用于ID开关的检测和恢复。我们还提出了一个简单而有效的策略，以解决在数据关联过程中的外观信息的模糊匹配的问题。公开的MOT数据集上的实验结果表明，该跟踪器具有良好的有效性和鲁棒性，在处理由遮挡和快速运动引起的跟踪错误。

1.6 GADER: GAit DEtection and Recognition in the Wild

Gader：野外步态检测与识别

https://arxiv.org/abs/2307.14578

在这里插入图片描述
步态识别具有基于行走模式而不是颜色信息来鲁棒地识别主体的前景。虽然先前的方法对于策划的室内场景表现良好，但是它们显著地阻碍了在不受约束的情况下的适用性，例如，户外远距离场景我们提出了一个端到端的步态检测和识别（GADER）算法，在具有挑战性的户外场景中的人体认证。具体而言，GADER利用双螺旋签名来检测人体运动的片段，并采用了一种新的步态识别方法，该方法通过从辅助RGB识别模型中提取来学习表示。在推理时，GADER仅使用轮廓模态，但受益于更鲁棒的表示。在室内和室外数据集上的大量实验表明，该方法在步态识别和验证方面优于最先进的方法，在无约束的长距离场景中有20.6%的显著改善。

1.7 A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos

一种记忆增强的驾驶视频无监督交通事故检测多任务协作框架

https://arxiv.org/abs/2307.14575

在这里插入图片描述
识别驾驶视频中的交通事故对于确保自动驾驶和驾驶辅助系统的安全至关重要。为了解决驾驶事件的长尾分布所引起的潜在危险，现有的交通事故检测（TAD）方法主要依赖于无监督学习。然而，由于摄像机的快速移动和驾驶场景中的动态场景，TAD仍然具有挑战性。现有的无监督TAD方法主要依赖于单个借口任务，即，基于外观或未来的对象定位任务，以检测事故。然而，基于外观的方法很容易受到干扰的快速移动的相机和光照的变化，这显着降低了交通事故检测的性能。基于未来对象定位的方法可能无法捕获视频帧中的外观变化，使得难以检测涉及自我的事故（例如，失去自我车辆的控制）。在本文中，我们提出了一种新的内存增强的多任务协作框架（MAMTCF）在驾驶视频中的无监督交通事故检测。与以往的方法不同，我们的方法可以更准确地检测自我参与和非自我事故，同时建模的外观变化和对象运动的视频帧，通过光流重建和未来的对象定位任务的合作。此外，我们引入了一个内存增强的运动表示机制，以充分探索不同类型的运动表示之间的相互关系，并利用存储在内存中的正常流量模式的高层次功能，以增强运动表示，从而扩大从异常的差异。最近发表的大规模数据集上的实验结果表明，我们的方法实现了更好的性能相比，以前的国家的最先进的方法。

1.8 Robust Detection, Assocation, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations

车灯的稳健检测、关联和定位：一种基于上下文的级联CNN方法和评估

https://arxiv.org/abs/2307.14571

在这里插入图片描述
重要的下游安全自主驾驶任务需要车辆灯光检测，例如预测车辆的灯光状态以确定车辆是否正在变道或转弯。当前，许多车灯检测器使用单级检测器，其预测边界框以与车辆实例解耦的方式识别车灯。在本文中，我们提出了一种方法，用于检测车辆的光给定的上游车辆检测和近似的可见光的中心。我们的方法预测与每个车灯相关联的四个近似角。我们实验了CNN架构，数据增强和上下文预处理方法，旨在减少周围车辆的混乱。我们实现了一个平均距离误差从地面真实角的5.09像素，约17.24%的大小，平均车灯。我们在LISA Lights数据集上训练和评估我们的模型，使我们能够在各种各样的车灯形状和照明条件下彻底评估我们的车灯角点检测模型。我们建议，该模型可以集成到一个管道与车辆检测和车灯中心检测，使一个完整的形成车灯检测网络，有价值的轨迹信息信号在驾驶场景中识别。

1.9 Towards multi-modal anatomical landmark detection for ultrasound-guided brain tumor resection with contrastive learning

基于对比学习的超声引导下脑肿瘤切除多模式解剖标志检测

https://arxiv.org/abs/2307.14523

在这里插入图片描述
医学扫描之间的同源解剖标志有助于各种临床应用中的图像配准质量的定量评估，例如用于超声引导的脑肿瘤切除术中的组织移位校正的MRI超声配准。虽然手动识别MRI和超声（US）之间的标志对极大地促进了任务的不同配准算法的验证，但该过程需要大量的专业知识、劳动力和时间，并且可能易于发生评估者间和评估者内的不一致。到目前为止，已经提出了许多传统和机器学习方法用于解剖标志检测，但它们主要集中在单模态应用。不幸的是，尽管有临床需要，但很少尝试模态间/对比标志检测。因此，我们提出了一种新的对比学习框架，以检测在神经外科中MRI和术中US扫描之间的相应标志。具体而言，联合训练两个卷积神经网络以编码MRI和US扫描中的图像特征，以帮助匹配包含MRI中的相应标志的US图像块。我们开发和验证的技术使用公共RESECT数据库。平均标志点检测精度为5.88 ± 4.79 mm，而SIFT特征为18.78 ± 4.77 mm，所提出的方法首次为神经外科应用中的MRI-US标志点检测提供了有希望的结果。

1.10 Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision

技术说明：ShinyAnimalCV：开源的基于云的Web应用程序，用于使用计算机视觉对动物进行对象检测、分割和三维可视化

https://arxiv.org/abs/2307.14487

在这里插入图片描述
计算机视觉（CV）是一种非侵入性且具有成本效益的技术，通过及时和个性化的动物护理实现优化决策，促进了精准畜牧业的发展。经济实惠的二维和三维摄像头传感器的可用性，与各种机器学习和深度学习算法相结合，为改善畜牧业生产系统提供了宝贵的机会。然而，尽管公共领域中有各种CV工具，但将这些工具应用于动物数据可能是具有挑战性的，通常需要用户具有编程和数据分析技能，以及访问计算资源。此外，精准畜牧业的快速扩张正在创造越来越多的需要教育和训练动物科学专业学生的CV。这给教育工作者带来了有效地演示CV中涉及的复杂算法的挑战。因此，本研究的目的是开发ShinyAnimalCV，一个开源的基于云的Web应用程序。该应用程序提供了一个用户友好的界面，用于执行CV任务，包括对象分割，检测，三维表面可视化，提取二维和三维形态特征。应用程序中包括使用顶视图动物数据的九个预训练CV模型。ShinyAnimalCV已使用云计算平台在线部署。ShinyAnimalCV的源代码可在GitHub上获得，以及使用自定义数据训练CV模型和本地部署ShinyAnimalCV的详细文档，以允许用户充分利用应用程序的功能。ShinyAnimalCV可以为动物科学界的CV研究和教学做出贡献。

1.11 A Weakly Supervised Segmentation Network Embedding Cross-scale Attention Guidance and Noise-sensitive Constraint for Detecting Tertiary Lymphoid Structures of Pancreatic Tumors

嵌入跨尺度注意引导和噪声敏感约束的弱监督分割网络检测胰腺肿瘤的三级淋巴结构

https://arxiv.org/abs/2307.14603

在这里插入图片描述
胰腺病理图像上三级淋巴样结构（TLSs）的存在是胰腺肿瘤的重要预后指标。因此，对胰腺病理图像进行TLSs检测对胰腺肿瘤患者的诊断和治疗具有重要意义。然而，基于深度学习的全监督检测算法通常需要大量的人工标注，耗时耗力。在本文中，我们的目标是通过提出一个弱监督分割网络检测的Few-Shot学习的方式的TLS。我们首先通过结合用于核分割的预训练模型和用于淋巴细胞核识别的域对抗网络来获得淋巴细胞密度图。然后，我们建立了一个跨尺度的注意力引导机制，通过共同学习的粗尺度功能，从原始的组织病理学图像和细尺度功能，从我们设计的淋巴细胞密度的注意。通过在训练过程中嵌入符号距离函数损失来引入噪声敏感约束，以减少微小的预测误差。两个收集的数据集上的实验结果表明，我们提出的方法显着优于国家的最先进的基于分割的算法在TLS检测精度。此外，我们应用我们的方法来研究TLSs密度和胰周血管侵犯之间的一致性关系，并获得一些临床统计学结果。