文章目录
- 一、检测相关(7篇)
- 1.1 Drone navigation and license place detection for vehicle location in indoor spaces
- 1.2 BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection
- 1.3 Domain Adaptation for Enhanced Object Detection in Foggy and Rainy Weather for Autonomous Driving
- 1.4 Object-aware Gaze Target Detection
- 1.5 Automating Wood Species Detection and Classification in Microscopic Images of Fibrous Materials with Deep Learning
- 1.6 Rethinking Intersection Over Union for Small Object Detection in Few-Shot Regime
- 1.7 Surgical Action Triplet Detection by Mixed Supervised Learning of Instrument-Tissue Interactions
一、检测相关(7篇)
1.1 Drone navigation and license place detection for vehicle location in indoor spaces
室内空间车辆定位的无人机导航和车牌位置检测
https://arxiv.org/abs/2307.10165
每年有数百万辆汽车被运输,紧紧地停在船只或小船上。为了降低火灾等相关安全问题的风险,了解车辆的位置至关重要,因为不同的车辆可能需要不同的缓解措施,例如:电动车这项工作旨在创建一种基于纳米无人机的解决方案,该无人机可以在一排排停放的车辆中导航并检测其车牌。我们通过墙跟随算法和CNN训练来检测车牌。所有的计算都在无人机上实时完成,它只发送位置和检测到的图像,从而创建带有盘子位置的2D地图。我们的解决方案能够读取八个测试用例中的所有板(有几排板、不同的无人机速度或弱光),通过聚合几个无人机旅程中的测量结果。
1.2 BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection
BSDM:高光谱异常检测的背景抑制扩散模型
https://arxiv.org/abs/2307.09861
高光谱异常探测在地球观测和深空探测中有着广泛的应用。HAD的一个主要挑战是输入高光谱图像(HSI)的复杂背景,导致在背景中混淆的异常。另一方面,缺乏标记样本的HSIs导致现有的HAD方法的泛化能力差。本文首次尝试研究一个新的和可推广的背景学习问题,没有标记的样本。我们提出了一种新的解决方案BSDM(背景抑制扩散模型)HAD,它可以同时学习潜在的背景分布和推广到不同的数据集抑制复杂的背景。其特点有三个方面:(1)针对HSI的复杂背景,设计了伪背景噪声,并利用扩散模型(DM)学习了伪背景噪声中潜在的背景分布。(2)对于泛化性问题,我们应用了一个统计偏移模块,使BSDM适应不同领域的数据集,而无需标记样本。(3)为了实现背景抑制,我们创新性地改进了DM的推理过程,将原始的HSI输入到去噪网络中,去除背景作为噪声。我们的工作为HAD铺平了一种新的背景抑制方法,可以提高HAD的性能,而不需要人工标记数据的前提。四个HAD方法在几个真实HSI数据集上的评估和推广实验证明了所提出的方法的上述三个独特的属性。该代码可在https://github.com/majitao-xd/BSDM-HAD获得。
1.3 Domain Adaptation for Enhanced Object Detection in Foggy and Rainy Weather for Autonomous Driving
雾雨天气下自动驾驶增强目标检测的域自适应算法
https://arxiv.org/abs/2307.09676
由于众所周知的域偏移问题,大多数用于自动驾驶的对象检测模型在部署在现实世界的应用中时可能会经历性能的显著下降。用于自动驾驶的监督对象检测方法通常假设训练数据和测试数据之间的一致特征分布,然而,当天气条件显著不同时,这种假设可能并不总是如此。例如,由于域间隙,在晴朗天气下训练的对象检测模型在雾天或雨天可能表现不佳。克服雾天或雨天场景中的检测瓶颈是部署在野外的自动驾驶车辆面临的重大挑战。为了解决不同天气条件下的领域空白问题,提出了一种新的雾雨天气下自动驾驶领域自适应目标检测框架。我们的方法利用图像级和对象级的适应,以减少图像风格和对象外观的域差异。此外,为了提高模型在具有挑战性的样本下的性能,我们引入了一个新的对抗性梯度反转层,该层在领域适应的同时对硬样本进行对抗性挖掘。此外,我们建议通过数据增强来生成辅助域,以执行新的域级度量正则化。公共基准测试的实验结果表明,对象检测性能显着提高时,使用我们提出的方法在域转移的情况下,自动驾驶应用程序。
1.4 Object-aware Gaze Target Detection
基于目标感知的凝视目标检测
https://arxiv.org/abs/2307.09662
凝视目标检测旨在预测人正在观看的图像位置以及凝视不在场景的概率。一些作品通过回归以凝视位置为中心的凝视热图来解决这个任务,然而,他们忽略了解码人和凝视对象之间的关系。本文提出了一种基于Transformer的体系结构,该体系结构自动检测场景中的对象(包括头部),以在每个头部和凝视的头部/对象之间建立关联,从而产生全面的、可解释的凝视分析,包括:凝视目标区域、凝视像素点、凝视对象的类别和图像位置。在野外基准的评估后,我们的方法在所有指标上实现了最先进的结果(AUC增加2.91%,注视距离减少50%,帧外平均精度增加9%),用于注视目标检测,并且用于注视对象的分类和定位的平均精度提高了11-13%。所提出的方法的代码可从https://github.com/francescotonini/object-aware-gaze-target-detection获得。
1.5 Automating Wood Species Detection and Classification in Microscopic Images of Fibrous Materials with Deep Learning
基于深度学习的纤维材料显微图像木材种类自动检测与分类
https://arxiv.org/abs/2307.09588
我们已经开发了一种方法,系统地生成一个大型的图像数据集的浸渍木材参考,我们用来生成9个硬木属的图像数据集。这是第一次通过深度学习自动识别纤维材料显微图像中硬木物种的实质性方法的基础。我们的方法包括一个灵活的管道容易注释的血管元素。我们比较了不同的神经网络架构和超参数的性能。我们所提出的方法表现类似于人类专家。未来,这将改善对全球木纤维产品流动的控制,以保护森林。
1.6 Rethinking Intersection Over Union for Small Object Detection in Few-Shot Regime
少射条件下小目标检测中交集优先于并集的再思考
https://arxiv.org/abs/2307.09562
在Few-Shot物体检测(FSOD)中,检测小物体是非常困难的。有限的监督削弱了模型的本地化能力,并且几个像素的移位可以显着减少地面实况和预测框之间的联合相交(IoU)的小对象。为此,我们提出了一种新的框相似性措施,尺度自适应相交联盟(SIoU)。SIoU随物体的大小而变化,对于小物体的移位更宽松。我们进行了一项用户研究,SIoU比IoU更符合人类判断。使用SIoU作为评估标准有助于构建更面向用户的模型。SIoU还可以用作损失函数,在训练期间对小对象进行优先级排序,从而优于现有的损失函数。SIoU改进了非少数拍摄方案中的小对象检测,但这种设置在行业中是不现实的,因为注释的检测数据集通常过于昂贵而无法获取。因此,我们的实验主要集中在Few-Shot制度,以证明SioU损失的优越性和通用性。SIoU显著提高了自然(Pascal VOC和COCO数据集)和航空图像(DOTA和DIOR)中小物体的FSOD性能。在航空图像中,小物体是关键的,SIoU损失在DOTA和DIOR上实现了新的最先进的FSOD。
1.7 Surgical Action Triplet Detection by Mixed Supervised Learning of Instrument-Tissue Interactions
基于器械-组织相互作用的混合监督学习的手术动作三联体检测
https://arxiv.org/abs/2307.09548
手术动作三元组将器械-组织相互作用描述为(器械、动词、目标)组合,从而支持手术场景活动和工作流程的详细分析。这项工作的重点是手术动作三联体检测,这是具有挑战性的,但比传统的三联体识别任务更精确,因为它包括关节(1)手术器械的定位和(2)识别与每个定位器械相关联的手术动作三联体。由于缺乏空间三联体注释,三联体检测非常复杂。我们分析了仪器空间注释的量如何影响三重检测,并观察到由于与动词和目标的错误关联的风险,准确的仪器定位并不能保证更好的三重检测。为了解决这两个任务,我们提出了MCIT-IG,一个两阶段的网络,代表多类仪器感知的转换器交互图。我们的网络模型的MCIT阶段每个类嵌入的目标作为额外的功能,以减少错误关联的三胞胎的风险。此外,IG阶段构建了一个二分动态图,以模拟工具和目标之间的相互作用,铸造为动词。我们利用混合监督学习策略,结合弱目标存在标签MCIT和伪三元组标签IG来训练我们的网络。我们观察到,补充最小仪器空间注释与目标嵌入的结果更好的三联体检测。我们在CholecT 50数据集上评估了我们的模型,并在仪器定位和三联体检测方面表现出了改进的性能,在MICCAI 2022中CholecTriplet挑战的排行榜上名列前茅。