文章目录

一、检测相关(7篇)
- 1.1 3D detection of roof sections from a single satellite image and application to LOD2-building reconstruction
- 1.2 Towards exploring adversarial learning for anomaly detection in complex driving scenes
- 1.3 Unveiling the invisible: Enhanced detection and analysis deteriorated areas in solar PV modules using unsupervised sensing algorithms and 3D augmented reality
- 1.4 PKU-GoodsAD: A Supermarket Goods Dataset for Unsupervised Anomaly Detection and Segmentation
- 1.5 Compact Twice Fusion Network for Edge Detection
- 1.6 Rapid Deforestation and Burned Area Detection using Deep Multimodal Learning on Satellite Imagery
- 1.7 Q-YOLO: Efficient Inference for Real-time Object Detection
二、分割|语义相关(2篇)
- 2.1 Automatic Generation of Semantic Parts for Face Image Synthesis
- 2.2 Estimating label quality and errors in semantic segmentation data via any model

一、检测相关(7篇)

1.1 3D detection of roof sections from a single satellite image and application to LOD2-building reconstruction

基于单幅卫星图像的屋顶断面三维检测及其在LOD2建筑物重建中的应用

https://arxiv.org/abs/2307.05409

在这里插入图片描述
从卫星栅格图像中重建城市区域一直是学术界和工业界长期以来的一个具有挑战性的目标。今天的罕见的方法实现这个目标的细节水平 $2$ 依赖于基于几何的程序方法，并需要立体图像和/或激光雷达数据作为输入。我们在这里提出了一种名为KIBS（\textit{Keypoints Inference By Segmentation}）的城市3D重建方法，它包括两个新特征：i）用于屋顶部分的3D检测的完整深度学习方法，以及ii）仅一个单个（非正交）卫星光栅图像作为模型输入。这通过两个步骤实现：i）通过Mask R-CNN模型执行建筑物的屋顶部分的2D分割，并且在RGB卫星光栅图像内混合这些后者分割的像素之后，ii）通过另一相同的Mask R-CNN模型经由全景分割推断屋顶部分的拐角的到地面的高度，直到建筑物和城市的完全3D重建。通过在几分钟内重建不同的城市区域，我们展示了KIBS方法的潜力，在我们的两个数据集上，单个屋顶部分的2D分割的Jaccard指数分别为88.55美元和75.21美元。并且在我们的两个数据集上，用于3D重建的这种正确分割的像素的高度的平均误差分别为1.60 $ m和2.06 $ m，因此在LOD 2精度范围内。

1.2 Towards exploring adversarial learning for anomaly detection in complex driving scenes

面向复杂驾驶场景异常检测的对抗性学习探索

https://arxiv.org/abs/2307.05256

在这里插入图片描述
许多自主系统（AS）中的一个，例如自主驾驶汽车，执行各种安全关键功能。许多这些自主系统利用人工智能（AI）技术来感知它们的环境。但是这些感知组件无法正式验证，因为这种基于AI的组件的准确性高度依赖于训练数据的质量。因此，基于机器学习（ML）的异常检测，一种识别不属于训练数据的数据的技术，可以在这种基于AI的组件的开发和操作期间用作安全测量指标。对抗性学习是机器学习的一个子领域，它已经证明了它在图像和视频中检测异常的能力，在简单的数据集上取得了令人印象深刻的结果。因此，在这项工作中，我们调查并提供了一个高度复杂的驾驶场景数据集称为伯克利DeepDrive的性能，这些技术的洞察。

1.3 Unveiling the invisible: Enhanced detection and analysis deteriorated areas in solar PV modules using unsupervised sensing algorithms and 3D augmented reality

揭开隐形的面纱：使用无监督传感算法和3D增强现实增强检测和分析太阳能光伏组件中恶化的区域

https://arxiv.org/abs/2307.05136

在这里插入图片描述
太阳能光伏（PV）正越来越多地用于解决全球关注的能源安全问题。然而，主要由裂纹引起的光伏组件中的热点和蜗牛轨迹降低了它们的效率和功率容量。本文介绍了一种开创性的方法，用于自动识别和分析太阳能光伏（PV）模块中的热点和蜗牛痕迹等异常，利用无监督传感算法和3D增强现实（AR）可视化。通过改变传统的诊断和维修方法，我们的方法不仅提高了效率，而且大大降低了光伏系统的维护成本。通过计算机模拟和真实世界的图像数据集验证，所提出的框架准确地识别脏区域，强调定期维护在优化太阳能光伏组件的功率容量的关键作用。我们的近期目标是利用无人机技术进行实时、自动的太阳能电池板检测，显著提高光伏维护的效率。所提出的方法可以彻底改变太阳能光伏维护，在没有人为干预的情况下实现快速，精确的异常检测。这可以导致显著的成本节约、提高的能量生产和改善的太阳能PV系统的整体性能。此外，无监督传感算法与3D AR可视化的新组合预示着太阳能光伏维护进一步研究和开发的新机会。

1.4 PKU-GoodsAD: A Supermarket Goods Dataset for Unsupervised Anomaly Detection and Segmentation

PKU-GoodsAD：一种用于无监督异常检测和分割的超市商品数据集

https://arxiv.org/abs/2307.04956

在这里插入图片描述
视觉异常检测是计算机视觉领域中的许多任务中必不可少且常用的。目前的异常检测数据集主要集中在工业自动化检测、医学图像分析和视频监控等领域。为了拓宽异常检测在无人超市和智能制造中的应用和研究，引入了超市商品异常检测（GoodsAD）数据集。它包含6124个高分辨率图像的484个不同的外观商品分为6类。每个类别包含几种常见的不同类型的异常，如变形，表面损伤和开放。异常包含结构变化和结构变化。它遵循无监督设置，并且仅使用正常（无缺陷）图像进行训练。为所有异常提供像素精确的地面实况区域。此外，我们还进行了一个彻底的评估，目前的国家的最先进的无监督异常检测方法。该初始基准指示在工业异常检测数据集上表现良好的一些方法（例如，MVTec AD）在我们的数据集上显示出较差的性能。这是一个全面的多对象数据集，用于超市商品异常检测，重点关注现实世界的应用。

1.5 Compact Twice Fusion Network for Edge Detection

用于边缘检测的紧凑型二次融合网络

https://arxiv.org/abs/2307.04952

在这里插入图片描述
多尺度特征的重要性已经逐渐被边缘检测界所认识。但多尺度特征的融合增加了模型的复杂度，不利于实际应用。在这项工作中，我们提出了一个紧凑的两次融合网络（CTFN），充分整合多尺度功能，同时保持模型的紧凑性。CTFN包括两个轻量级多尺度特征融合模块：语义增强模块（SEM），其可以利用包含在粗尺度特征中的语义信息来指导细尺度特征的学习;以及伪像素级加权（PPW）模块，其通过向所有特征分配权重来聚合多尺度特征的互补优点。尽管如此，纹理噪声的干扰使得一些像素的正确分类仍然是一个挑战。对于这些硬样本，我们提出了一种新的损失函数，创造动态焦点损失，重塑标准的交叉熵损失，并动态调整权重，以纠正硬样本的分布。我们在三个数据集上评估我们的方法，即，BSDS 500、NYUDv 2和BIPEDv 2。与现有的方法相比，CTFN以更少的参数和计算成本实现了具有竞争力的精度。除了主干，CTFN只需要0.1M的额外参数，这将其计算成本降低到其他最先进方法的60%。代码可在www.example.com上查阅https://github.com/Li-yachuan/CTFN-pytorch-master。

1.6 Rapid Deforestation and Burned Area Detection using Deep Multimodal Learning on Satellite Imagery

基于深度多模式学习的卫星图像快速森林砍伐和烧毁面积检测

https://arxiv.org/abs/2307.04916

在这里插入图片描述
由于亚马逊森林面积巨大，可达性有限，因此森林砍伐估计和火灾探测构成了重大挑战。然而，这些都是导致严重环境后果的关键问题，包括气候变化，全球变暖和生物多样性丧失。为了有效地解决这一问题，多模式卫星图像和遥感提供了一个有前途的解决方案，估计森林砍伐和检测野火在亚马逊地区。本文介绍了一种新的策划数据集和一种基于深度学习的方法，使用卷积神经网络（CNN）和综合数据处理技术来解决这些问题。我们的数据集包括来自Sentinel，Landsat，VIIRS和MODIS卫星的精选图像和各种通道波段。我们设计的数据集考虑不同的空间和时间分辨率的要求。我们的方法成功地实现了高精度的森林砍伐估计和燃烧区域检测看不见的图像从该地区。我们的代码、模型和数据集都是开源的：https://github.com/h2oai/cvpr-multiearth-deforestation-segmentation

1.7 Q-YOLO: Efficient Inference for Real-time Object Detection

Q-YOLO：实时目标检测的高效推理

https://arxiv.org/abs/2307.04816

在这里插入图片描述
实时目标检测在各种计算机视觉应用中起着至关重要的作用。然而，由于高计算和存储器要求，在资源受限的平台上部署实时对象检测器带来了挑战。本文描述了一种低比特量化方法来构建一个高效的单级检测器，称为Q-YOLO，它可以有效地解决传统量化YOLO模型中激活分布不平衡所导致的性能下降问题。Q-YOLO引入了一个完全端到端的训练后量化（PTQ）管道，该管道具有精心设计的基于单侧直方图（UH）的激活量化方案，该方案通过最小化均方误差（MSE）量化误差来确定通过直方图分析的最大截断值。COCO数据集上的大量实验证明了Q-YOLO的有效性，优于其他PTQ方法，同时在准确性和计算成本之间实现了更有利的平衡。这项研究有助于推进在资源有限的边缘设备上有效部署对象检测模型，从而实现实时检测，同时降低计算和内存开销。

二、分割|语义相关(2篇)

2.1 Automatic Generation of Semantic Parts for Face Image Synthesis

面向人脸图像合成的语义部分自动生成

https://arxiv.org/abs/2307.05317

在这里插入图片描述
语义图像合成（SIS）是指给定定义对象类的空间布局的语义分割掩模来生成逼真图像的问题。除了所生成的图像的质量之外，文献中的大多数方法都致力于寻找解决方案以增加风格方面的世代多样性，即质地但是，它们都忽略了一个不同的特征，即操纵掩模提供的布局的可能性。目前，这样做的唯一方式是通过图形用户界面手动地进行。在本文中，我们描述了一个网络架构，以解决自动操纵或生成的形状的对象类的语义分割面具的问题，特别关注人脸。我们提出的模型允许嵌入掩码类到一个潜在的空间，每个类嵌入可以独立编辑。然后，双向LSTM块和卷积解码器输出新的本地操纵的掩码。我们在CelebMask-HQ数据集上报告了定量和定性结果，这表明我们的模型可以在类级别上忠实地重建和修改分割掩码。此外，我们展示了我们的模型可以放在SIS生成器之前，打开了一个完全自动生成控制的形状和纹理的方式。代码可在https://github.com/TFonta/Semantic-VAE。

2.2 Estimating label quality and errors in semantic segmentation data via any model

通过任意模型估计语义切分数据中的标签质量和错误

https://arxiv.org/abs/2307.05080

在这里插入图片描述
语义分割数据集的劳动密集型注释过程通常容易出错，因为人类很难正确标记每个像素。我们研究的算法，自动检测这样的注释错误，特别是方法来评分标签质量，这样的图像与最低的分数是最不可能被正确标记。这有助于优先考虑要审查的数据，以确保高质量的训练/评估数据集，这在医学成像和自动驾驶汽车等敏感应用中至关重要。广泛适用，我们的标签质量分数依赖于从一个训练有素的分割模型的概率预测-任何模型架构和训练过程都可以使用。在这里，我们研究了7种不同的标签质量评分方法，这些方法与DeepLabV 3+或FPN分割模型结合使用，以检测SYNTHIA数据集版本中的注释错误。精确召回评估揭示了一个分数-每个像素的注释类的模型估计可能性的软最小值-这对于识别错误标记的图像特别有效，跨越多种类型的注释错误。