文章目录
- 一、检测相关(6篇)
- 1.1 Memory-Efficient Graph Convolutional Networks for Object Classification and Detection with Event Cameras
- 1.2 PNT-Edge: Towards Robust Edge Detection with Noisy Labels by Learning Pixel-level Noise Transitions
- 1.3 Controllable Guide-Space for Generalizable Face Forgery Detection
- 1.4 EasyNet: An Easy Network for 3D Industrial Anomaly Detection
- 1.5 A real-time material breakage detection for offshore wind turbines based on improved neural network algorithm
- 1.6 TMR-RD: Training-based Model Refinement and Representation Disagreement for Semi-Supervised Object Detection
- 二、分割|语义相关(7篇)
- 2.1 Resolution-Aware Design of Atrous Rates for Semantic Segmentation Networks
- 2.2 Pre-Training with Diffusion models for Dental Radiography segmentation
- 2.3 Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy Dichotomous Image Segmentation
- 2.4 3D Semantic Subspace Traverser: Empowering 3D Generative Model with Shape Editing Capability
- 2.5 Improving Semi-Supervised Semantic Segmentation with Dual-Level Siamese Structure Network
- 2.6 Deepfake Image Generation for Improved Brain Tumor Segmentation
- 2.7 Hybrid Representation-Enhanced Sampling for Bayesian Active Learning in Musculoskeletal Segmentation of Lower Extremities
一、检测相关(6篇)
1.1 Memory-Efficient Graph Convolutional Networks for Object Classification and Detection with Event Cameras
基于事件摄像机的高效内存图卷积网络目标分类与检测
https://arxiv.org/abs/2307.14124
事件相机研究的最新进展强调以其原始稀疏形式处理数据,这允许使用其独特的功能,例如高时间分辨率,高动态范围,低延迟和抗图像模糊。分析事件数据的一种有前途的方法是通过图卷积网络(GCN)。然而,目前在这一领域的研究主要集中在优化计算成本,忽略了相关的内存成本。在本文中,我们考虑这两个因素,以达到令人满意的结果和相对较低的模型复杂度。为此,我们对不同的图卷积运算进行了比较分析,考虑了执行时间、可训练模型参数的数量、数据格式要求和训练结果等因素。我们的研究结果表明,减少了450倍的特征提取模块的参数的数量和4.5倍的数据表示的大小减少,同时保持分类准确率为52.3%,这是6.3%,高于在国家的最先进的方法中使用的操作。为了进一步评估性能,我们实现了对象检测架构,并在N-Caltech 101数据集上评估了其性能。结果显示,准确率为53.7%mAP@0.5,执行速度达到每秒82个图形。
1.2 PNT-Edge: Towards Robust Edge Detection with Noisy Labels by Learning Pixel-level Noise Transitions
PNT-Edge:通过学习像素级噪声转移实现带噪声标签的稳健边缘检测
https://arxiv.org/abs/2307.14070
以往的边缘检测方法依赖于具有像素级标签的大规模训练数据,取得了很高的性能。然而,很难准确地手动标记边缘,特别是对于大型数据集,因此数据集不可避免地包含噪声标签。这个标签噪声问题已被广泛研究的分类,而仍然在边缘检测的探索。为了解决边缘检测的标签噪声问题,本文提出了学习像素级NoiseTransitions来模拟标签损坏过程。为了实现这一目标,我们开发了一种新的逐像素移位学习(PSL)模块,以估计从干净到嘈杂的标签作为位移场的过渡。利用估计的噪声转换,我们的模型,命名为PNT-Edge,能够将预测拟合到干净的标签。此外,设计了局部边缘密度正则化项,以利用局部结构信息进行更好的过渡学习。该术语鼓励学习具有复杂局部结构的边缘的大位移。在SBD和Cityscapes上的实验证明了该方法在减轻标签噪声影响方面的有效性。代码将在Github上提供。
1.3 Controllable Guide-Space for Generalizable Face Forgery Detection
可控引导空间用于泛化人脸伪造检测
https://arxiv.org/abs/2307.14039
最近的人脸伪造检测研究已经显示出令人满意的性能的方法涉及的训练数据集,但不理想的未知领域。这促使许多工作,以提高泛化,但伪造无关的信息,如图像背景和身份,仍然存在于不同的领域的功能,并导致意外的聚类,限制了泛化。在本文中,我们提出了一个可控的引导空间(GS)的方法,以提高不同的伪造域的歧视,从而增加伪造相关的功能,从而提高泛化。设计良好的导空间可以同时实现正确的分离伪造域和大的距离之间的真实伪造域在一个明确的和可控的方式。此外,为了更好地区分,我们使用了解耦模块来削弱域之间伪造无关相关性的干扰。此外,我们根据邻域内相同域特征的聚类程度对决策边界流形进行调整。在多个域内和跨域设置的广泛实验证实,我们的方法可以实现国家的最先进的泛化。
1.4 EasyNet: An Easy Network for 3D Industrial Anomaly Detection
Easynet:一种简单的3D工业异常检测网络
https://arxiv.org/abs/2307.13925
三维异常检测是工业制造中一项新兴的重要计算机视觉任务。近年来,许多先进的算法相继问世,但大多数算法都不能满足即时通信的需要。有几个缺点:i)难以在生产线上部署,因为它们的算法严重依赖于大型预训练模型; ii)由于过度使用存储体而极大地增加存储开销; iii)推理速度不能实时实现。为了克服这些问题,我们提出了一个简单且部署友好的网络(称为EasyNet),而无需使用预先训练的模型和内存库:首先,我们设计了一个多尺度多模态特征编码器-解码器,以准确地重建异常区域的分割图,并鼓励RGB图像和深度图像之间的交互;其次,采用多模态异常分割网络实现精确的异常图;第三,我们提出了一个基于注意力的信息熵融合模块,用于推理过程中的特征融合,使其适合于实时部署。大量的实验表明,EasyNet实现了92.6%的异常检测AUROC,而无需使用预训练模型和内存库。此外,EasyNet比现有方法更快,在Tesla V100 GPU上具有94.55 FPS的高帧速率。
1.5 A real-time material breakage detection for offshore wind turbines based on improved neural network algorithm
基于改进神经网络算法的海上风电机组材料破损实时检测
https://arxiv.org/abs/2307.13765
海上风力涡轮机的完整性,可持续能源生产的关键,往往受到表面材料缺陷。尽管有各种检测技术的可用性,但在成本效益、效率和适用性方面仍然存在局限性。为了解决这些缺点,本研究引入了一种新的方法,该方法利用YOLOv8对象检测模型的高级版本,并辅以卷积块注意力模块(CBAM)以改进特征识别。优化的损失函数进一步细化了学习过程。采用来自新万金海上风电场的5,432张图像的数据集和公开可用的数据集,我们的方法进行了严格的测试。研究结果显示,缺陷检测稳定性大幅提高,标志着向高效涡轮机维护迈出了重要一步。这项研究的贡献为未来的研究指明了道路,可能会彻底改变可持续能源的做法。
1.6 TMR-RD: Training-based Model Refinement and Representation Disagreement for Semi-Supervised Object Detection
TMR-RD:基于训练的模型求精和表示不一致性的半监督目标检测
https://arxiv.org/abs/2307.13755
半监督目标检测(SSOD)可以结合有限的标记数据和大量的未标记数据,以提高现有目标检测器的性能和泛化能力。尽管取得了许多进展,最近的SSOD方法仍然受到噪声/误导性伪标签,经典的指数移动平均(EMA)策略,以及教师-学生模型在训练后期的共识的挑战。本文提出了一种新的基于训练的模型细化(TMR)阶段和一个简单而有效的表示不一致(RD)策略,以解决经典EMA和共识问题的局限性。教师-学生模型的TMR阶段优化了轻量级缩放操作,以细化模型的权重,并防止过度拟合或忘记来自未标记数据的学习模式。同时,RD策略有助于保持这些模型的分歧,鼓励学生模型探索互补的表征。此外,我们使用级联回归来生成更可靠的伪标签来监督学生模型。大量的实验表明,我们的方法优于国家的最先进的SSOD方法的性能。具体而言,所提出的方法优于无偏教师方法的平均mAP利润率为4.6%和5.3%时,使用部分标记和完全标记的数据的MS-COCO数据集,分别。
二、分割|语义相关(7篇)
2.1 Resolution-Aware Design of Atrous Rates for Semantic Segmentation Networks
语义分词网络中分辨率感知的ATROS速率设计
https://arxiv.org/abs/2307.14179
DeepLab是一种广泛使用的用于语义分割的深度神经网络,其成功归功于其称为atrous空间金字塔池(ASPP)的并行架构。ASPP使用具有不同无环率的多个无环卷积来提取局部和全局信息。然而,固定值的atrous率用于ASPP模块,这限制了其视场的大小。原则上,光圈率应该是根据目标任务或数据集来改变视场大小的超参数。然而,无功率的操纵不受任何准则的约束。本研究提出了实用的指导方针,以获得一个最佳的atrous率。首先,引入一个有效的语义切分感受域来分析切分网络的内部行为。我们观察到,ASPP模块的使用产生了一个特定的模式,在有效的感受野,这是跟踪揭示模块的潜在机制。因此,我们推导出实用的准则,以获得最佳的atrous率,这应该是基于输入图像的大小来控制。与其他值相比,使用最佳atrous率一致地改善了多个数据集的分割结果,包括STARE、CHASE_DB1、HRF、Cityscapes和iSAID数据集。
2.2 Pre-Training with Diffusion models for Dental Radiography segmentation
基于扩散模型的牙科影像分割预训练
https://arxiv.org/abs/2307.14066
医学射线照相分割,特别是牙科射线照相,是高度限制的标签,需要特定的专业知识和劳动密集型注释的成本。在这项工作中,我们提出了一种简单的预训练方法,利用去噪扩散概率模型(DDPM)进行语义分割,该模型在生成建模方面取得了令人印象深刻的结果。我们简单的方法在标签效率方面实现了卓越的性能,并且在预训练和下游任务之间不需要进行架构修改。我们建议首先通过利用DDPM训练目标来预训练Unet,然后在分割任务上微调所得模型。我们的实验结果表明,所提出的方法是有竞争力的国家的最先进的预训练方法的分割牙科X光片。
2.3 Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy Dichotomous Image Segmentation
联合-分割-联合:高精度二分图像分割的联合助推主干和结构
https://arxiv.org/abs/2307.14052
高精度二分图像分割(DIS)的目的是从自然场景中精确定位出类别不可知的前景目标。DIS的主要挑战是在绘制详细对象结构的同时识别高度准确的主导区域。然而,直接使用通用编码器-解码器架构可能导致高级特征的过剩供应,并且忽略了划分精细结构所必需的浅空间信息。为了填补这一空白,我们引入了一种新的Unite-Divide-Unite网络(UDUN),该网络可以重组和二分排列互补特征,以同时提高主干和结构识别的有效性。所提出的UDUN从几个优点出发。首先,一个双大小的输入馈送到共享的主干中,以产生更全面和详细的功能,同时保持模型的轻量级。其次,提出了一个简单的分治模块(DCM)解耦多尺度的低和高层次的功能到我们的结构解码器和主干解码器,分别获得结构和主干信息。此外,我们设计了一个主干结构聚合模块(TSA)在我们的联合解码器进行级联集成统一的高精度分割。因此,UDUN在总体DIS-TE的所有六个评估指标中均优于最先进的竞争对手,即:实现0.772加权F-测量和977 HCE。使用1024*1024输入,我们的模型可以使用ResNet-18以65.3 fps的速度进行实时推理。
2.4 3D Semantic Subspace Traverser: Empowering 3D Generative Model with Shape Editing Capability
三维语义子空间遍历器:增强三维生成模型的形状编辑能力
https://arxiv.org/abs/2307.14051
形状生成是产生3D形状作为用于3D内容创建的各种表示的实践。以往的三维形状生成的研究主要集中在形状的质量和结构,没有或很少考虑语义信息的重要性。因此,这样的生成模型往往无法保持形状结构的语义一致性或使形状的语义属性的操作在生成期间。在本文中,我们提出了一种新的语义生成模型命名为三维语义子空间遍历,利用特定类别的三维形状生成和编辑的语义属性。我们的方法利用隐函数作为3D形状表示,并结合了一种新的潜在空间GAN与线性子空间模型,发现语义维度的局部潜在空间的3D形状。子空间的每个维度对应于特定的语义属性,并且我们可以通过遍历这些维度的系数来编辑生成的形状的属性。实验结果表明,我们的方法可以产生合理的形状与复杂的结构,使语义属性的编辑。代码和训练模型可在https://github.com/TrepangCat/3D_Semantic_Subspace_Traverser上获得.
2.5 Improving Semi-Supervised Semantic Segmentation with Dual-Level Siamese Structure Network
利用双层暹罗结构网络改进半监督语义切分
https://arxiv.org/abs/2307.13938
半监督语义分割(SSS)是一项重要的任务,它利用标记和未标记的数据来减少标记训练样本的费用。然而,SSS算法的有效性是有限的,难以充分利用未标记数据的潜力。为了解决这个问题,我们提出了一个双层连体结构网络(DSSN)的逐像素对比学习。通过在低级别图像空间和高级别特征空间中使用强增强视图将正对与逐像素对比损失对齐,所提出的DSSN被设计为最大化可用未标记数据的利用率。此外,我们引入了一种新的类感知的伪标签选择策略弱到强的监督,解决了大多数现有的方法,不执行选择或应用预定义的阈值为所有类的限制。具体来说,我们的策略选择了每个类的弱视图的顶级高置信度预测,以生成监督强增强视图的伪标签。该策略能够考虑到类的不平衡性,提高长尾类的性能。我们提出的方法在两个数据集PASCAL VOC 2012和Cityscapes上实现了最先进的结果,显著优于其他SSS算法。
2.6 Deepfake Image Generation for Improved Brain Tumor Segmentation
用于改进脑肿瘤分割的深伪图像生成
https://arxiv.org/abs/2307.14273
随着世界在技术和健康方面的进步,通过揭示无症状体征来提高对疾病的认识。在早期阶段检测和治疗肿瘤是重要的,因为它可能危及生命。计算机辅助技术用于克服疾病诊断面临的挥之不去的限制,而脑肿瘤分割仍然是一个困难的过程,特别是当涉及多模态数据时。这主要是由于缺乏数据和相应的标签,导致培训效果不佳。这项工作研究了采用深度假图像生成进行有效脑肿瘤分割的可行性。为此,使用生成对抗网络进行图像到图像的转换,以增加数据集大小,然后使用基于U-Net的卷积神经网络进行图像分割,该卷积神经网络使用deepfake图像进行训练。所提出的方法的性能进行比较与地面真相的四个公开可用的数据集。结果表明,在图像分割质量指标方面的性能有所改善,并且在使用有限数据进行训练时可能会有所帮助。
2.7 Hybrid Representation-Enhanced Sampling for Bayesian Active Learning in Musculoskeletal Segmentation of Lower Extremities
基于混合表示增强采样的贝叶斯主动学习方法在肢体肌肉骨骼分割中的应用
https://arxiv.org/abs/2307.13986
目的:获取手动注释来训练深度学习(DL)模型以进行自动分割通常非常耗时。基于不确定性的贝叶斯主动学习(BAL)是一种广泛采用的方法,以减少注释工作。基于BAL,本研究介绍了一种混合代表增强的采样策略,集成密度和多样性标准,以节省人工注释成本,有效地选择最翔实的样本。 方法:采用基于贝叶斯U-网的BAL框架,在MRI和CT图像的两个下肢(LE)数据集上进行实验。我们的方法选择具有高密度和多样性的不确定样本进行手动修改,优化未标记实例的最大相似性和现有训练数据的最小相似性。我们评估的准确性和效率,使用骰子和建议的度量称为减少注释成本(RAC),分别。我们进一步评估了各种采集规则对BAL性能的影响,并设计了一项消融研究以进行有效性估计。 结果:所提出的方法表现出优越性或非劣效性的其他方法在两个数据集上跨两个采集规则,定量结果揭示了收购规则的利弊。我们的消融研究体积明智的收购表明,密度和多样性标准的组合优于单独使用它们中的任何一个在肌肉骨骼分割。 结论:我们的采样方法被证明是有效的,在减少图像分割任务的注释成本。所提出的方法和我们的BAL框架的组合提供了一个半自动的方式,有效的医学图像数据集的注释。