【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 12 日论文合集)

news2025/1/12 10:00:56

文章目录

  • 一、检测相关(7篇)
    • 1.1 3D detection of roof sections from a single satellite image and application to LOD2-building reconstruction
    • 1.2 Towards exploring adversarial learning for anomaly detection in complex driving scenes
    • 1.3 Unveiling the invisible: Enhanced detection and analysis deteriorated areas in solar PV modules using unsupervised sensing algorithms and 3D augmented reality
    • 1.4 PKU-GoodsAD: A Supermarket Goods Dataset for Unsupervised Anomaly Detection and Segmentation
    • 1.5 Compact Twice Fusion Network for Edge Detection
    • 1.6 Rapid Deforestation and Burned Area Detection using Deep Multimodal Learning on Satellite Imagery
    • 1.7 Q-YOLO: Efficient Inference for Real-time Object Detection
  • 二、分割|语义相关(2篇)
    • 2.1 Automatic Generation of Semantic Parts for Face Image Synthesis
    • 2.2 Estimating label quality and errors in semantic segmentation data via any model

一、检测相关(7篇)

1.1 3D detection of roof sections from a single satellite image and application to LOD2-building reconstruction

基于单幅卫星图像的屋顶断面三维检测及其在LOD2建筑物重建中的应用

https://arxiv.org/abs/2307.05409

在这里插入图片描述
从卫星栅格图像中重建城市区域一直是学术界和工业界长期以来的一个具有挑战性的目标。今天的罕见的方法实现这个目标的细节水平 2 2 2依赖于基于几何的程序方法,并需要立体图像和/或激光雷达数据作为输入。我们在这里提出了一种名为KIBS(\textit{Keypoints Inference By Segmentation})的城市3D重建方法,它包括两个新特征:i)用于屋顶部分的3D检测的完整深度学习方法,以及ii)仅一个单个(非正交)卫星光栅图像作为模型输入。这通过两个步骤实现:i)通过Mask R-CNN模型执行建筑物的屋顶部分的2D分割,并且在RGB卫星光栅图像内混合这些后者分割的像素之后,ii)通过另一相同的Mask R-CNN模型经由全景分割推断屋顶部分的拐角的到地面的高度,直到建筑物和城市的完全3D重建。通过在几分钟内重建不同的城市区域,我们展示了KIBS方法的潜力,在我们的两个数据集上,单个屋顶部分的2D分割的Jaccard指数分别为88.55美元和75.21美元。并且在我们的两个数据集上,用于3D重建的这种正确分割的像素的高度的平均误差分别为1.60 $ m和2.06 $ m,因此在LOD 2精度范围内。

1.2 Towards exploring adversarial learning for anomaly detection in complex driving scenes

面向复杂驾驶场景异常检测的对抗性学习探索

https://arxiv.org/abs/2307.05256

在这里插入图片描述
许多自主系统(AS)中的一个,例如自主驾驶汽车,执行各种安全关键功能。许多这些自主系统利用人工智能(AI)技术来感知它们的环境。但是这些感知组件无法正式验证,因为这种基于AI的组件的准确性高度依赖于训练数据的质量。因此,基于机器学习(ML)的异常检测,一种识别不属于训练数据的数据的技术,可以在这种基于AI的组件的开发和操作期间用作安全测量指标。对抗性学习是机器学习的一个子领域,它已经证明了它在图像和视频中检测异常的能力,在简单的数据集上取得了令人印象深刻的结果。因此,在这项工作中,我们调查并提供了一个高度复杂的驾驶场景数据集称为伯克利DeepDrive的性能,这些技术的洞察。

1.3 Unveiling the invisible: Enhanced detection and analysis deteriorated areas in solar PV modules using unsupervised sensing algorithms and 3D augmented reality

揭开隐形的面纱:使用无监督传感算法和3D增强现实增强检测和分析太阳能光伏组件中恶化的区域

https://arxiv.org/abs/2307.05136

在这里插入图片描述
太阳能光伏(PV)正越来越多地用于解决全球关注的能源安全问题。然而,主要由裂纹引起的光伏组件中的热点和蜗牛轨迹降低了它们的效率和功率容量。本文介绍了一种开创性的方法,用于自动识别和分析太阳能光伏(PV)模块中的热点和蜗牛痕迹等异常,利用无监督传感算法和3D增强现实(AR)可视化。通过改变传统的诊断和维修方法,我们的方法不仅提高了效率,而且大大降低了光伏系统的维护成本。通过计算机模拟和真实世界的图像数据集验证,所提出的框架准确地识别脏区域,强调定期维护在优化太阳能光伏组件的功率容量的关键作用。我们的近期目标是利用无人机技术进行实时、自动的太阳能电池板检测,显著提高光伏维护的效率。所提出的方法可以彻底改变太阳能光伏维护,在没有人为干预的情况下实现快速,精确的异常检测。这可以导致显著的成本节约、提高的能量生产和改善的太阳能PV系统的整体性能。此外,无监督传感算法与3D AR可视化的新组合预示着太阳能光伏维护进一步研究和开发的新机会。

1.4 PKU-GoodsAD: A Supermarket Goods Dataset for Unsupervised Anomaly Detection and Segmentation

PKU-GoodsAD:一种用于无监督异常检测和分割的超市商品数据集

https://arxiv.org/abs/2307.04956

在这里插入图片描述
视觉异常检测是计算机视觉领域中的许多任务中必不可少且常用的。目前的异常检测数据集主要集中在工业自动化检测、医学图像分析和视频监控等领域。为了拓宽异常检测在无人超市和智能制造中的应用和研究,引入了超市商品异常检测(GoodsAD)数据集。它包含6124个高分辨率图像的484个不同的外观商品分为6类。每个类别包含几种常见的不同类型的异常,如变形,表面损伤和开放。异常包含结构变化和结构变化。它遵循无监督设置,并且仅使用正常(无缺陷)图像进行训练。为所有异常提供像素精确的地面实况区域。此外,我们还进行了一个彻底的评估,目前的国家的最先进的无监督异常检测方法。该初始基准指示在工业异常检测数据集上表现良好的一些方法(例如,MVTec AD)在我们的数据集上显示出较差的性能。这是一个全面的多对象数据集,用于超市商品异常检测,重点关注现实世界的应用。

1.5 Compact Twice Fusion Network for Edge Detection

用于边缘检测的紧凑型二次融合网络

https://arxiv.org/abs/2307.04952

在这里插入图片描述
多尺度特征的重要性已经逐渐被边缘检测界所认识。但多尺度特征的融合增加了模型的复杂度,不利于实际应用。在这项工作中,我们提出了一个紧凑的两次融合网络(CTFN),充分整合多尺度功能,同时保持模型的紧凑性。CTFN包括两个轻量级多尺度特征融合模块:语义增强模块(SEM),其可以利用包含在粗尺度特征中的语义信息来指导细尺度特征的学习;以及伪像素级加权(PPW)模块,其通过向所有特征分配权重来聚合多尺度特征的互补优点。尽管如此,纹理噪声的干扰使得一些像素的正确分类仍然是一个挑战。对于这些硬样本,我们提出了一种新的损失函数,创造动态焦点损失,重塑标准的交叉熵损失,并动态调整权重,以纠正硬样本的分布。我们在三个数据集上评估我们的方法,即,BSDS 500、NYUDv 2和BIPEDv 2。与现有的方法相比,CTFN以更少的参数和计算成本实现了具有竞争力的精度。除了主干,CTFN只需要0.1M的额外参数,这将其计算成本降低到其他最先进方法的60%。代码可在www.example.com上查阅https://github.com/Li-yachuan/CTFN-pytorch-master。

1.6 Rapid Deforestation and Burned Area Detection using Deep Multimodal Learning on Satellite Imagery

基于深度多模式学习的卫星图像快速森林砍伐和烧毁面积检测

https://arxiv.org/abs/2307.04916

在这里插入图片描述
由于亚马逊森林面积巨大,可达性有限,因此森林砍伐估计和火灾探测构成了重大挑战。然而,这些都是导致严重环境后果的关键问题,包括气候变化,全球变暖和生物多样性丧失。为了有效地解决这一问题,多模式卫星图像和遥感提供了一个有前途的解决方案,估计森林砍伐和检测野火在亚马逊地区。本文介绍了一种新的策划数据集和一种基于深度学习的方法,使用卷积神经网络(CNN)和综合数据处理技术来解决这些问题。我们的数据集包括来自Sentinel,Landsat,VIIRS和MODIS卫星的精选图像和各种通道波段。我们设计的数据集考虑不同的空间和时间分辨率的要求。我们的方法成功地实现了高精度的森林砍伐估计和燃烧区域检测看不见的图像从该地区。我们的代码、模型和数据集都是开源的:https://github.com/h2oai/cvpr-multiearth-deforestation-segmentation

1.7 Q-YOLO: Efficient Inference for Real-time Object Detection

Q-YOLO:实时目标检测的高效推理

https://arxiv.org/abs/2307.04816

在这里插入图片描述
实时目标检测在各种计算机视觉应用中起着至关重要的作用。然而,由于高计算和存储器要求,在资源受限的平台上部署实时对象检测器带来了挑战。本文描述了一种低比特量化方法来构建一个高效的单级检测器,称为Q-YOLO,它可以有效地解决传统量化YOLO模型中激活分布不平衡所导致的性能下降问题。Q-YOLO引入了一个完全端到端的训练后量化(PTQ)管道,该管道具有精心设计的基于单侧直方图(UH)的激活量化方案,该方案通过最小化均方误差(MSE)量化误差来确定通过直方图分析的最大截断值。COCO数据集上的大量实验证明了Q-YOLO的有效性,优于其他PTQ方法,同时在准确性和计算成本之间实现了更有利的平衡。这项研究有助于推进在资源有限的边缘设备上有效部署对象检测模型,从而实现实时检测,同时降低计算和内存开销。

二、分割|语义相关(2篇)

2.1 Automatic Generation of Semantic Parts for Face Image Synthesis

面向人脸图像合成的语义部分自动生成

https://arxiv.org/abs/2307.05317

在这里插入图片描述
语义图像合成(SIS)是指给定定义对象类的空间布局的语义分割掩模来生成逼真图像的问题。除了所生成的图像的质量之外,文献中的大多数方法都致力于寻找解决方案以增加风格方面的世代多样性,即质地但是,它们都忽略了一个不同的特征,即操纵掩模提供的布局的可能性。目前,这样做的唯一方式是通过图形用户界面手动地进行。在本文中,我们描述了一个网络架构,以解决自动操纵或生成的形状的对象类的语义分割面具的问题,特别关注人脸。我们提出的模型允许嵌入掩码类到一个潜在的空间,每个类嵌入可以独立编辑。然后,双向LSTM块和卷积解码器输出新的本地操纵的掩码。我们在CelebMask-HQ数据集上报告了定量和定性结果,这表明我们的模型可以在类级别上忠实地重建和修改分割掩码。此外,我们展示了我们的模型可以放在SIS生成器之前,打开了一个完全自动生成控制的形状和纹理的方式。代码可在https://github.com/TFonta/Semantic-VAE。

2.2 Estimating label quality and errors in semantic segmentation data via any model

通过任意模型估计语义切分数据中的标签质量和错误

https://arxiv.org/abs/2307.05080

在这里插入图片描述
语义分割数据集的劳动密集型注释过程通常容易出错,因为人类很难正确标记每个像素。我们研究的算法,自动检测这样的注释错误,特别是方法来评分标签质量,这样的图像与最低的分数是最不可能被正确标记。这有助于优先考虑要审查的数据,以确保高质量的训练/评估数据集,这在医学成像和自动驾驶汽车等敏感应用中至关重要。广泛适用,我们的标签质量分数依赖于从一个训练有素的分割模型的概率预测-任何模型架构和训练过程都可以使用。在这里,我们研究了7种不同的标签质量评分方法,这些方法与DeepLabV 3+或FPN分割模型结合使用,以检测SYNTHIA数据集版本中的注释错误。精确召回评估揭示了一个分数-每个像素的注释类的模型估计可能性的软最小值-这对于识别错误标记的图像特别有效,跨越多种类型的注释错误。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/746248.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探索嵌入式系统:初学者必知的核心概念解析

探索嵌入式系统:初学者必知的核心概念解析 嵌入式系统是指嵌入在其他设备或系统中的特定目的的计算机系统。它们通常用于控制、监测或执行特定任务,例如汽车的引擎控制单元、智能手机的操作系统或家电中的微控制器。对于初学者来说,以下是一…

Android自动化测试中如何处理各种弹窗

目录 弹窗的种类: APP内的业务弹窗 弹窗处理 watcher的使用 实战案例 总结: 在UI自动化测试中弹窗是影响自动化用例稳定性的一大因素,如何方便快捷的处理各种情况下的弹窗,是搞UI自动化测试必须要面临的问题. 弹窗的种类: 安装APP时的…

MySQL事务 | 隔离级别 | 数据一致性

文章目录 简介一、事务并发问题1. 脏读(Dirty Read)2. 不可重复读(Non-repeatable Read)3. 幻读(Phantom Read)幻读和不可重复读的区别 二、事务隔离级别1. 回顾事务2. 事务级别3. 特点和优缺点 三、事务隔…

科研笔记:一些有用的网站整理(更新中)

1 论文整理网站 整理AI相关领域的一些综述GitHub - KaiyuanGao/AI-Surveys: 整理AI相关领域的一些综述时间序列的paper/code汇总GitHub - qingsongedu/awesome-AI-for-time-series-papers: A professional list of Papers, Tutorials, and Surveys on AI for Time Series in t…

OpenSource - Spring Startup Ananlyzer

文章目录 🚀Optimization of Spring Startup核心能力📈Spring应用启动数据采集报告应用启动时长优化 📈Spring应用启动数据采集报告安装jar包配置项应用启动自定义扩展 🚀应用启动时长优化支持异步化的Bean类型接入异步Bean优化 开…

idea配置类注解和方法注解最详细教材

1.配置类注释 点击setting 方法一: 1.按照要求添加下图中的模板 /*** Author: aaa* Date: ${YEAR}/${MONTH}/${DAY}* Description: */ 2.勾选下面的两个勾后点击apply 方法二: 我们看到了在刚刚那个模板中有这样一句话 这句话是表示创建项目的时候会…

CASAIM与大疆达成全自动化测量技术合作,CASAIM IS全自动化蓝光测量仪实现无人机叶片全尺寸检测及质量控制

近期,CASAIM与大疆达成全自动化测量技术合作,CASAIM IS全自动化蓝光测量仪实现无人机叶片全尺寸检测及质量控制。 无人机行业在过去几年里取得了迅猛发展,大疆是全球领先的无人飞行器控制系统及无人机解决方案的研发商和生产商,客…

2023年网页设计制作工具盘点

过去,专业人员使用HTMLL、CSS、Javascript等代码手动编写和构建网站。现在有越来越多的智能网页制作工具来帮助任何人实现零代码基础,随意建立和设计网站。在本文中,我们将向您介绍2023年流行的网页制作工具。 1.即时设计 即时设计是一款UI…

​python接口自动化(三十一)--html测试报告通过邮件发出去——下(详解)​

简介  本篇总结了 QQ (SSL)邮箱和 163(非SSL) 邮箱发送邮件,专治各种不行,总之看完这篇以后麻麻再也不用担心我的邮件收不到了。以下代码兼容 python2 和 python3,运行无异常,放心大…

Jmeter脚本参数化和正则匹配

目录 一、参数化 1.用户定义的变量 2.CSV数据文件设置 3.用户参数 二、正则提取 1.JSON提取器 2.正则表达式提取器 我们在做接口测试过程中,往往会遇到以下几种情况 每次发送请求,都需要更改参数值为未使用的参数值,比如手机号注册、…

python爬虫_requests获取小黄人表情保存到文件夹

文章目录 ⭐前言💖 requests简介(发送请求)💖 urlretrieve简介(下载远程图片)💖 获取图片的接口保存到本地💖 加餐环节:前端vue3antd展示图片 ⭐结束 ⭐前言 大家好&…

Hightopo 使用心得(4)- 3D 场景 Graph3dView 与 Obj 模型

在前一篇文章《Hightopo 使用心得(3)- 吸附与锚点》中,我们在结尾处提到过 HT 的 3D 场景。这里我们通过代码建立一个 3D 场景并添加一个 Obj 模型来介绍一下 HT for Web 在 3D 场景和模型加载方面的使用。 这是我们最终实现的效果&#xff…

vue3使用monaco-editor插件,报错Unexpected usage

在使用monaco-editor插件的时候,运行时没有报错,打开页面报如上错误,可以关掉,但是页面变了 还会再出现,上网找了一圈报错,是因为插件引入时产生的问题 原来的 import * as Monaco from monaco-editor更改…

论文笔记--TinyBERT: Distilling BERT for Natural Language Understanding

论文笔记--TinyBERT: Distilling BERT for Natural Language Understanding 1. 文章简介2. 文章概括3 文章重点技术3.1 Transformer Distillation3.2 两阶段蒸馏 4. 数值实验5. 文章亮点5. 原文传送门6. References 1. 文章简介 标题:TinyBERT: Distilling BERT fo…

Java四个月学不学的会?我分享一下我的经历来告诉你

先说结论,java培训 四个月一般是能达到能上手工作的水平的,但是高中毕业就算了。高中毕业哪怕你能上手工作了,需求能完成了,也是大概率找不到工作的,这一行可能最看重学历的行业之一了。虽然说句实在话,就…

【Linux】基础开发工具——gcc/g++篇

文章目录 一、预处理1.1 头文件展开1.2 条件编译 二、编译三、汇编四、链接4.1 什么是库?4.2 库的分类4.3 目标文件和库是如何链接的?4.3.1 动态链接4.3.2 静态链接 4.4 动静态链接的优缺点对比 五、Debug&&release 前言 :  在前面的文章里给大…

VMware将虚拟机网络设置为NAT模式

虚拟机有vmware和desktop,本人一直使用的是vmware。安装好vmware并激活后,创建完虚拟机。(需要vmware和激活码的可留言) 进入虚拟机设置,网络适配器选择NAT模式 在虚拟机工具栏->菜单栏点击编辑,选择“虚拟网络编辑器”。 选择…

数据库应用:MySQL数据库用户管理

目录 一、理论 1.用户管理 2.授权控制 二、实验 1.数据库用户管理 2.数据库用户授权 三、总结 一、理论 1.用户管理 (1)用户信息 MySQL 中的用户信息,都存储在系统数据库 mysql 的 user 表中。 use mysql; select * from user lim…

【038】解码C++ STL:探索string容器的无限可能与鲜为人知的技巧

解码C STL:探索string容器的无限可能与鲜为人知的技巧 引言一、STL概述1.1、STL的基本概念1.2、STL的六大组件 二、string类2.1、string容器基本概念2.2、string容器常用操作2.2.1、string构造函数2.2.2、string基本赋值操作2.2.3、string存取字符操作原型2.2.4、st…

我们搬家啦!新家园,新征程,新篇章

7月10日 KaiwuDB 上海新总部开业典礼暨 “浪潮数据库产业联合实验室”揭牌仪式 于上海市浦东新区顺利举行 新起点,新征程,新篇章 🎉🎉 剪彩仪式 7月10日,上海浦东新区科技和经济委员会副主任夏玉忠,上…