杂乱知识点记录

news2024/9/8 23:59:28

杂乱知识点记录

  • 1 目标检测评估指标
  • 2 visual grounding
  • 3 分割
  • 4 VLM经典框架
  • 5 RCNN系列
    • RCNN
    • Fast RCNN
    • Faster RCNN
    • Mask RCNN
  • 6 GIOU
  • 7 DETR系列
    • DETR
    • Deformable DETR
    • DAB-DETR
    • DN-DETR
    • DINO
  • 8 COCO2014
  • 9 COCO评价指标 maxDets=[1,10,100]
  • 10 FCOS:anchor-free
  • 11 ATSS

1 目标检测评估指标

目标检测和实例分割:box mAP 和 mask mAP。
precision:预测的正例中,真实正例的比例。
recall:预测出的真实正例占所有真实正例的比例。
IoU:交并比,预测框与gt的交集/并集。
目标检测的评估:设置一个置信度阈值和一个交并比阈值,后者一般取50%,然后大于置信度阈值和交并比阈值的框则认为是检测出某类别物体。
PR曲线:设置不同的置信度阈值,得到对于的precision-recall,画出折线图。
平均精度AP:对于某个类别,计算出PR曲线下方的面积,即积分。通常需要将锯齿状曲线做平滑处理,即对于某个recall值的precision,取其右侧(>该recall值)中最大的precision,这样得到的PR曲线是单调递减的。进一步的,用插值AP简化积分计算。例如,在0~1取平均的11个点,然后算出平均的precision值(经过平滑的值)。但是这么处理的AP不精确。
更精确的AP计算方法:设数据集中正例的数量为m,则应该可以得到m+1个不同的召回率值,然后在这些位置进行采样,对于每个pi,权重为ri-1-ri。
mAP:mean average precision,对所有类别的AP求平均。
论文中的AP一般是IoU0.5到0.95的均值:
在这里插入图片描述

R@k:
在这里插入图片描述

LVIS的类别分为3种,论文实验表对应的AP:APr APc APf

2 visual grounding

visual grounding的输入是图片和描述,输出是物体的box。分两类,一类是phrase localization,他需要检测出描述中提到的所有物体;一类是REC(Referring Expression Comprehension),每一句描述只指示一个物体。

3 分割

实例分割:检测出特定的物体实例,并进行分割。
语义分割:为图像中每个像素进行类别分类,但是同类别的对象(实例)不区分。
全景分割:对图像中的所有像素进行类别分类和实例区分。

4 VLM经典框架

用大量图像文本训练模型,实现各种视觉任务的zero-shot。
对比:如clip,通过对比学习将正样本对的特征拉进,负样本对拉远。
生成:masked再恢复,然后用生成误差进行网络更新。

5 RCNN系列

RCNN

搜索出region,需要裁剪出region后resize,然后CNN,最后用SVM分类。在这里插入图片描述

Fast RCNN

不重复CNN而是对原图卷积池化。再根据region proposal将每个region通过RoI池化得到相同size的特征,然后进行分类(改为了softmax)和回归。
在这里插入图片描述

Faster RCNN

region propoal的提取不再用搜索算法,而是用RPN(下图),使整个模型的特征提取都在同一个网络完成。
在这里插入图片描述
在这里插入图片描述

Mask RCNN

可以进行实例分割。相比Faster RCNN的改动是RoIAlign和FCN。
FCN:输出的mask是80xmxm,80是因为COCO是80类。对于每个RoI,根据预测的类别k,只算第k个mxm的loss,其它79个mask不管。这样就避免了roi重叠导致的类间竞争。
在这里插入图片描述
在这里插入图片描述

6 GIOU

当框没有重叠时,GIOU还能进行优化,即缩小C-(AUB)的占比。当框有重叠时,与IOU的效果差不多。
在这里插入图片描述
在这里插入图片描述

7 DETR系列

DETR

参考自:https://blog.csdn.net/qq_38253797/article/details/127616634
对于decoder中的q的自注意力的作用以及自注意力+交叉注意力作为输出的目的的分析如下:q自注意力可以获得物体信息(物体间的关系)。
损失函数:labels+cardinality+boxes+masks
其中的cardinality是计算个图像中被预测成类别的数量与gt真实数量的数量
损失,不用于训练优化。
masks:用于分割,这里没有用到。
对于二分图匹配,他是先不区分patch地计算出损失矩阵:
分类 + L1 box + GIOU box,然后再取出不同图片的矩阵,再调用scipy的函数。
在这里插入图片描述

Deformable DETR

改进DETR收敛慢的问题(计算复杂度高),同时引入了多尺度。

做法:提出了可变形DETR,即把encoder的attention、encoder与decoder的cross-attention换成了稀疏的可变形注意力模块。且无需FPN即可实现多尺度。

分析1:下图公式是attention的计算,初始化时
Amqk得到的注意力权重是平均的,k的维度数量Nk越
多,则平均之后权重越小,对input特征的梯度不明
确,需要长时间的训练来调整权重。
分析2:一般通道数小于q和k的token数量,所以
复杂度的关键是Amqk的计算以及Amqk与V相乘项的
复杂度(第三项)。
在这里插入图片描述
对DETR中长宽分别为H、W的特征图的attention复杂度:
encoder :O(HWHWC)
decoder-crossattention:O(NHWC+HWCC),这里因为q是N个,它不一定远大于C,所以保留两项。
encoder-selfattention:O(2NCC+NNC),感觉该文的这些计算有些常数系数遗漏。
上述3个中,前两个的计算复杂度较高,所以应用了可变形 attention。

多尺度可变形attention:
有l个尺度。这些尺度是从backbone提炼来的。
对于encoder,从 backbone提取多尺度特征,然后用可变形attention计算。
对于coder-crossattention,也用可变形attention,要注意,由于此时的注意力计算是采样HW中的k个,所以最后预测box的位置是相对于参考点的,参考点的坐标是通过将q进行映射=sigmoid实现的。
在这里插入图片描述

在这里插入图片描述

DAB-DETR

参考自:https://zhuanlan.zhihu.com/p/560513044
优化DETR收敛慢的问题:decoder的可学习q没有提供位置先验。
做法:将decoder的q改为4d的anchor,同时在计算交叉注意力时,引入w和h的信息,使得注意力跟尺度相关。此外,q是可以在每一层都通过MLP得到矫正的,这样更新更快。

DN-DETR

参考自:https://www.zhihu.com/question/517340666/answer/2381304399
在DAB-DETR基础上的改进。
动机:DETR的二分图匹配前期是不稳定的,导致anchor的偏移预测不稳定。
做法:训练时,在匹配任务中加入去噪任务,加快模型前期的收敛
在这里插入图片描述

DINO

参考自:https://zhuanlan.zhihu.com/p/540786844
基于DAB-DETR和DN-DETR,继续提高模型性能和收敛效率。
改进1:去噪任务中,引入负样本的去噪任务。当输入的框的噪声太大时,其与真实框接近,但不是真实框、此时不进行真实框的去噪,而是进行类别的判别(是否为object)。
改进2:deformable detr中的decoder的query的初始化是用从encoder的输出进行选择的,包括anchors和content queries,其中的content queries是未优化的可能有歧义,因此将其改为可学习参数。
改进3:box的更新做了优化,无特别,具体看论文。

8 COCO2014

类别:80类,id值是1~90,其中有一些id没有。
3种标注:目标实例(box和分割都有)、caption、关键点。

9 COCO评价指标 maxDets=[1,10,100]

该指标的意思是分别保留测试集的每张图上置信度排名第1、前10、前100个预测框,根据这些预测框和真实框进行比对,来计算AP、AR等值

10 FCOS:anchor-free

直接预测每个位置对应的物体的上下左右边界。
如果一个物体被多个位置预测,则选择离中心近的;如果一个位置有多个物体,则选择框小的。

11 ATSS

参考自:https://zhuanlan.zhihu.com/p/358125611
优化FCOS的超参难调问题,使得正样本分配机制更灵活。
RetinaNet和FCOS的对比:trick一样的情况下,前者仍然效果较差,说明有差距的原因不是trick,而是正负样本划分方法或bbox回归方式。表2 对比可知原因是正负样本划分方式。
在这里插入图片描述
在这里插入图片描述
ATSS的backbone、neck、head:
backbone和RetinaNet相同
neck加了add_extra_convs=‘on_output’,其余和
RetinaNet相同
head和FCOS相同

图1说明了2种正负样本划分方式的简要情况。前者根据一个统一的IoU阈值进行划分,最终只有1个正样本。后者先得到候选正样本点(是否落在某个gt里),然后再根据回归scale选择正样本点(落在几个gt,需要回归的框有多大),最终有2个正样本点。这说明FCOS的正负样本划分策略能够得到更多的正样本。
在这里插入图片描述
其简要流程为(原话):
计算每个 gt bbox 和多尺度输出层的所有 anchor 之间的 IoU
计算每个 gt bbox 中心坐标和多尺度输出层的所有 anchor 中心坐标的 l2 距离
遍历每个输出层,遍历每个 gt bbox,找出当前层中 topk (超参,默认是 9 )个最小 l2 距离的 anchor 。假设一共有 l 个输出层,那么对于任何一个 gt bbox,都会挑选出 topk×l 个候选位置
对于每个 gt bbox,计算所有候选位置 IoU 的均值和标准差,两者相加得到该 gt bbox 的自适应阈值
遍历每个 gt bbox,选择出候选位置中 IoU 大于阈值的位置,该位置认为是正样本,负责预测该 gt bbox
如果 topk 参数设置过大,可能会导致某些正样本位置不在 gt bbox 内部,故需要过滤掉这部分正样本,设置为背景样本
某种手段是指计算每个 gt bbox 和所有 anchor 之间的 IoU topk 操作;每个 gt bbox 和 anchor 计算得到的 IoU 值即为适应度值,值越大越可能是正样本;计算 gt bbox 和候选 anchor 的 IoU 均值和标准差即为对适应度值计算统计值得到全局阈值;然后采用每个 gt bbox 各自的全局预测进行切分即可得到正样本。

举个例子简要概述:假设当前图片中,一共 2 个 gt bbox,一共 5 个输出层,每层都是 100 个 anchor
遍历每个 gt bbox,和 500 个 anchor 都计算 IoU 和中心坐标的 L2 距离值
遍历 5 个输出层,对于每个 gt bbox,都选择 topk=9 个 l2 距离最小的 anchor,此步骤完成后每个 gt bbox,一共挑选出 9x5=45 个候选 anchor
遍历每个 gt bbox,将挑选出来的 45 个 anchor 所对应的 IoU 计算均值和标准差,然后相加,此时 2 个 gt bbox,都可以得到各自的全局预测
最后遍历每个 gt bbox,在候选 anchor 中将 IoU 值低于阈值的 anchor 设置为负样本,其余为正样

正负样本划分策略的分析:选择均值和标准差来作为阈值,是因为高均值体现了anchor的质量越好,高标准差体现了不同层的区分度很大。
鲁棒性:即使一开始anchor的设置不太好,也能得到均值和方差较低的正样本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1203238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

公司让我开发一个管理系统,有了它,So easy!

目录 一、前言 二、低代码如何快速开发? 1.可视化开发 2.预构建的组件和模板 3.集成的开发和测试工具 4.跨平台兼容性 5.可伸缩性和可扩展性 三、前后端分离的开发框架 技术架构 一、前言 长期以来,常规软件开发是一项艰苦而详尽的工作。开发人员编写代表…

CMT2300A超低功耗127-1020MHz Sub-1GHz全频段SUB-1G 射频收发芯片

CMT2300A超低功耗127-1020MHz Sub-1GHz全频段SUB-1G 射频收发芯片 Sub-1GHz,是指小于1GHz频率的统称。Sub-1GHz无线电频段应用的主要特点:(1)频率较低波长较长,传输距离远,穿透性强;&#xff0…

阿里云国际站:专有网络vpc

文章目录 一、阿里云专有网络的概念 二、专有网络的组成部分 三、专有网络的优势 一、阿里云专有网络的概念 专有网络VPC是阿里云用户在云上创建的私有网络,用户自己掌控,可以自定义IP地址段、创建交换机、配置路由表和网关等操作。用户可以在自己的专…

假冒 Skype 应用程序网络钓鱼分析

参考链接: https://slowmist.medium.com/fake-skype-app-phishing-analysis-35c1dc8bc515 背景 在Web3世界中,涉及假冒应用程序的网络钓鱼事件相当频繁。慢雾安全团队此前曾发表过分析此类网络钓鱼案例的文章。由于Google Play在中国无法访问,许多用户…

个推「数据驱动运营增长」上海专场:携程智行火车票分享OTA行业的智能用户运营实践

近日,以“数据增能,高效提升用户运营价值”为主题的个推「数据驱动运营增长」城市巡回沙龙上海专场圆满举行。携程智行火车票用户运营负责人王银笛分享OTA行业的智能用户运营实践。 ▲ 王银笛 携程智行火车票用户运营负责人 负责智行业务线用户运营。从0…

竞赛 题目:基于FP-Growth的新闻挖掘算法系统的设计与实现

文章目录 0 前言1 项目背景2 算法架构3 FP-Growth算法原理3.1 FP树3.2 算法过程3.3 算法实现3.3.1 构建FP树 3.4 从FP树中挖掘频繁项集 4 系统设计展示5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基于FP-Growth的新闻挖掘算法系统的设计与实现…

短剧软件APP开发方案

一、项目概述 短剧软件APP是一款集创作、拍摄、观看短剧于一体的移动应用。用户可以随时随地创作自己的短剧,也可以观看其他用户创作的短剧。本方案将详细介绍短剧软件APP的开发流程。 二、需求分析 在开发短剧软件APP之前,需要进行详细的需求分析。通…

MS321V/358V/324V低压、轨到轨输入输出运放

MS321V/MS358V/MS324V 是单个、两个和四个低压轨到轨输 入输出运放,可工作在幅度为 2.7V 到 5V 的单电源或者双电源条件 下。在低电源、空间节省和低成本应用方面是最有效的解决方案。 这些放大器专门设计为低压工作( 2.7V 到 5V )…

采集标准Docker容器日志:部署阿里云Logtail容器以及创建Logtail配置,用于采集标准Docker容器日志

文章目录 引言I 预备知识1.1 LogtailII 查询语法2.1 具体查询语法2.2 查询示例2.3 设置token时间(登录过期时间)see also引言 I 预备知识 1.1 Logtail Logtail是日志服务提供的日志采集Agent,用于采集阿里云ECS、自建IDC、其他云厂商等服务器上的日志。本文介绍Logtail的功…

飞天使-django概念之urls

urls 容易搞混的概念,域名,主机名,路由 网站模块多主机应用 不同模块解析不同的服务器ip地址 网页模块多路径应用 urlpatterns [ path(‘admin/’, admin.site.urls), path(‘’, app01views.index), path(‘movie/’, app01views.movi…

记一次线上问题引发的对 Mysql 锁机制分析

背景 最近双十一开门红期间组内出现了一次因 Mysql 死锁导致的线上问题,当时从监控可以看到数据库活跃连接数飙升,导致应用层数据库连接池被打满,后续所有请求都因获取不到连接而失败 整体业务代码精简逻辑如下: Transaction p…

探索向量数据库 | 重新定义数据存储与分析

随着大模型带来的应用需求提升,最近以来多家海外知名向量数据库创业企业传出融资喜讯。 随着AI时代的到来,向量数据库市场空间巨大,目前处于从0-1阶段,预测到2030年,全球向量数据库市场规模有望达到500亿美元&#xff…

软文推广中媒体矩阵的优势在哪儿

咱们日常生活中是不是经常听到一句俗语,不要把鸡蛋放在同一个篮子里,其实在广告界这句话也同样适用,媒介矩阵是指企业在策划广告活动时,有目的、有计划的利用多种媒体进行广告传播,触达目标用户。今天媒介盒子就来和大…

管理压力:打工人不难为打工人

写在前面 让时间回到2018年7月末: 事件地点:中国平安办公室 事件经过: 平安产品经理提出一个需求,要求APP开发人员根据用户手机壳自动调整颜色的主题。这个需求被程序员认为是不合理的。双方开始争论,情绪激动&…

私域电商:构建商业新模式的必要性

随着互联网的快速发展,传统的电子商务模式已经无法满足企业对于个性化、精准化服务的需求。在这样的背景下,私域电商应运而生,为企业提供了新的商业机会和增长点。本文将探讨私域电商的必要性及其构建商业新模式的影响。 一、私域电商的概念 …

【Python基础】网络编程之Epoll使用一(符实操:基于epoll实现的实时聊天室)

🌈欢迎来到Python专栏 🙋🏾‍♀️作者介绍:前PLA队员 目前是一名普通本科大三的软件工程专业学生 🌏IP坐标:湖北武汉 🍉 目前技术栈:C/C、Linux系统编程、计算机网络、数据结构、Mys…

轻盈创新,气膜体育馆

气膜体育馆采用高强度、高柔性的薄膜材料为主要构建元素。其制作过程包括将膜材的外沿固定在地面基础或屋顶结构周边,并搭配智能化的机电设备,通过吹气实现室内空间的密闭。利用密闭空间内的气压支撑原理,当室内气压大于外部气压时&#xff0…

介绍公司的软文怎么写

软文推广成为企业提高知名度和市场竞争力的主要方式之一,通过软文推广,公司能够被更多消费者熟知并在他们心中留下深刻印象,一篇好的软文,不仅能传递公司的产品和服务信息,还可以传递出公司的理念、文化等,…

postgresql数据库优化

目录 概要 优化方法 硬件知识 CPU及服务器体系结构 内存 硬盘 文件系统及I/O调优 文件系统的崩溃恢复 Ext2文件系统 Ext3文件系统 Ext4文件系统 XFS文件系统 Barriers I/O I/O调优的方法 SSD的Trim优化 数据库性能视图 Linux监控工具 数据库内存优化 大页内存配置 vacuum…