声明:仅学习使用~
目录
-
- 1、目标检测的基本思想
- 2、整体网络架构
- 3、位置信息初始化query向量
- 4、注意力机制的作用方法
- 5、训练过程的策略
1、目标检测的基本思想
2015年,faster-rcnn;
2016年,YOLO;
NMS:非极大值抑制;
2、整体网络架构
backbone 即先通过CNN 拿到每个patch所对应的向量,并且加上位置的编码,位置编码有1D的,2D的,三角函数的等。通过Encoder我们得到了一堆特征。
Decoder
会初始化100个向量(这里我们当做100个就行),这100个向量要去利用一下Encoder生成出来的特征,然后好决定每一个向量该怎么去进行重构
;Decoder的目的是学好这1