传统观念认为:在不考虑算力的情况下,网络越深,其准确率就越高,最直接的方法就是把网络设计的越深越好。
事实上:随着网络的层数不断加深,当达到一定的书目之后,训练精度和测试精度都有下降,说明网络深度很深之后,训练难度更大。
原因在于:当网络层数很深的时候,梯度在传播的过程中会逐渐消失,(每往后传递一层,梯度就会衰减。)
一个明显的优势就是:在已知不同深度提取的特征之后,为了使特征更加明显,比如说是第n层网络得到的是图像的轮廓信息,将n层得到的输出,跨链接到后面的层,有突出轮廓信息的作用。
在残差网络图中,虚线表示非同一shape。
Inception模块(GoogeNet)思想就是并行的使用不同大小的卷积核。
1*1卷积核的优势是减小模型参数数量。
为了应对梯度消失问题,在网络框架中有额外的两个softmax预测层,用于反向传播更新梯度,在测试集中不使用。
Fast RCNN没有真正实现端到端,其对候选区的选择仍然效率低下,Faster RCNN使用RPN来实现候选区域的选择。
YOLO的思想是将图片分成S*S的区域,对于每个区域预测两个框,整体应该预测2*S*S个框,相比与Faster-RCNN,其在选择候选区域方面较为出色。
SSD算法的思想是生成不同深度的特征图,在不同深度的特征图上进行分别进行分别对每个像素点进行选择defaultbox,(每个像素点对应的default box数量不相同)最后选择大量的defaultbox,然而真实情况是正样本很少,负样本很多,如果针对每个样本都进行训练的话,会造成政府样本不平衡的现象,对于每一个负样本,计算其cofidenceloss,这个值越大,表示更容易被误认为是目标,造成的损失越大,从大到小选择一定数量的负样本进行训练即可。
在transformer中,将原输入通过embedding和位置编码相加作为encoding的结果,将encoding的结果输入到decoding中进行解码,解码结果作为模型输出。
注意力机制:公式中的Q,K,V分别表示查询,键,值,用Q分别和K点积(或者三角函数等等)进行运算,得到结果,乘V权重,值的大小表示关注的力度。
在NLP中,获得Q,K,V的过程如上。
使用的是不止一套参数,而是多套,这样效果会更好。
总结如下:将输入通过与初始的Q权重矩阵相乘得到Q矩阵,同理得到K和V矩阵,利用的公式得到注意力强度,需要注意的是,在计算过程中Q和K相乘之后要进行归一化处理,保证方差为1,目的是防止softmax在梯度传播的过程中引起梯度消失,事实证明,这样做效果还不错。当然,只用一套QKV的权重矩阵得到的效果一般,这里采用多套(也叫做多头)权重矩阵,能得到较优的效果,猜测原因可能是将原输入映射到了不同的空间,提取到不同抽象级别的特征,当然,这在理论上也说得过去,(由于不同人群对同一件事物的关注点不同)。
encoding过程中,需要用到两个同位相加,首先是将输入经过embedding后和位置位置编码同位相加得到X,其次是X经过注意力机制得到的Z矩阵和初始的X同位相加,(盲猜目的是为了减少encoding之后输入的编码结果的失真程度)。
BN效果不如LN,原因如下:BN在batch_size很小的时候,受训练数据限制,拟合整体特征的效果不佳(训练过程只是针对小部分调整参数,而对整体的效果适应能力不强),相比而言,LN是在做纵向的处理,对同一样本不同特征之间做均值和方差,能有效的学习对于样本之间的整体联系。
可以认为BN更加注重提取不同样本之间相同的特征信息来进行训练,而LN侧重于提取同一样本之间的内在联系来进行训练。
在目标检测中的应用如下:
首先数据成批输入到CNN中经过特征提取同时与位置编码对位相加作为输入,进入到多头注意力机制层,得到的是K和V,送入到解码的每一层中,解码器首先初始化一百个想来向量,用来指向目标框和类别,经过解码层计算得到目标框的位置和分类,梯度下降更新参数,得到较好的模型。
同时,图像检测和NLP不同点在于,object queries之间是并行的。图像检测也不含mask。
decoding比较简单,值得注意的是,对于每一个encoding的输出,都要和decoding进行交互。
mask模型的缺点:在进行优化的时候,模型会认为多个mask是相互独立的,事实上,mask之间很有可能存在联系。mask模型中,并不是所有的呗选中作为掩码的单词(像素)都被掩盖为MASK,其中一部分被设置为原单词,一部分被设置为其他已有的单词(故意产生一些噪声),防止模型过拟合。
注意力机制有助于解决重叠问题。
Deformable dert:
可变形dert,对小目标检测效果比较好。 不要老是YOLO,这个太广泛了。 YOLO严格来说,不算一个end to end结构,是因为,在选取候选框的时候有一个前处理,在得到目标候选框之后有一个NMX处理,并不能做到端到端。DETR是真正意义的end to end。
tips:所有论文都是首先对与基于改进的模型进行一些小的吹嘘,然后一个however进行转折。
detr训练速度慢,而且对于分辨率比较敏感。transformer中注意力机制的限制:将输入展开为序列。对分辨率是平方级关系。计算量是分辨率的三次方关系。可变形的detr在注意力机制计算过程中只考虑周围点的采样。另一个比较大的优势是:能用较少的轮数来达到相同的结果。
传统为了检测小目标有意将输入图像的尺寸放大,但是这种方法在transformer中效果不佳。
dert的注意力机制模块,初始化过程中相对比较平均,所以需要大量的epoch来迭代以唤醒注意力。
在进行注意力计算的时候,每个点只与其周围的边缘点进行计算,(采样不同,认为周围点有更好的效果)。
公式中的,表示的是偏移量,由于注意力机制关注的点,不一定就是临近的四个点。 但是这个偏移量不一定是一个整数,也就是不一定能落到固定的点,找不到对应的索引值,实际任务之中,采用插值的方法让理想偏移点(可能不存在)周围的点都贡献一部分特征。
公式中偏移量和A是要做训练的参数,偏移量是输入的Zq通过全连接层得到的。更新全连接层的W和b就可以了。
相对于传统的transformer,优势在于,通过对于任意一个特征块儿,通过一个全连接层,生成多个偏移量(也就是offset,用于训练,寻找更好的目标),同时将原始特征层加入多个全连接层,生成多个Values层(多头),针对每个特征块儿在values层对应的位置与对应的偏移量相加得到新的卷积块儿,同时,原始特征块儿还经过另外一个全连接层生成注意力权重,用于不同的卷积块儿。对得到的结果汇聚放入到一个全连接层作为一个输出。
注意,上图只是其中一个层级。
pq要做归一化。
层级位置编码是可以学习的。
decoder用位置编码来初始化变量。
对于不同层级是放到一个序列中去做的。
重新梳理一下:dert和deformable dert的最大不同在于注意力机制的采样不同,dert在得到特征图之后,用特征图加上位置编码经过初始化的Q,V,K层(可训练)训练得到初始的Q,K,V,通过对得到的QKV进行运算之后,得到输出,输出加上之前进入注意力层之前的特征图,作为下一个注意力层的输入,经过多个注意力层之后得到输出结果,在decoder层中初始化100个向量(用来预测注意力的位置),进行自注意力机制提取之后,进行解码,解码层引入了编码层的输出结果。经过多个解码层之后得到预测的框和内容的输出。
而deformable中,注意力机制基本上全盘改变,编码部分是一样的,但是这里提到对于不同层级,添加的位置编码是可训练的,(不小心忘记了再传统的dert中是否是可以训练的,不过当然游有训练当然会显得效果更好嘛),对于每一个pq,将其延伸为多维,经过两个不同的全连接层分别得到偏移和权重,在原始的特征图上经过不同的全连接层生成不同的V层,找到pq在得到的V层中对应的点,进行偏移融合目标便宜位置周围的融合特征,融合特征乘对应的权重汇聚在一起然后通过全连接层得到输出,拼接进入下一个注意力层,值得注意的是:其实在输入时以序列的形式进行的。不同层级之间拼接成序列,输出也是拼接成序列。解码过程大同小异(都是在初始化的Q上进行KV的运算,其中K和V是编码器的输出结果)。不再赘述。
不同层级的形状不同,位置要归一化方便找到相对位置,绝对位置有点错位的风险。
问一下GPT,看我的理解是否有很多的纰漏:
一些想法,在权重选择方面,用一个全连接层是否会显得太单一了,使用多个卷积层是否会更好点,卷积层的参数比较少,能有效的抑制过拟合的情况。(待会儿问一下GPT卷积层在这是否有明显的优势)。
对于数据集的没有必要选择公开的数据集。