我的深度学习笔记

传统观念认为：在不考虑算力的情况下，网络越深，其准确率就越高，最直接的方法就是把网络设计的越深越好。

事实上：随着网络的层数不断加深，当达到一定的书目之后，训练精度和测试精度都有下降，说明网络深度很深之后，训练难度更大。

原因在于：当网络层数很深的时候，梯度在传播的过程中会逐渐消失，（每往后传递一层，梯度就会衰减。）

一个明显的优势就是：在已知不同深度提取的特征之后，为了使特征更加明显，比如说是第n层网络得到的是图像的轮廓信息，将n层得到的输出，跨链接到后面的层，有突出轮廓信息的作用。

在残差网络图中，虚线表示非同一shape。

Inception模块（GoogeNet）思想就是并行的使用不同大小的卷积核。

1*1卷积核的优势是减小模型参数数量。

为了应对梯度消失问题，在网络框架中有额外的两个softmax预测层，用于反向传播更新梯度，在测试集中不使用。

Fast RCNN没有真正实现端到端，其对候选区的选择仍然效率低下，Faster RCNN使用RPN来实现候选区域的选择。

YOLO的思想是将图片分成S*S的区域，对于每个区域预测两个框，整体应该预测2*S*S个框，相比与Faster-RCNN，其在选择候选区域方面较为出色。

SSD算法的思想是生成不同深度的特征图，在不同深度的特征图上进行分别进行分别对每个像素点进行选择defaultbox，（每个像素点对应的default box数量不相同）最后选择大量的defaultbox，然而真实情况是正样本很少，负样本很多，如果针对每个样本都进行训练的话，会造成政府样本不平衡的现象，对于每一个负样本，计算其cofidenceloss，这个值越大，表示更容易被误认为是目标，造成的损失越大，从大到小选择一定数量的负样本进行训练即可。

在transformer中，将原输入通过embedding和位置编码相加作为encoding的结果，将encoding的结果输入到decoding中进行解码，解码结果作为模型输出。

注意力机制：公式中的Q,K,V分别表示查询，键，值，用Q分别和K点积（或者三角函数等等）进行运算，得到结果，乘V权重，值的大小表示关注的力度。

在NLP中，获得Q,K,V的过程如上。

使用的是不止一套参数，而是多套，这样效果会更好。

总结如下:将输入通过与初始的Q权重矩阵相乘得到Q矩阵，同理得到K和V矩阵，利用的公式得到注意力强度，需要注意的是，在计算过程中Q和K相乘之后要进行归一化处理，保证方差为1，目的是防止softmax在梯度传播的过程中引起梯度消失，事实证明，这样做效果还不错。当然，只用一套QKV的权重矩阵得到的效果一般，这里采用多套（也叫做多头）权重矩阵，能得到较优的效果，猜测原因可能是将原输入映射到了不同的空间，提取到不同抽象级别的特征，当然，这在理论上也说得过去，（由于不同人群对同一件事物的关注点不同）。

encoding过程中，需要用到两个同位相加，首先是将输入经过embedding后和位置位置编码同位相加得到X，其次是X经过注意力机制得到的Z矩阵和初始的X同位相加，（盲猜目的是为了减少encoding之后输入的编码结果的失真程度）。

BN效果不如LN，原因如下：BN在batch_size很小的时候，受训练数据限制，拟合整体特征的效果不佳（训练过程只是针对小部分调整参数，而对整体的效果适应能力不强），相比而言，LN是在做纵向的处理，对同一样本不同特征之间做均值和方差，能有效的学习对于样本之间的整体联系。

可以认为BN更加注重提取不同样本之间相同的特征信息来进行训练，而LN侧重于提取同一样本之间的内在联系来进行训练。

在目标检测中的应用如下：

首先数据成批输入到CNN中经过特征提取同时与位置编码对位相加作为输入，进入到多头注意力机制层，得到的是K和V，送入到解码的每一层中，解码器首先初始化一百个想来向量，用来指向目标框和类别，经过解码层计算得到目标框的位置和分类，梯度下降更新参数，得到较好的模型。

同时，图像检测和NLP不同点在于，object queries之间是并行的。图像检测也不含mask。

decoding比较简单，值得注意的是，对于每一个encoding的输出，都要和decoding进行交互。

mask模型的缺点：在进行优化的时候，模型会认为多个mask是相互独立的，事实上，mask之间很有可能存在联系。mask模型中，并不是所有的呗选中作为掩码的单词（像素）都被掩盖为MASK，其中一部分被设置为原单词，一部分被设置为其他已有的单词（故意产生一些噪声），防止模型过拟合。

注意力机制有助于解决重叠问题。

Deformable dert:
可变形dert，对小目标检测效果比较好。不要老是YOLO，这个太广泛了。 YOLO严格来说，不算一个end to end结构，是因为，在选取候选框的时候有一个前处理，在得到目标候选框之后有一个NMX处理，并不能做到端到端。DETR是真正意义的end to end。

tips：所有论文都是首先对与基于改进的模型进行一些小的吹嘘，然后一个however进行转折。

detr训练速度慢，而且对于分辨率比较敏感。transformer中注意力机制的限制：将输入展开为序列。对分辨率是平方级关系。计算量是分辨率的三次方关系。可变形的detr在注意力机制计算过程中只考虑周围点的采样。另一个比较大的优势是：能用较少的轮数来达到相同的结果。

传统为了检测小目标有意将输入图像的尺寸放大，但是这种方法在transformer中效果不佳。

dert的注意力机制模块，初始化过程中相对比较平均，所以需要大量的epoch来迭代以唤醒注意力。

在进行注意力计算的时候，每个点只与其周围的边缘点进行计算，（采样不同，认为周围点有更好的效果）。

公式中的 $\Delta p_{mgk}$ ,表示的是偏移量，由于注意力机制关注的点，不一定就是临近的四个点。但是这个偏移量不一定是一个整数，也就是不一定能落到固定的点，找不到对应的索引值，实际任务之中，采用插值的方法让理想偏移点（可能不存在）周围的点都贡献一部分特征。

公式中偏移量和A是要做训练的参数，偏移量是输入的Zq通过全连接层得到的。更新全连接层的W和b就可以了。

相对于传统的transformer，优势在于，通过对于任意一个特征块儿，通过一个全连接层，生成多个偏移量（也就是offset，用于训练，寻找更好的目标），同时将原始特征层加入多个全连接层，生成多个Values层（多头），针对每个特征块儿在values层对应的位置与对应的偏移量相加得到新的卷积块儿，同时，原始特征块儿还经过另外一个全连接层生成注意力权重，用于不同的卷积块儿。对得到的结果汇聚放入到一个全连接层作为一个输出。

注意，上图只是其中一个层级。

pq要做归一化。

层级位置编码是可以学习的。

decoder用位置编码来初始化变量。

对于不同层级是放到一个序列中去做的。

重新梳理一下：dert和deformable dert的最大不同在于注意力机制的采样不同，dert在得到特征图之后，用特征图加上位置编码经过初始化的Q，V，K层（可训练）训练得到初始的Q，K，V，通过对得到的QKV进行运算之后，得到输出，输出加上之前进入注意力层之前的特征图，作为下一个注意力层的输入，经过多个注意力层之后得到输出结果，在decoder层中初始化100个向量（用来预测注意力的位置），进行自注意力机制提取之后，进行解码，解码层引入了编码层的输出结果。经过多个解码层之后得到预测的框和内容的输出。

而deformable中，注意力机制基本上全盘改变，编码部分是一样的，但是这里提到对于不同层级，添加的位置编码是可训练的，（不小心忘记了再传统的dert中是否是可以训练的，不过当然游有训练当然会显得效果更好嘛），对于每一个pq，将其延伸为多维，经过两个不同的全连接层分别得到偏移和权重，在原始的特征图上经过不同的全连接层生成不同的V层，找到pq在得到的V层中对应的点，进行偏移融合目标便宜位置周围的融合特征，融合特征乘对应的权重汇聚在一起然后通过全连接层得到输出，拼接进入下一个注意力层，值得注意的是：其实在输入时以序列的形式进行的。不同层级之间拼接成序列，输出也是拼接成序列。解码过程大同小异（都是在初始化的Q上进行KV的运算，其中K和V是编码器的输出结果）。不再赘述。

不同层级的形状不同，位置要归一化方便找到相对位置，绝对位置有点错位的风险。

问一下GPT，看我的理解是否有很多的纰漏：

一些想法，在权重选择方面，用一个全连接层是否会显得太单一了，使用多个卷积层是否会更好点，卷积层的参数比较少，能有效的抑制过拟合的情况。（待会儿问一下GPT卷积层在这是否有明显的优势）。

对于数据集的没有必要选择公开的数据集。