CV/NLP【面经】

1x1conv的作用
多头注意力与普通注意力的区别：
过拟合怎么解决
随机森林和GBDT的区别
决策树是怎么做回归任务的
注意力机制参数量和计算量

1x1conv的作用

1.首先我们需要明确卷积的输入输出不是一个平面，而是一个长方体。所以1x1conv实际上对每个像素点，在不同的channels上进行线性组合，且保留了图片的原有平面结构，调控depth,从而完成升维和降维的功能。

如下图所示，如果选择2个filters的1x1conv,那么数据就从原来的depth 3降到2.若选择4个filters的1x1conv，则起到升维的作用。
在这里插入图片描述

当提到在卷积神经网络中使用具有特定数量滤波器（filters）的1x1卷积层时，这里的“升维”和“降维”是指改变输入特征图的深度，也就是通道数。
● 降维：如果原始输入特征图的深度为3（意味着有3个通道），并且应用了一个1x1卷积层，但是只选择了2个滤波器（filters），那么这个操作会将输入特征图的深度从3降到2。这是因为每个滤波器会沿着输入的所有通道进行操作，并输出一个新的值，所以2个滤波器会生成2个新的通道。这个过程减少了特征图的深度，有助于减少计算量和潜在的过拟合问题。
● 升维：相反，如果同样深度为3的输入特征图经过一个配置为4个滤波器的1x1卷积层，那么输出特征图的深度将会增加到4。这意味着每个滤波器都会基于输入的每个位置上的所有通道信息产生一个新的通道输出，最终得到4个通道的输出特征图。升维可以增强模型的表达能力，让模型有能力学习更加复杂的特征组合，但也可能增加计算成本和过拟合的风险。
简而言之，通过调整1x1卷积层中滤波器的数量，我们可以灵活地控制网络中特征图的深度，从而适应不同的任务需求和计算资源限制。这种操作不仅影响到模型的复杂度，还直接影响模型的学习能力和泛化能力。
2.一个1x1conv结合非线性单元，相当于加入了非线性。
1x1卷积层在深度学习，特别是在卷积神经网络（CNNs）中有多种重要作用，以下是其主要功能：

改变深度（通道数）：1x1卷积的主要作用之一是改变输入特征图的深度，即通道数。通过使用不同数量的滤波器（或称为卷积核），可以实现特征图的降维或升维。例如，使用较少的滤波器可以降低特征维度，有助于减少计算负担和过拟合风险；而使用更多滤波器则可以增加特征维度，提升模型的表达能力。
线性组合特征：1x1卷积可以看作是对输入特征图的每个位置上的通道进行线性组合，这意味着它可以执行跨通道的信息整合。这种操作使得网络能够学习到不同特征通道之间的复杂关系，从而实现特征的重组和优化。
计算效率：相比较大的卷积核，1x1卷积的计算成本较低，因为它在空间维度上没有扩张。这种特性使得1x1卷积成为减少模型复杂度、加快训练速度的有效手段。
信息传播与交互：在一些网络结构中，如ResNeXt和Depthwise Separable Convolutions，1x1卷积扮演着在不同组内的特征之间进行信息传播的角色，促进了跨组特征的交互，增强了模型的表达力。
降维以减少计算量：在深度网络的某些部分，特别是在计算密集型操作（如3x3、5x5卷积或池化之后），先使用1x1卷积进行降维可以显著减少后续操作的计算成本，同时保持或优化模型性能。
引入非线性：结合激活函数（如ReLU），1x1卷积层可以增加网络的非线性表达能力，帮助模型学习更复杂的特征表示。
特征重校准：在某些架构中，如带有注意力机制的模块，1x1卷积被用来对特征进行加权，实现特征的重要性的重校准，这对于提高模型的注意力和识别能力至关重要。
综上所述，1x1卷积层在现代深度学习模型中是一个灵活且强大的构建块，不仅能够控制模型的复杂度，还能增强模型的表达能力和学习效率。
多头注意力和普通的区别，参数量会翻倍吗？
多头注意力（Multi-Head Attention）机制是自注意力（Self-Attention）机制的一种扩展，最早在Transformer模型中被引入。与普通的单头注意力相比，它有几个关键区别，以及对参数量的影响也有所不同：

多头注意力与普通注意力的区别：

并行处理不同注意力: 在多头注意力中，输入被分割成多个部分（或“头”），每个头独立地执行注意力计算。这意味着每个头可以专注于输入的不同部分或特征，从而捕捉到不同类型的依赖关系。相比之下，普通注意力只有一个头，它同时考虑所有输入信息来计算权重。
增加模型的表达能力: 由于多头注意力能够并行探索输入的不同表示子空间，它通常能提供比单一注意力头更丰富的上下文理解能力，这对于序列建模和翻译等任务尤为重要。
参数共享与独立性: 多头注意力中的每个头通常共享相同的权重矩阵（查询、键、值矩阵），但它们在计算注意力时是独立的。这既增加了模型的复杂性又保持了一定程度的参数效率。
参数量是否翻倍：
不一定翻倍，实际上，多头注意力机制并不直接导致参数量简单地翻倍。参数量的增长取决于头的数量以及每个头的具体实现细节。具体来说：
● 头数增加: 增加头的数量确实会增加一些参数，主要是因为每个头都有自己的查询(Q)、键(K)、值(V)变换矩阵，但如果这些矩阵是共享的（即每个头使用相同矩阵的不同部分），则参数增加不会简单地随头数线性增长。
● 参数共享策略: 如果在多头设计中使用了参数共享，实际增加的参数量可能比直接乘以头数要少得多。例如，尽管有多个头，但共享的权重矩阵意味着参数量的增长主要来自于头数增加带来的偏置项等小规模参数。
总结来说，多头注意力相比于单头注意力确实会增加一定的参数量，但这并不意味着参数量会简单地翻倍。增加的参数量更多地与头的数量以及如何实施参数共享有关。多头注意力的主要优势在于提高模型的并行处理能力和捕捉复杂模式的能力，而不仅仅是增加参数量。

过拟合怎么解决

解决过拟合问题通常涉及一系列策略和技术，旨在提高模型的泛化能力，确保模型在未见过的数据上也能表现良好。以下是一些常用的解决过拟合的策略：

收集更多数据：增加训练数据量是减少过拟合最直接有效的方式。更多的数据可以提供更全面的样本覆盖，帮助模型学习到更广泛、更普遍的特征。
数据增强：通过旋转、翻转、缩放、剪切、添加噪声等方式对现有数据进行变换，生成额外的训练样本，可以有效增加数据多样性和模型的泛化能力。
正则化：
○ L1正则化（Lasso Regression）倾向于产生稀疏解，即促使部分权重变为零，从而达到特征选择的效果。
○ L2正则化（Ridge Regression）通过在损失函数中加入权重平方和，鼓励权重向量元素取值较小，避免权重过大导致的过拟合。
○ 正则化项的系数（如λ）需要通过交叉验证来调整，以找到最佳的正则化强度。
Dropout：在训练过程中随机“丢弃”一部分神经元，每次迭代时这些神经元的输出都被置为0，这相当于在每次训练时都使用了一个不同的模型，从而减少模型对特定训练样本的依赖，增强泛化能力。
提前停止（Early Stopping）：在验证集上监控模型性能，当验证集上的性能不再提升或开始下降时，立即停止训练，防止模型在训练集上过度拟合。
模型简化：减少网络的复杂度，比如减少神经网络的层数、神经元数量等，或者使用更简单的模型结构。
批量归一化（Batch Normalization）：通过标准化每一层的输入，加速训练过程，减少对初始化的敏感性，并提供一定的正则化效果。
集成学习：结合多个模型的预测，如bagging、boosting或stacking，可以减少单一模型的过拟合风险，提高整体的稳定性和准确性。
交叉验证：使用如K折交叉验证来评估模型性能，更准确地估计模型在未知数据上的表现，并用于调整模型参数。
学习率调整：动态调整学习率，如使用学习率衰减或自适应学习率算法（如Adam、RMSprop），可以帮助模型在训练早期快速学习，后期缓慢调整以避免过拟合。
模型正则化技术：如权重衰减、权重约束等，直接限制模型参数的大小和范围。
综合运用这些方法，可以有效地减轻过拟合问题，提升模型在新数据上的泛化性能。选择哪些策略取决于具体的任务、数据量以及模型类型。

随机森林和GBDT的区别

随机森林（Random Forest）和梯度提升决策树（GBDT, Gradient Boosting Decision Tree）都是集成学习方法，它们通过组合多个决策树来提高预测性能，但两者在构建和结合决策树的方式上有显著区别：

目标函数与优化策略：
○ GBDT：采用梯度提升方法，每棵树都在尝试纠正前一棵树的残差，即减少前一个模型预测错误的部分。它通过最小化一个损失函数（如均方误差或交叉熵损失）来迭代生成模型。
○ 随机森林：基于bagging策略，各树独立训练，最终结果通常通过多数投票（分类任务）或平均预测（回归任务）得出。每棵树都尽可能地在自己的训练集上做出最佳预测。
树的生成方式：
○ GBDT：树是顺序生成的，每棵树依赖于前面的树。新的树会专注于之前模型未能正确分类/回归的样本。
○ 随机森林：树可以并行生成，因为每棵树都是独立训练的，而且在训练每棵树时会从原始数据集中有放回地抽取样本。
特征选择：
○ GBDT：在节点分裂时，通常使用全部特征来寻找最佳分裂点。
○ 随机森林：在构建每棵树时，会从所有特征中随机选取一个特征子集用于分裂节点，增加了模型的多样性。
对异常值的处理：
○ GBDT：对异常值非常敏感，因为每棵树都试图去拟合剩余的残差，异常值可能会导致模型过度拟合这些极端情况。
○ 随机森林：由于每棵树都在一个随机子集上训练，因此对异常值的敏感度较低。
性能提高方式：
○ GBDT：主要通过减小偏差（bias）来提高性能，因为它是通过不断添加新树来逐步改进模型的预测结果。
○ 随机森林：通过减小方差（variance）来提高性能，因为多个独立的树可以相互“平均”掉彼此的高方差，提高整体稳定性。
算法类型：
○ GBDT：属于boosting算法，通过迭代地学习一系列弱模型（通常是决策树），并将它们组合成一个强模型。
○ 随机森林：基于bagging策略，属于并行式集成方法，通过构建多个模型然后综合它们的预测来提高预测准确性和稳定性。
总结来说，GBDT侧重于通过序列化的模型迭代优化预测残差，强调模型的精确度，但可能对噪声和异常值更敏感；而随机森林通过构建多样性的树来减少预测的波动性，提高模型的稳健性，且对异常值不那么敏感。

决策树是怎么做回归任务的

决策树在执行回归任务时，其目标是预测一个连续值的输出，而不是分类任务中的离散标签。下面是决策树进行回归预测的主要步骤和概念：

数据准备：首先，收集包含输入特征（自变量）和目标变量（因变量）的数据集，其中目标变量是连续型的。
特征选择：为了决定如何分割数据集，决策树算法会在每个节点上选择一个最佳特征及其分割点。这个选择基于某种衡量标准，旨在最大程度地减少预测误差。对于回归树，常见的评价指标包括均方误差（MSE）、均方根误差（RMSE）或者绝对误差之和等。算法会评估每个特征的所有可能分割点，并选择能使分割后子集内的目标变量预测误差最小化的那个特征和分割点。
数据分割：根据选定的特征和分割点，数据集被分成两个或多个子集。这个过程在每个节点上重复进行，直到满足停止条件。
构建树结构：树的构建是递归进行的，每个内部节点表示一个特征测试，分支代表测试的结果，而叶节点则包含一个预测值，这个预测值通常是该叶节点所覆盖训练样本的目标变量的平均值或其他统计量（如中位数）。
停止条件：为了避免过拟合，决策树的生长会被限制。常见的停止条件包括树的最大深度达到预设值、节点中的样本数量低于某一阈值、或者继续分割不能显著降低预测误差。
剪枝：为了进一步控制模型复杂度和防止过拟合，可以采用剪枝技术。剪枝分为预剪枝（在树生成过程中提前停止分裂）和后剪枝（在树完全生成后移除不增加泛化能力的分支）。
模型评估与调整：通过预留的测试集或交叉验证来评估模型的性能，比较模型预测值与实际值之间的误差。根据评估结果，可能需要调整决策树的参数，如最大深度、最小叶节点样本数等，以优化模型的预测能力和泛化性能。
通过这一系列步骤，决策树回归模型能够根据输入特征的组合，将数据空间划分为多个区域，并为每个区域分配一个预测的连续数值，从而完成回归预测任务。

注意力机制参数量和计算量

注意力机制在深度学习中主要用于提高模型对重要信息的关注度，特别是在处理序列数据、图像识别和其他需要对输入信息进行加权处理的任务中。关于注意力机制的参数量和计算量，以下是一些关键点：

参数量：
○ 基本注意力机制通常涉及Query（Q）、Key（K）和Value（V）的计算，这通常需要线性变换，即通过权重矩阵𝑊𝑄、𝑊𝐾、𝑊𝑉对输入进行变换。每个变换矩阵都会引入一定数量的参数，参数量等于矩阵的元素数量。例如，如果每个向量长度是d，那么每个线性变换矩阵会有d×d个参数，因此仅变换部分就有3d²个参数。
○ 多头注意力机制会增加参数量，因为它为Q、K、V各自使用多个不同的线性变换。如果使用h个头，则参数量会变成h×3d²。此外，多头注意力还可能在最后合并各头的输出时引入额外的线性变换，进一步增加参数量。
○ 注意力机制的参数量相对于整个模型可能不是主要的参数来源，但在一些复杂的模型如Transformer中，其参数量仍不容忽视，尤其是当模型规模很大时。
计算量：
○ 计算注意力权重时，需要计算Q和K的点积，然后应用softmax函数以得到注意力分布，这一步的计算复杂度是O(L²×d)，其中L是序列长度，d是向量维度。对于长序列，这部分计算尤其昂贵。
○ 之后，根据注意力分布对V加权求和得到输出，这部分的计算复杂度也是O(L²×d)。
○ 多头注意力会增加计算量，因为每个头都需要独立进行上述计算，但计算也可以并行化处理，从而在一定程度上缓解计算负担。
○ 为减少计算量，一些优化技巧被提出，比如使用更小的注意力头数、注意力稀疏化（如局部注意力、固定模式注意力）、或者使用近似方法（如低秩分解、随机抽样）。
综上所述，注意力机制虽然能够有效提升模型的性能，尤其是在处理长序列和高维度数据时，但也会带来较大的参数量和计算负担。因此，在设计模型时，需要权衡注意力机制的优势与其带来的资源消耗，可能需要采取一些策略来平衡效率与效果。