【NLP 面经 3】

目录

一、Transformer与RNN对比

多头自注意力机制工作原理

相比传统 RNN 在处理长序列文本的优势

应对过拟合的改进方面

二、文本分类任务高维稀疏文本效果不佳

特征工程方面

核函数选择方面

模型参数调整方面

三、NER中，RNN模型效果不佳

模型架构方面

数据处理方面

训练策略方面

四、代码题 —— 字符串反转

Don't you ever hide

—— 25.3.29

一、Transformer与RNN对比

在自然语言处理中，基于 Transformer 架构的模型（如 BERT、GPT 等）得到了广泛应用。请你阐述一下 Transformer 架构中多头自注意力机制（Multi - Head Self - Attention）的工作原理，以及它相比传统循环神经网络（RNN）在处理长序列文本时的优势。另外，假设在实际应用中，你发现基于多头自注意力机制的模型出现了过拟合现象，你会从哪些方面进行改进？

多头自注意力机制工作原理

自注意力机制基础：自注意力机制旨在计算序列中每个位置与其他所有位置之间的关联程度，以此动态地聚焦于输入序列不同部分。对于输入序列 x=[x1,x2,...,xn]，首先通过线性变换将其映射到三个不同的向量空间，得到查询（Query, Q）、键（Key, K）和值（Value, V）。即 Q=WQx，K=WKx，V=WVx，其中 WQ、WK、WV 是可学习的权重矩阵。
注意力分数计算：计算每个位置的注意力分数，通过点积计算查询 Qi 与所有键 Kj 的相似度，公式为 Attention(Q,K,V)=softmax(dkQKT)V，其中 dk 是为了防止点积结果过大，使得梯度在反向传播时更稳定，dk 是 K 的维度。softmax 函数将分数归一化，得到每个位置的注意力权重，代表当前位置与其他位置的关联程度。
多头自注意力：多头自注意力机制是在上述基础上并行执行多个自注意力头。假设共有 h 个头，每个头都有独立的 WQi、WKi、WVi 矩阵（i=1,2,...,h）。每个头分别计算得到自己的注意力输出 Zi，然后将这些头的输出拼接起来，再通过一个线性变换得到最终的多头自注意力输出 Z，即 Z=Concat(Z1,Z2,...,Zh)WO，其中 WO 是另一个可学习的权重矩阵。这种多头结构使得模型能够在不同的表示子空间中捕捉不同的语义信息。

相比传统 RNN 在处理长序列文本的优势

解决梯度消失 / 爆炸问题：RNN 在处理长序列时，由于梯度在反向传播过程中经过多次乘法运算，容易出现梯度消失或梯度爆炸现象，导致难以学习到长距离的依赖关系。而 Transformer 架构基于自注意力机制，不依赖于循环结构，直接计算序列中任意两个位置的关联，避免了梯度消失 / 爆炸问题，能够有效处理长序列文本。
并行计算能力：RNN 由于其循环结构，每个时间步的计算依赖于前一个时间步的结果，难以并行计算。而 Transformer 的自注意力机制中，每个位置的计算都是独立的，可并行处理整个序列，大大提高了计算效率，尤其在处理长序列时优势明显。
更好捕捉全局信息：自注意力机制能够直接获取序列中任意位置之间的信息，使得模型在处理长序列时可以更好地捕捉全局信息，而 RNN 只能通过逐步传递信息来处理序列，在处理长序列时对远距离信息的捕捉能力较弱。

应对过拟合的改进方面

数据层面：
- 数据增强：增加训练数据的多样性，如对文本进行同义词替换、随机插入、随机删除等操作生成更多训练样本，让模型学习到更广泛的语言模式，减少过拟合风险。
- 数据清洗：仔细检查和清洗训练数据，去除噪声数据和错误标注，避免模型学习到错误信息导致过拟合。
模型架构层面：
- 减少模型复杂度：适当减少多头自注意力头的数量或降低隐藏层维度，简化模型结构，降低模型的拟合能力，防止过度拟合。但需注意这可能会影响模型对复杂模式的学习能力，需要权衡。
- 增加正则化层：在模型中添加正则化层，如 Dropout。在多头自注意力层或其他层后应用 Dropout，以一定概率随机丢弃神经元，使得模型不能依赖于某些特定神经元，从而减少过拟合。
训练策略层面：
- 调整学习率：使用学习率衰减策略，随着训练的进行逐渐降低学习率。开始时较大的学习率能让模型快速收敛到较优解附近，后期较小的学习率可以防止模型在最优解附近波动过大而导致过拟合。
- 早停策略：监控验证集上的性能指标（如准确率、损失值等），当验证集性能不再提升甚至下降时，停止训练，避免模型在训练集上过拟合。

二、文本分类任务高维稀疏文本效果不佳

在文本分类任务中，假设你使用支持向量机（SVM）作为分类模型。在处理高维稀疏文本数据时，模型的训练时间很长且分类效果不佳。请从特征工程、核函数选择以及模型参数调整这三个方面分析可能存在的问题，并提出相应的改进措施。

特征工程方面

问题：
- 特征维度过高：文本数据经词袋模型或 TF - IDF 等传统方法处理后，特征维度极高，大量特征可能是稀疏且冗余的。例如，在新闻文本分类中，词汇量巨大，许多低频词对分类贡献极小，但增加了计算复杂度，拖慢训练速度，还可能引入噪声干扰分类效果。
- 特征相关性未充分考虑：传统特征提取未深入挖掘特征间的相关性，可能导致模型难以学习到有效的分类模式。如在情感分类中，一些词虽然单独出现频率不高，但共同出现时对情感倾向有很强的指示作用，传统方法未利用好这种关系。
- 缺乏特征选择与降维：未对高维特征进行有效选择与降维，使模型训练负担过重。例如主成分分析（PCA）等降维方法若未合理应用，模型需处理大量无关或弱相关特征，影响训练效率与分类精度。
改进措施：
- 特征选择：采用过滤式方法，如卡方检验、信息增益等，根据特征与类别标签的统计关系，筛选出最具区分性的特征，降低维度同时保留关键信息。在文本情感分类中，通过卡方检验找出与积极或消极情感关联紧密的词汇作为特征。
- 降维处理：运用 PCA 等线性降维方法，或基于流形学习的非线性降维方法如 Isomap 等，将高维稀疏特征映射到低维空间，保留数据主要结构信息，加快训练速度。例如，在处理海量文本时，PCA 可将特征维度大幅降低，同时保持数据大部分方差信息。
- 利用特征相关性：使用互信息等方法度量特征间相关性，构建特征组合，挖掘特征协同作用。如在主题分类中，将相关主题词汇组合成新特征，提升模型对主题的识别能力。

核函数选择方面

问题：
- 线性核函数局限性：若选用线性核函数，对于复杂的非线性文本分类问题，无法有效将低维空间数据映射到高维空间以找到最优分类超平面。例如，在文本多类别分类任务中，数据分布复杂，线性核函数难以准确划分类别边界，导致分类效果差。
- 核函数参数不当：对于非线性核函数，如径向基函数（RBF）核，参数 γ 设置不合理。γ 过大，模型对局部数据敏感，容易过拟合；γ 过小，模型对数据差异不敏感，容易欠拟合。例如，γ 过大时，模型可能过度学习训练数据中的噪声，在测试集上表现不佳。
改进措施：
- 合理选择核函数：对于复杂的文本分类问题，优先尝试非线性核函数，如 RBF 核。RBF 核能将数据映射到高维特征空间，处理复杂的非线性边界。例如在图像标注文本分类中，RBF 核可有效处理图像描述文本与标签间复杂关系。若数据具有一定的线性可分性趋势，多项式核函数也可考虑，它在一定程度上兼顾线性与非线性关系。
- 参数调优：通过交叉验证方法，如 K 折交叉验证，对核函数参数进行调优。以 RBF 核为例，在一定范围内（如 [0.01, 100]）搜索不同的 γ 值，选择使模型在验证集上性能最优的参数。也可使用网格搜索、随机搜索等自动化调参方法，提高调参效率。

模型参数调整方面

问题：
- 惩罚参数 C 不合理：惩罚参数 C 控制模型对误分类样本的惩罚程度。C 过小，模型对误分类容忍度高，容易欠拟合，不能充分学习数据特征；C 过大，模型过于追求训练集上零误分类，容易过拟合，对测试数据泛化能力差。例如在文本分类中，C 过小时，模型可能对大量错误分类不敏感，导致分类精度低；C 过大时，模型可能过度适应训练集噪声，在新文本上表现不佳。
- 未充分利用模型特性：SVM 有多种实现方式与优化算法，如 SMO（序列最小优化算法）等。若未根据数据特点选择合适的实现方式与优化算法，可能影响训练效率与分类效果。例如，对于大规模文本数据，未选择高效的分布式优化算法，导致训练时间过长。
改进措施：
- 调优惩罚参数 C：结合交叉验证，在合理范围（如 [0.1, 100]）内尝试不同的 C 值，观察模型在验证集上的性能指标（如准确率、F1 值等），选择使指标最优的 C 值。也可采用基于梯度的优化方法，如随机梯度下降，动态调整 C 值，以提高模型性能。
- 选择合适的实现与优化算法：根据数据规模与特点选择合适的 SVM 实现与优化算法。对于大规模文本数据，使用如 Liblinear 等针对大规模数据优化的库，其采用坐标下降法等高效算法，可显著缩短训练时间。对于小规模但复杂的数据，可选择传统的 SMO 算法精细求解。

三、NER中，RNN模型效果不佳

在命名实体识别（NER）任务中，你使用基于循环神经网络（RNN）的模型，发现模型对嵌套实体和长文本中的实体识别效果不佳。请从模型架构、数据处理以及训练策略三个方面分析可能存在的原因，并提出改进措施。

模型架构方面

原因：
- RNN 自身局限性：RNN 存在梯度消失或梯度爆炸问题，在处理长序列（如长文本）时，难以有效传递远距离信息，导致对长文本中较远距离的实体信息捕捉能力弱。例如，在一篇长新闻报道中，开头提到的组织实体，在后续长文中再次提及相关信息时，RNN 难以将开头的实体信息有效传递到后续位置进行识别。
- 缺乏层次化结构：简单的 RNN 模型没有对文本的层次结构进行有效建模。文本通常具有词、句子、段落等不同层次，而 RNN 可能无法区分不同层次信息对实体识别的重要性，对于嵌套实体，无法很好地处理其内部结构关系。例如，对于 “苹果公司发布的 iPhone 产品” 中，“苹果公司” 是一个组织实体，“iPhone” 是产品实体，且 “iPhone” 嵌套在与 “苹果公司” 相关的描述中，RNN 难以有效处理这种嵌套关系。
改进措施：
- 使用 LSTM 或 GRU：LSTM（长短期记忆网络）和 GRU（门控循环单元）通过引入门控机制，一定程度上缓解了梯度消失问题，能更好地捕捉长距离依赖关系。例如，LSTM 的遗忘门、输入门和输出门可以控制信息的流动，使得长文本中的重要信息得以保存和传递，从而提升长文本中实体的识别效果。
- 构建层次化模型：在词向量层之上，添加句子级别的编码，如使用卷积神经网络（CNN）或注意力机制对句子进行特征提取，再将句子特征输入到 RNN 或其变体中。对于段落级信息，可以在句子级编码的基础上，再次使用注意力机制或池化操作进行整合。这样可以更好地处理文本的层次结构，对于嵌套实体，能够从不同层次分析其关系，提高识别准确率。例如，先通过 CNN 提取句子中词的局部特征，再用 LSTM 处理句子序列，最后通过注意力机制整合段落信息。

数据处理方面

原因：
- 标注不规范：对于嵌套实体，标注方式可能不统一或不清晰，导致模型学习到的信息混乱。例如，不同标注者对于嵌套实体的标注边界定义不同，使得模型在训练时接收到错误或模糊的标注信息，影响对嵌套实体的识别。
- 数据增强不足：长文本数据相对较少，且在数据增强过程中，未充分考虑长文本的特点和嵌套实体的生成。例如，简单的数据增强方法如随机删除或替换单词，可能破坏长文本的语义结构和实体关系，无法有效增加对长文本和嵌套实体识别有帮助的数据。
改进措施：
- 统一标注标准：制定详细、明确的标注规范，对嵌套实体的标注边界、类型等进行严格定义。组织标注人员进行培训，确保标注的一致性。同时，对已标注的数据进行多轮审核，减少标注错误。例如，规定对于嵌套实体，外层实体和内层实体的标注要有明确的层级关系和边界标识。
- 针对性数据增强：采用基于规则或模型的方法进行数据增强。对于长文本，可以根据句法结构或语义关系，在不破坏实体关系的前提下，插入、替换或修改一些非关键部分的文本。对于嵌套实体，可以利用模板生成一些包含嵌套实体的句子，并添加到训练数据中。例如，根据 “[组织] 发布的 [产品]” 这样的模板，生成类似 “谷歌公司推出的安卓系统” 等句子用于增强数据。

训练策略方面

原因：
- 损失函数选择不当：传统的交叉熵损失函数在处理嵌套实体和长文本时，可能无法有效反映模型对实体边界和类型的预测准确性。例如，对于嵌套实体，交叉熵损失函数可能同等对待实体内部和外部的预测错误，而实际上实体边界的准确预测更为重要。
- 训练样本不均衡：长文本数据和包含嵌套实体的数据在训练集中所占比例较小，模型在训练过程中对这些数据的学习不足。例如，训练集中短文本数据占比过大，模型更倾向于学习短文本中的实体识别模式，对长文本和嵌套实体的识别能力提升有限。
改进措施：
- 设计定制化损失函数：结合实体边界和类型的预测需求，设计定制化的损失函数。例如，可以对实体边界的预测错误给予更高的惩罚权重，以引导模型更准确地识别实体边界。同时，考虑使用基于距离的损失函数，如 IoU（交并比）损失，来衡量预测实体与真实实体之间的重叠程度，提高对嵌套实体的识别效果。
- 样本平衡处理：采用过采样或欠采样的方法平衡训练样本。对于长文本和包含嵌套实体的数据，可以使用 SMOTE（合成少数类过采样技术）等方法进行过采样，生成更多的长文本和嵌套实体样本。或者对短文本数据进行欠采样，减少其在训练集中的比例，使模型能够更充分地学习长文本和嵌套实体的特征。例如，通过 SMOTE 对长文本数据进行扩展，增加模型对长文本中实体识别的学习机会。

四、代码题 —— 字符串反转

给定一个字符串 s，其中包含由空格分隔的单词。要求你反转每个单词中字符的顺序，同时保持单词之间的空格和单词顺序不变。

示例 1：
输入：s = "Let's take LeetCode contest"
输出："s'teL ekat edoCteeL tsetnoc"

示例 2：
输入：s = "God Ding"
输出："doG gniD"

提示：

1 <= s.length <= 5 * 10^4
s 包含可打印的 ASCII 字符。
s 不包含任何前导或尾随空格。
s 中至少包含一个单词。
s 中的所有单词都由单个空格分隔。
class Solution:
    def reverseWords(self, s: str) -> str:
        # 在此处编写你的代码
        pass

将输入字符串 s 中每个单词进行反转，然后再将反转后的单词组合成一个新的字符串并返回。

class Solution:
    def reverseWords(self, s: str) -> str:
        words = s.split(' ')
        result = []
        for word in words:
            result.append(word[::-1])
        return ' '.join(result)