面试篇 - GPT-1（Generative Pre-Training 1）

news2025/4/17 16:34:25

Transformer only-decoder：GPT-1模型使用了一个12层的Transformer解码器。具体细节与标准的Transformer相同，但位置编码是可训练的。
注意力机制：
- 原始Transformer的解码器包含两种注意力机制：交叉注意力（cross-attention，其中键和值来自编码器，查询来自解码器）和掩码多头自注意力（mask multi-head attention）。
- GPT-1模型只使用了掩码多头自注意力。

左侧图示：展示了Transformer的架构，包括12层的解码器、层归一化（Layer Norm）、前馈网络（Feed Forward）、掩码多头自注意力（Masked Multi Self Attention）以及文本和位置嵌入（Text & Position Embed）。
右侧图示：展示了不同任务的输入转换和训练目标。所有结构化的输入都被转换为标记序列，然后通过预训练模型处理，最后通过一个线性-softmax层进行分类。

1. 分类（Classification）

输入格式：Start Text Extract

解释：输入文本以“Start”标记开始，后面跟着要分类的文本，最后以“Extract”标记结束。
处理流程：
1. 输入文本经过文本和位置嵌入（Text & Position Embed）。
2. 嵌入后的文本输入到Transformer模型中进行处理。
3. Transformer的输出经过一个线性层（Linear），输出分类结果。

2. 蕴含（Entailment）

输入格式：Start Premise Delim Hypothesis Extract

解释：输入包含两个部分，前提（Premise）和假设（Hypothesis），中间用分隔符（Delim）分开，以“Start”标记开始，最后以“Extract”标记结束。
处理流程：
1. 输入文本经过文本和位置嵌入（Text & Position Embed）。
2. 嵌入后的文本输入到Transformer模型中进行处理。
3. Transformer的输出经过一个线性层（Linear），输出蕴含关系的分类结果（例如，前提是否蕴含假设）。

3. 相似性（Similarity）

输入格式：Start Text 1 Delim Text 2 Extract

解释：输入包含两个文本，中间用分隔符（Delim）分开，以“Start”标记开始，最后以“Extract”标记结束。
处理流程：
1. 输入文本经过文本和位置嵌入（Text & Position Embed）。
2. 嵌入后的文本输入到两个Transformer模型中进行处理（每个文本一个Transformer）。
3. 两个Transformer的输出经过一个线性层（Linear），输出两个文本的相似性得分。

4. 多项选择（Multiple Choice）

输入格式：Start Context Delim Answer 1 Extract 等

解释：输入包含一个上下文（Context）和多个可能的答案（Answer），每个答案之间用分隔符（Delim）分开，以“Start”标记开始，最后以“Extract”标记结束。
处理流程：
1. 输入文本经过文本和位置嵌入（Text & Position Embed）。
2. 嵌入后的文本输入到Transformer模型中进行处理。
3. Transformer的输出经过一个线性层（Linear），输出每个答案的选择概率。