目录
T5模型、GPT和BERT
一、T5模型
二、GPT模型
三、BERT模型(词嵌入模型,一个单词4096维度)
四、区别与联系
T5模型、GPT和BERT
T5模型、GPT模型和BERT模型都是基于Transformer架构的预训练语言模型,但它们在设计目标、架构和应用上存在一些区别和联系:
1. **模型架构**:
- **BERT**:仅使用了Transformer的编码器部分,是一个基于双向上下文的编码器模型。
- **GPT**:仅使用了Transformer的解码器部分,是一个单向的生成式模型。
- **T5**:采用了完整的Seq2Seq结构,包括编码器和解码器。
2. **预训练目标**:
- **BERT**:通过掩码语言模型(MLM)和下一句预测(NSP)进行预训练。
- **GPT**:通过因果语言模型(CLM),即每个标记预测序列中的下一个标记进行预训练。
- **T5**:使用去噪目标,其中随机的文本范围被