GPT1
transformer解码器因为有掩码所以不看后面的东西
gpt就是transformer的解码器,bert 是transformer的编码器
gpt核心卖点:不管输入如何,transformer模型不会变
半监督:先在没有标号上进行训练,再到有标号上进行微调
GPT2
GPT2对于GPT的改进:在子任务上不给任何相关样本,即zeroshot,并且加大训练数据量
zero shot问题:在下游任务中遇到没有见过的符号模型会很困惑,因此下游任务输入不能引入模型没有见过的符号
数据来源:解决文本数据难找的问题:在reddit上寻找所有karma>3的文本进行训练
GPT3
GPT2的有效性相对较低,GPT3尝试去解决GPT2的有效性低的问题
gpt3卖点:特别大,在做子任务的时候不需要算梯度
把gpt2的 zeroshot改成few shot,即提供一定的学习样本
值得注意的是,该模型并不像平时训练一样批量(batchsize)上升,学习率也相对调高,而是批量上升,学习率下降
数据来源:二分类,把common craw里面高质量数据筛选
痛点:计算量指数增加,精度线性下降
局限:
1)文本生成较弱
2)结构和算法局限性
3)样本有效性不够
4)可解释性差