GPT1

transformer解码器因为有掩码所以不看后面的东西
gpt就是transformer的解码器，bert 是transformer的编码器
gpt核心卖点：不管输入如何，transformer模型不会变

半监督：先在没有标号上进行训练，再到有标号上进行微调

GPT2

GPT2对于GPT的改进：在子任务上不给任何相关样本，即zeroshot，并且加大训练数据量
zero shot问题：在下游任务中遇到没有见过的符号模型会很困惑，因此下游任务输入不能引入模型没有见过的符号

数据来源：解决文本数据难找的问题：在reddit上寻找所有karma>3的文本进行训练

GPT2的有效性相对较低，GPT3尝试去解决GPT2的有效性低的问题

gpt3卖点：特别大，在做子任务的时候不需要算梯度
把gpt2的 zeroshot改成few shot，即提供一定的学习样本
值得注意的是，该模型并不像平时训练一样批量(batchsize)上升，学习率也相对调高,而是批量上升，学习率下降

数据来源：二分类，把common craw里面高质量数据筛选
痛点：计算量指数增加，精度线性下降
局限：

1）文本生成较弱
2）结构和算法局限性
3）样本有效性不够
4）可解释性差

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/635830.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！