《Prefix-Tuning: Optimizing Continuous Prompts for Generation》 核心思想: 微调的时候,把预训练好的大transformer固定住不训练,在大transformer前面拼接几个token的参数,只训练前面这几个token的参数。 为什么有效 因为虽然微调的时候 固定住了预训练好的大transformer,但预训练好的信息其实也一直都保留了。只用前面几个token的参数拟合微调数据集。