NLP论文阅读PALM
- 模型构成
- Joint Modeling of Autoencoding and Autoregression
- Input&Output Representations
- Copying Tokens from Context
- 扩展词汇的分布
- 复制分布
- 最终分布
PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation
预训练自编码和自回归语言模型用于上下文条件生成
(在完成文本摘要生成任务时,遇到这个模型:PALM 2.0摘要生成模型-中文-base是PALM通用预训练生成模型在中文LCSTS数据集上进行finetune得到的文本摘要生成模型。)
模型构成
Joint Modeling of Autoencoding and Autoregression
采用了自编码和自回归联合建模的方式
- 基于自编码的预训练旨在从损坏的输入中重建原始文本,例如BERT及其变体RoBERT、ALBERT等,利用双向上下文从mask的文本中恢复。这种编码方式不适用于没有双向上下文的文本生成
- 自回归模型(例如GPT)仅训练来编码单向上下文,当前的输出作为下一步的输入(自回归)。虽然适用于文本生成,但自回归方法在建模深度双向上下文方面并不有效。
基于此,PALM以双向自编码的方式理解给定的上下文,以自回归的方式生成文本序列。
- GPT只生成,并且是自回归的
- MASS只对MASK的部分进行还原
- BART对原始句子进行还原,输入句与生成句是等长的
- PALM使用双向autoencoder对输入句进行编码,采用自回归的方式生成句子
Input&Output Representations
输入和输出表示
在模型预训练阶段,输入和输出表示经过定制,以尽量减少自监督预训练和监督微调之间的差异。在典型的下游生成任务(例如抽象摘要和生成式问答)中,上下文以一段相当长的文字给出,并要求模型根据对上下文的理解生成一段较短的文本
Copying Tokens from Context
从上下文复制tokens
后续文本通常会引用前面文本出现的实体和标记。因此,将复制机制纳入未标记语料库的预训练中将提高下游生成的文本的连贯性。这允许模型从预训练中学习何时以及如何在生成文本中复制标记,并将知识转移到下游微调。
PALM通过在transformer解码器中插入指针生成器网络来整合复制机制。指针生成器网络运行每个token要么从词汇表中生成,要么从生成文本的上下文中复制。