【论文速读】LM的文本生成方法，Top-p，温度，《The Curious Case of Neural Text Degeneration》

论文链接：https://arxiv.org/abs/1904.09751
https://ar5iv.labs.arxiv.org/html/1904.09751

这篇文章，描述的是语言模型的文本生成的核采样的方法，就是现在熟知的top-p
大概看看，还有几个地方比较有趣，值得记录一下。

摘要

尽管神经语言建模取得了相当大的进步，但从语言模型生成文本（例如生成故事）的最佳解码策略是什么仍然是一个悬而未决的问题。反直觉的经验观察是，尽管使用似然性作为训练目标会为广泛的语言理解任务带来高质量的模型，但基于最大化的解码方法（如beam搜索）会导致退化——输出平淡、不连贯或陷入重复循环的文本。

为了解决这一问题，我们提出了Nucleus采样（Nucleus Sampling），这是一种简单但有效的方法，可以从神经语言模型中提取出比以前的解码策略高得多的质量文本。我们的方法通过截断概率分布的不可靠尾部，从包含绝大多数概率质量的Tokens的动态核中采样，避免了文本退化。

为了正确检查当前基于最大化的随机解码方法，我们将每种方法的代数与人类文本沿几个轴（如似然性、多样性和重复性）的分布进行了比较。我们的结果表明，（1）最大化是开放式文本生成的一个不合适的解码目标，（2）当前最佳语言模型的概率分布有一个不可靠的尾部，在生成过程中需要截断；（3）Nucleus Sampling是当前生成长格式文本的最佳解码策略，该文本既有高质量的（通过人类评估来衡量），也与人类书写的文本一样多样化。

文章的一些观点

在这里插入图片描述
先来看文章的图1。
文章指出，如图1所示，即使使用最先进的模型（如GPT-2 Large），为高概率输出进行优化的解码策略（如beam搜索）也会导致文本极其退化。这可能看起来有违直觉，因为人们会认为好的模型会给更像人的语法文本赋予更高的概率。事实上，语言模型通常会给格式良好的文本打分，但长文本的最高分数往往是通用的、重复的和尴尬的。

同样令人惊讶的是图1的右侧，它显示了纯采样——直接从模型预测的概率中采样——导致文本不连贯，几乎与上下文无关。为什么纯采样产生的文本如此退化？在这项工作中，我们展示了“不可靠的尾巴”是罪魁祸首。这种不可靠的尾部由数万个概率相对较低的候选Token组成，这些Token在聚合中被过度表示。

在这里插入图片描述
图2展示了beam搜索解码文本和自然出现文本的概率分布的实际差异。
人类文本的特征是方差增加，这与beam搜索解码的文本的无休止重复形成鲜明对比。——说明，人类的语言不是遵从概率，而是希望有更多的意外，单调可预测的话语只会让人觉得乏味。

为了克服这些问题，文章引入了Nucleus采样。核采样的关键直觉是，每个时间步长的绝大多数概率质量都集中在核心，这是词汇的一个子集，往往在一到一千个候选者之间。而不是依靠固定的top-𝑘，或者使用温度参数来控制分布的形状，而不充分抑制不可靠的尾部，文章建议采样top-𝑝概率质量的一部分，动态地扩展和收缩候选池。
文章后续评估，文本由最大化或top-𝑘抽样的可能性太大，评估表明词汇使用缺乏多样性，与人类分布存在差异。另一方面，纯采样产生的文本的可能性明显低于黄金文本，这对应于较低的生成质量。
词汇使用和Self-BLEU（Zhu et al.，2018）统计数据显示，top-𝑘抽样与人类统计数据相匹配，需要较高的k值。然而，基于较高的𝑘值通常在可能性上具有高的方差，暗示了质量上可观察到的不连续性问题。Nucleus采样可以通过调整p值，轻松匹配参考困惑度，避免了高k值设置造成的不连贯，可以匹配分布统计数据。

文章在后续指出：自然语言不是遵从最大化概率
人们可能会想，最大化的问题是否是搜索错误，即，与解码的句子相比，模型赋予了更高概率的更高质量的句子，beam搜索只是未能找到它们。然而，文章评估，自然文本的每符号概率平均远低于beam搜索生成的文本。自然语言很少在多个连续的时间步长内保持在高概率区域，而是转向概率较低但信息量较大的标记。自然语言也不倾向于陷入重复循环，即使模型倾向于赋予这种情况高概率。
为什么人类书写的文本不是最可能的文本？文章推测这是人类语言的一个内在特性。在没有文本全局模型的情况下，每次分配一个单词的概率的语言模型将难以捕捉这种效果。Grice的《沟通的最大限度》（Grice，1975）表明，人们会针对显而易见的陈述进行优化。因此，让每个单词尽可能地可预测是不受欢迎的。这使得简单地通过训练更大的模型或使用标准的单词学习目标改进神经结构来解决问题变得不太可能：这样的模型被迫倾向于使用最低的公分母，而不是信息语言。

文章指出：似然最大化解码会导致重复和过度通用的语言使用，而没有截断的采样方法有可能从模型预测分布的低置信度尾部进行采样。Nucleus采样是一种有效捕获语言模型置信区域的解决方案。

在这里插入图片描述
图4指出：重复短语的概率随着每次重复而增加，从而形成正反馈循环。我们发现这种效果适用于我们测试的绝大多数短语，无论短语长度如何，或者这些短语是否是随机采样的，而不是从人类文本中获取的。
在图4中，可以观察到beam搜索生成的文本倾向于重复（例如，“team Sexch”和“overview of the”等短语的重复），这导致了高概率的重复文本生成。相比之下，人类生成的文本具有更高的变化性（variance），并且不会陷入重复循环。人类文本的概率分布显示了较低的重复性，并且更倾向于探索词汇的多样性。
图4中还强调了beam搜索生成文本的问题，即它倾向于生成过于可预测、缺乏多样性和陷入重复循环的文本。这与人类生成的文本形成鲜明对比，后者更自然、更具多样性，并且不太可能连续使用高概率的词汇。
总结来说，图4揭示了beam搜索解码方法在生成文本时可能导致的问题，尤其是在保持文本多样性和避免重复方面，而人类生成的文本则更自然、更具多样性。

关于文本的重复
文章指出，可以量化的文本质量的一个属性是重复。 Nucleus Sampling 和 top-𝑘对于合理的参数范围，采样的重复次数最少。除非使用非常高的温度，否则温度采样的世代具有更多的重复性，评估已经证明这会对相干性产生负面影响（通过高困惑度来衡量）。此外，当所有随机方法的调优参数设置得太低时，都会面临重复问题，这往往会过度截断，模仿贪婪搜索。因此，文章得出结论，只有核抽样才能满足文本理想世代的所有分布标准。

文章的主要方法：Nucleus Sampling

在这里插入图片描述
Nucleus Sampling的方法很简单，就是上面的公式。

对于top-k，难以选择合适的k值
文章指出，top-𝑘与beam搜索或从全分布中采样相比，采样导致文本质量要高得多，但是使用常数𝑘在不同的上下文中是次优的。在某些上下文中，下一个单词分布的头部可以在数十个或数百个合理选项（例如通用上下文中的名词或动词）中是平坦的，而在其他上下文中，大多数概率质量集中在一个或少数标记中。因此，如果𝑘很小，在某些情况下存在生成平淡或通用文本的风险，而如果𝑘比较大，top-𝑘词汇表将包括不合适的候选者，这些候选者将被重新归一化所增加的样本概率。
在核采样方法，考虑的候选者数量动态上升和下降，对应于模型置信区在词汇表上的变化。