序列生成策略——束搜索、贪心搜索、穷举搜索

news2026/2/12 19:02:46

序列搜索策略包括贪心搜索、穷举搜索和束搜索。

贪心搜索所选取序列的计算量最小，但精度相对较低。

穷举搜索所选取序列的精度最高，但计算量最大。

束搜索通过灵活选择束宽，在正确率和计算代价之间进行权衡。

在序列到序列学习（seq2seq，BLEU）_流萤数点的博客-CSDN博客中，我们逐个预测输出序列，直到预测序列中出现特定的序列结束词元“<eos>”。本节将首先介绍贪心搜索（greedy search）策略，并探讨其存在的问题，然后对比其他替代策略： 穷举搜索（exhaustive search）和束搜索（beam search）。

1.贪心搜索

首先，让我们看看一个简单的策略：贪心搜索，该策略已用于 9.7节的序列预测。对于输出序列的每一时间步t′，我们都将基于贪心搜索从Y中找到具有最高条件概率的词元，即：

一旦输出序列包含了“<eos>”或者达到其最大长度T′，则输出完成。

如图9.8.1中，假设输出中有四个词元“A”“B”“C”和“<eos>”。每个时间步下的四个数字分别表示在该时间步生成“A”“B”“C”和“<eos>”的条件概率。在每个时间步，贪心搜索选择具有最高条件概率的词元。因此，将在图9.8.1中预测输出序列“A”“B”“C”和“<eos>”。这个输出序列的条件概率是 0.5×0.4×0.4×0.6=0.048。

然而，贪心搜索无法保证得到最优序列。

图9.8.2中的另一个例子阐述了这个问题。与图9.8.1不同，在时间步2中，我们选择图9.8.2中的词元“C”，它具有第二高的条件概率。由于时间步3所基于的时间步1和2处的输出子序列已从图9.8.1中的“A”和“B”改变为图9.8.2中的“A”和“C”，因此时间步3处的每个词元的条件概率也在图9.8.2中改变。假设我们在时间步3选择词元“B”，于是当前的时间步4基于前三个时间步的输出子序列“A”“C”和“B”为条件，这与图9.8.1中的“A”“B”和“C”不同。因此，在图9.8.2中的时间步4生成每个词元的条件概率也不同于图9.8.1中的条件概率。结果，图9.8.2中的输出序列 “A”“C”“B”和“<eos>”的条件概率为 0.5×0.3×0.6×0.6=0.054，这大于图9.8.1中的贪心搜索的条件概率。这个例子说明：贪心搜索获得的输出序列 “A”“B”“C”和“<eos>” 不一定是最佳序列。

2.穷举搜索

如果目标是获得最优序列，我们可以考虑使用穷举搜索（exhaustive search）：穷举地列举所有可能的输出序列及其条件概率，然后计算输出条件概率最高的一个。

虽然我们可以使用穷举搜索来获得最优序列，但其计算量O( $|Y|^{T{}'}$ )可能高的惊人。例如，当|Y|=10000和T′=10时，我们需要评估 $10000^{10}$ = $10^{40}$ 序列，这是一个极大的数，现有的计算机几乎不可能计算它。然而，贪心搜索的计算量 O(|Y|T′) 通它要显著地小于穷举搜索。例如，当|Y|=10000和T′=10时，我们只需要评估10000×10= $10^{5}$ 个序列。

3.束搜索

那么该选取哪种序列搜索策略呢？如果精度最重要，则显然是穷举搜索。如果计算成本最重要，则显然是贪心搜索。而束搜索的实际应用则介于这两个极端之间。

束搜索（beam search）是贪心搜索的一个改进版本。它有一个超参数，名为束宽（beam size）k。在时间步1，我们选择具有最高条件概率的k个词元。这k个词元将分别是k个候选输出序列的第一个词元。在随后的每个时间步，基于上一时间步的k个候选输出序列，我们将继续从k|Y|个可能的选择中挑出具有最高条件概率的k个候选输出序列。