【MindSpore学习打卡】应用实践-LLM原理和实践-文本解码原理 —

【MindSpore学习打卡】应用实践-LLM原理和实践-文本解码原理 —— 以MindNLP为例

news2025/4/13 19:01:55

在自然语言处理（NLP）领域，文本生成是一项重要且具有挑战性的任务。从对话系统到自动文本补全，文本生成技术无处不在。本文将深入探讨自回归语言模型的文本解码原理，使用MindNLP工具进行示例演示，并详细分析不同解码方法的优缺点。通过这些内容，您将了解如何选择合适的解码策略来提升生成文本的质量和多样性。

概述

文本生成在自然语言处理（NLP）中具有重要地位，广泛应用于对话系统、文本补全等任务。本文将探讨自回归语言模型的文本解码原理，使用MindNLP工具进行示例演示，重点分析不同解码方法的优缺点及其实现。

自回归语言模型回顾

自回归语言模型通过逐步预测下一个单词来生成文本。假设给定一个初始上下文单词序列 (W_0)，模型通过计算条件概率 (P(w_t | w_{1:t-1})) 来生成下一个单词，直到生成EOS（结束）标签。

公式

一个文本序列的概率分布可以分解为每个词基于其上文的条件概率的乘积：
$P(w_1, w_2, \dots, w_T) = \prod_{t=1}^{T} P(w_t | w_{1:t-1})$

常见的文本生成方法

MindNLP和huggingface Transformers提供了多种文本生成方法，包括贪心搜索、束搜索、随机采样、Top-K采样和Top-P采样。下面将逐一介绍这些方法及其优缺点。

贪心搜索 (Greedy Search)

贪心搜索在每个时间步 (t) 都选择条件概率最高的词作为当前输出词。

贪心搜索通过在每个时间步选择条件概率最高的词，快速生成文本。虽然这种方法简单高效，但容易错过全局最优解，生成的文本质量可能不高。这种方法适合在对效率要求较高且文本生成质量要求不高的场景中使用。

公式：
$w_t = \arg\max_w P(w | w_{1:t-1})$

优点：简单高效。

缺点：容易错过全局最优解，可能导致生成的文本质量不高。

from mindnlp.transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained("iiBcai/gpt2", mirror='modelscope')
model = GPT2LMHeadModel.from_pretrained("iiBcai/gpt2", pad_token_id=tokenizer.eos_token_id, mirror='modelscope')
input_ids = tokenizer.encode('I enjoy walking with my cute dog', return_tensors='ms')

greedy_output = model.generate(input_ids, max_length=50)
print("Greedy Search Output:\n" + tokenizer.decode(greedy_output[0], skip_special_tokens=True))

束搜索 (Beam Search)

束搜索通过在每个时间步保留最可能的num_beams个词，并从中最终选择出概率最高的序列。

束搜索通过保留多个可能的词路径来提高生成文本的质量。虽然它在一定程度上保留了最优路径，但仍然可能面临重复问题，且在开放域生成效果较差。束搜索适用于需要在多个候选路径中选择最优解的场景，如机器翻译。
以num_beams=2为例：

$\text{("The","dog","has")} : 0.4 \times 0.9 = 0.36$

$\text{("The","nice","woman")} : 0.5 \times 0.4 = 0.20$

优点：一定程度上保留最优路径。

缺点：无法解决重复问题，在开放域生成效果差。

beam_output = model.generate(input_ids, max_length=50, num_beams=5, early_stopping=True)
print("Beam Search Output:\n" + tokenizer.decode(beam_output[0], skip_special_tokens=True))

随机采样 (Sample)

根据当前条件概率分布随机选择输出词 ( $w_t$ )。
随机采样根据条件概率分布随机选择输出词，极大地提高了生成文本的多样性。然而，生成的文本可能不连续、不合理。随机采样适用于需要生成多样化文本的场景，如创意写作。

优点：文本生成多样性高。

缺点：生成文本不连续。

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=0)
print("Random Sample Output:\n" + tokenizer.decode(sample_output[0], skip_special_tokens=True))

Top-K采样

选出概率最大的K个词，重新归一化，最后在归一化后的K个词中采样。

优点：在固定采样池中采样，生成文本更加多样化。

缺点：在分布比较尖锐的时候可能产生胡言乱语，在分布比较平坦的时候限制模型的创造力。

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=50)
print("Top-K Sample Output:\n" + tokenizer.decode(sample_output[0], skip_special_tokens=True))

Top-P采样 (Nucleus Sampling)

在累积概率超过概率p的最小单词集中进行采样，重新归一化。采样池根据下一个词的概率分布动态调整。

优点：动态调整采样池大小，提高生成文本的质量和多样性。

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_p=0.92, top_k=0)
print("Top-P Sample Output:\n" + tokenizer.decode(sample_output[0], skip_special_tokens=True))

结合Top-K和Top-P采样

将Top-K和Top-P结合，进一步提升文本生成质量和多样性。

Top-K采样选出概率最大的K个词进行采样，而Top-P采样则在累积概率超过某个阈值的词中进行采样。两者结合使用可以平衡生成文本的多样性和合理性，适用于需要生成高质量且具有创意的文本场景。

sample_outputs = model.generate(input_ids, do_sample=True, max_length=50, top_k=5, top_p=0.95, num_return_sequences=3)
for i, sample_output in enumerate(sample_outputs):
    print(f"{i}: {tokenizer.decode(sample_output, skip_special_tokens=True)}")