大模型自动提示优化（APO）综述笔记

news2025/4/21 10:52:50

自大型语言模型（LLMs）出现以来，提示工程一直是各种自然语言处理（NLP）任务中激发期望响应的关键步骤。然而，由于模型的快速进步、任务的多样性和相关最佳实践的变化，提示工程对最终用户来说仍然是一个障碍。为了缓解这一问题，自动提示优化（APO）技术应运而生，这些技术使用各种自动化方法来提高LLMs在各种任务上的表现
论文名称：A Systematic Survey of Automatic Prompt Optimization Techniques
研究内容：对APO技术的全面综述，总结了该领域的最新进展和剩余挑战。文章提供了一个APO的正式定义和一个五部分的统一框架，并根据其显著特征对所有相关工作进行了严格的分类。
作者：Kiran Ramnath et al. (Amazon Web Services)
统一框架：APO流程分为五部分——种子初始化、推理评估与反馈、候选生成、筛选保留策略、迭代深度

在这里插入图片描述

1. 初始化种子提示（Seed Initialization）

目标：生成初始提示池作为优化起点。
技术细节及论文对比：

方法	技术描述	相关论文
人工指令	基于人工编写的示例生成强基线提示，成本较高但可解释性强。	ProteGi (Pryzant et al., 2023)、GPS (Xu et al., 2022)、SPRIG (Zhang et al., 2024b)
LLM指令归纳	利用LLM从少量示例或任务文档中归纳可读指令，覆盖任务多样性和语义泛化。	APE (Zhou et al., 2022)、DAPO (Yang et al., 2024c)、SCULPT (Kumar et al., 2024)、UniPrompt (Juneja et al., 2024)
结构化模板填充	将任务拆解为结构化模板（如README、任务类型、输出格式），由LLM填充内容。	UniPrompt (Juneja et al., 2024)

技术比较：

人工指令依赖领域专家，适用于高精度场景；
LLM指令归纳成本低但需平衡示例质量与泛化能力；
结构化模板提升逻辑一致性，但灵活性较低。

2. 推理评估与反馈（Inference Evaluation & Feedback）

目标：评估候选提示性能并生成反馈以指导优化。
技术细节及论文对比：

数值评分反馈

方法	技术描述	相关论文
任务准确率	直接使用分类准确率、BLEU-N（文本生成）、BERTScore（语义相似度）等。	APE (Zhou et al., 2022)、PACE (Dong et al., 2024b)
奖励模型	训练XGBoost或LLM模型预测提示质量，支持多目标优化（如性能+安全性）。	OIRL (Sun et al., 2024a)、DRPO (Amini et al., 2024)
熵与NLL	利用输出分布的不确定性（需访问概率分布），优化提示的多样性和稳定性。	GRIPS (Prasad et al., 2023)、GPS (Xu et al., 2022)

LLM反馈

方法	技术描述	相关论文
单候选优化	通过分层树结构（SCULPT）或Actor-Critic框架（PACE）动态调整提示。	SCULPT (Kumar et al., 2024)、PACE (Dong et al., 2024b)
多候选优化	生成文本梯度（ProTeGi）或收集错误案例（PromptAgent），提升全局搜索能力。	ProTeGi (Pryzant et al., 2023)、PromptAgent (Wang et al., 2024a)

人工反馈

交互式偏好建模：通过对话动态捕获用户偏好（GATE）。
规则注入：结合人工设计的反馈规则优化多步骤任务（PROMST）。
相关论文：APOHF (Lin et al., 2024)、GATE (Joko et al., 2024)

技术比较：

数值评分客观但灵活性差；
LLM反馈支持语义级优化，但计算成本高；
人工反馈精度高，适用于关键任务，但难以规模化。

3. 候选提示生成（Candidate Generation）

目标：生成新候选提示以探索优化空间。
技术细节及论文对比：

启发式编辑

方法	技术描述	相关论文
遗传算法	通过交叉、变异操作生成新提示（如SPRIG的组件库操作）。	SPRIG (Zhang et al., 2024b)、PromptBreeder (Fernando et al., 2023)
词汇修剪	保留高频词（CLAPS）或基于互信息选择关键短语（BDPL），降低搜索空间冗余。	CLAPS (Zhou et al., 2023)、BDPL (Diao et al., 2022)
程序合成	将提示优化转化为模块化程序（如DSPY的文本转换图），支持结构化组合优化。	DSPY (Khattab et al., 2024)、SAMMO (Schnabel & Neville, 2024)

神经网络编辑

方法	技术描述	相关论文
强化学习	策略梯度优化（BDPL）或离线奖励模型（OIRL），平衡探索与利用。	BPO (Cheng et al., 2024)、OIRL (Sun et al., 2024a)
GAN对抗训练	生成器与判别器联合优化，提升提示对抗鲁棒性（Long et al., 2024）。	Long et al. (2024)

元提示设计

结构化元指令：定义任务描述、输出格式、推理过程等模板（DAPO）。
动态优化历史：记录历史优化轨迹以指导后续生成（OPRO）。
相关论文：OPRO (Yang et al., 2024a)、DAPO (Yang et al., 2024c)

技术比较：

遗传算法适合离散空间搜索，但依赖初始组件库；
程序合成支持复杂任务分解，但需预定义模块结构；
强化学习适合动态环境，但训练成本高。

4. 筛选与保留策略（Filter & Retain Strategies）

目标：选择高潜力候选进入下一轮优化。
技术细节及论文对比：

方法	技术描述	相关论文
TopK贪婪搜索	保留当前最优候选（ProTeGi），计算高效但易陷入局部最优。	ProTeGi (Pryzant et al., 2023)
UCB及其变体	平衡探索与利用（SPRIG），支持动态评估数据集采样。	SPRIG (Zhang et al., 2024b)、PromptAgent (Wang et al., 2024a)
区域联合搜索（RBJS）	按聚类优化专家提示（MOP），提升多任务适应性。	MOP (Wang et al., 2025)
元启发式集成	混合多种搜索算法（如遗传算法+模拟退火），增强鲁棒性（PLUM）。	PLUM (Pan et al., 2024)

技术比较：

TopK简单高效，适合快速收敛；
UCB适合动态环境，需调整探索系数；
RBJS在多任务场景表现优异，但依赖聚类质量。

5. 迭代深度（Iteration Depth）

目标：控制优化过程的终止条件。
技术细节及论文对比：

方法	技术描述	相关论文
固定步长	预设迭代次数（N），适用于计算资源受限场景。	多数方法（如ProTeGi、APE）
动态终止	基于性能阈值（GRIPS）或收敛检测（PromptAgent），提升效率。	GRIPS (Prasad et al., 2023)、PromptAgent (Wang et al., 2024a)

技术比较：

固定步长易实现但可能欠拟合或过拟合；
动态终止节省资源，需设计合理的收敛判定条件。

论文	种子初始化	候选生成	筛选策略	迭代深度
ProTeGi	人工指令	LLM改写	UCB	固定
APE	LLM归纳	N/A	UCB	固定
DSPY	人工+LLM归纳	程序合成	TopK	动态
MOP	LLM归纳	专家混合	RBJS	固定