自大型语言模型(LLMs)出现以来,提示工程一直是各种自然语言处理(NLP)任务中激发期望响应的关键步骤。然而,由于模型的快速进步、任务的多样性和相关最佳实践的变化,提示工程对最终用户来说仍然是一个障碍。为了缓解这一问题,自动提示优化(APO)技术应运而生,这些技术使用各种自动化方法来提高LLMs在各种任务上的表现
论文名称:A Systematic Survey of Automatic Prompt Optimization Techniques
研究内容:对APO技术的全面综述,总结了该领域的最新进展和剩余挑战。文章提供了一个APO的正式定义和一个五部分的统一框架,并根据其显著特征对所有相关工作进行了严格的分类。
作者:Kiran Ramnath et al. (Amazon Web Services)
统一框架:APO流程分为五部分——种子初始化、推理评估与反馈、候选生成、筛选保留策略、迭代深度
1. 初始化种子提示(Seed Initialization)
目标:生成初始提示池作为优化起点。
技术细节及论文对比:
方法 | 技术描述 | 相关论文 |
---|---|---|
人工指令 | 基于人工编写的示例生成强基线提示,成本较高但可解释性强。 | ProteGi (Pryzant et al., 2023)、GPS (Xu et al., 2022)、SPRIG (Zhang et al., 2024b) |
LLM指令归纳 | 利用LLM从少量示例或任务文档中归纳可读指令,覆盖任务多样性和语义泛化。 | APE (Zhou et al., 2022)、DAPO (Yang et al., 2024c)、SCULPT (Kumar et al., 2024)、UniPrompt (Juneja et al., 2024) |
结构化模板填充 | 将任务拆解为结构化模板(如README、任务类型、输出格式),由LLM填充内容。 | UniPrompt (Juneja et al., 2024) |
技术比较:
- 人工指令依赖领域专家,适用于高精度场景;
- LLM指令归纳成本低但需平衡示例质量与泛化能力;
- 结构化模板提升逻辑一致性,但灵活性较低。
2. 推理评估与反馈(Inference Evaluation & Feedback)
目标:评估候选提示性能并生成反馈以指导优化。
技术细节及论文对比:
数值评分反馈
方法 | 技术描述 | 相关论文 |
---|---|---|
任务准确率 | 直接使用分类准确率、BLEU-N(文本生成)、BERTScore(语义相似度)等。 | APE (Zhou et al., 2022)、PACE (Dong et al., 2024b) |
奖励模型 | 训练XGBoost或LLM模型预测提示质量,支持多目标优化(如性能+安全性)。 | OIRL (Sun et al., 2024a)、DRPO (Amini et al., 2024) |
熵与NLL | 利用输出分布的不确定性(需访问概率分布),优化提示的多样性和稳定性。 | GRIPS (Prasad et al., 2023)、GPS (Xu et al., 2022) |
LLM反馈
方法 | 技术描述 | 相关论文 |
---|---|---|
单候选优化 | 通过分层树结构(SCULPT)或Actor-Critic框架(PACE)动态调整提示。 | SCULPT (Kumar et al., 2024)、PACE (Dong et al., 2024b) |
多候选优化 | 生成文本梯度(ProTeGi)或收集错误案例(PromptAgent),提升全局搜索能力。 | ProTeGi (Pryzant et al., 2023)、PromptAgent (Wang et al., 2024a) |
人工反馈
- 交互式偏好建模:通过对话动态捕获用户偏好(GATE)。
- 规则注入:结合人工设计的反馈规则优化多步骤任务(PROMST)。
相关论文:APOHF (Lin et al., 2024)、GATE (Joko et al., 2024)
技术比较:
- 数值评分客观但灵活性差;
- LLM反馈支持语义级优化,但计算成本高;
- 人工反馈精度高,适用于关键任务,但难以规模化。
3. 候选提示生成(Candidate Generation)
目标:生成新候选提示以探索优化空间。
技术细节及论文对比:
启发式编辑
方法 | 技术描述 | 相关论文 |
---|---|---|
遗传算法 | 通过交叉、变异操作生成新提示(如SPRIG的组件库操作)。 | SPRIG (Zhang et al., 2024b)、PromptBreeder (Fernando et al., 2023) |
词汇修剪 | 保留高频词(CLAPS)或基于互信息选择关键短语(BDPL),降低搜索空间冗余。 | CLAPS (Zhou et al., 2023)、BDPL (Diao et al., 2022) |
程序合成 | 将提示优化转化为模块化程序(如DSPY的文本转换图),支持结构化组合优化。 | DSPY (Khattab et al., 2024)、SAMMO (Schnabel & Neville, 2024) |
神经网络编辑
方法 | 技术描述 | 相关论文 |
---|---|---|
强化学习 | 策略梯度优化(BDPL)或离线奖励模型(OIRL),平衡探索与利用。 | BPO (Cheng et al., 2024)、OIRL (Sun et al., 2024a) |
GAN对抗训练 | 生成器与判别器联合优化,提升提示对抗鲁棒性(Long et al., 2024)。 | Long et al. (2024) |
元提示设计
- 结构化元指令:定义任务描述、输出格式、推理过程等模板(DAPO)。
- 动态优化历史:记录历史优化轨迹以指导后续生成(OPRO)。
相关论文:OPRO (Yang et al., 2024a)、DAPO (Yang et al., 2024c)
技术比较:
- 遗传算法适合离散空间搜索,但依赖初始组件库;
- 程序合成支持复杂任务分解,但需预定义模块结构;
- 强化学习适合动态环境,但训练成本高。
4. 筛选与保留策略(Filter & Retain Strategies)
目标:选择高潜力候选进入下一轮优化。
技术细节及论文对比:
方法 | 技术描述 | 相关论文 |
---|---|---|
TopK贪婪搜索 | 保留当前最优候选(ProTeGi),计算高效但易陷入局部最优。 | ProTeGi (Pryzant et al., 2023) |
UCB及其变体 | 平衡探索与利用(SPRIG),支持动态评估数据集采样。 | SPRIG (Zhang et al., 2024b)、PromptAgent (Wang et al., 2024a) |
区域联合搜索(RBJS) | 按聚类优化专家提示(MOP),提升多任务适应性。 | MOP (Wang et al., 2025) |
元启发式集成 | 混合多种搜索算法(如遗传算法+模拟退火),增强鲁棒性(PLUM)。 | PLUM (Pan et al., 2024) |
技术比较:
- TopK简单高效,适合快速收敛;
- UCB适合动态环境,需调整探索系数;
- RBJS在多任务场景表现优异,但依赖聚类质量。
5. 迭代深度(Iteration Depth)
目标:控制优化过程的终止条件。
技术细节及论文对比:
方法 | 技术描述 | 相关论文 |
---|---|---|
固定步长 | 预设迭代次数(N),适用于计算资源受限场景。 | 多数方法(如ProTeGi、APE) |
动态终止 | 基于性能阈值(GRIPS)或收敛检测(PromptAgent),提升效率。 | GRIPS (Prasad et al., 2023)、PromptAgent (Wang et al., 2024a) |
技术比较:
- 固定步长易实现但可能欠拟合或过拟合;
- 动态终止节省资源,需设计合理的收敛判定条件。
论文 | 种子初始化 | 候选生成 | 筛选策略 | 迭代深度 |
---|---|---|---|---|
ProTeGi | 人工指令 | LLM改写 | UCB | 固定 |
APE | LLM归纳 | N/A | UCB | 固定 |
DSPY | 人工+LLM归纳 | 程序合成 | TopK | 动态 |
MOP | LLM归纳 | 专家混合 | RBJS | 固定 |
注:本笔记基于论文《A Systematic Survey of Automatic Prompt Optimization Techniques》内容提炼,技术对比需结合具体任务需求选择方法。