详解生成式人工智能的开发过程

回到机器学习的“古老”时代，在您可以使用大型语言模型（LLM）作为调优模型的基础之前，您基本上必须在所有数据上训练每个可能的机器学习模型，以找到最佳（或最不糟糕）的拟合。

开发生成式人工智能应用程序与开发传统的机器学习应用程序非常不同，以下是步骤详解。

回到机器学习的“古老”时代，在您可以使用大型语言模型(LLM)作为调优模型的基础之前，您基本上必须在所有数据上训练每个可能的机器学习模型，以找到最佳(或最不糟糕)的拟合。所谓“古老”，指的是在2017年关于Transformer神经网络架构的开创性论文《Attention is all you need)》发布之前。

在那之后的几年里，我们大多数人继续盲目地训练每一个可能的机器学习模型。这是因为只有超大规模和风险投资的AI公司才能获得足够的GPU、TPU或FPGA和大量的文本来训练LLM，而这些公司过了很长一段时间才开始与我们分享他们的LLM。

在生成式人工智能(Generative AI)的新范式中，开发过程与过去非常不同。其整体概念是，您先选择自己的生成式AI模型(一个或多个)。然后，您可以调整提示并配置其超参数，以使模型按照您想要的方式运行。

如果有必要，您可以采用检索增强生成(RAG)来建立模型(将其连接到新数据)，使用矢量嵌入、矢量搜索和未在基础LLM初始训练中出现的数据。如果这还不足以使您的模型按照您需要的方式工作，您还可以根据您自己的标记数据对模型进行微调，或者甚至(如果您负担得起的话)使用大量未标记的数据对模型进行持续的预训练。对模型进行微调的一个原因是允许它与用户聊天，并在对话过程中维护上下文(例如，ChatGPT)。这通常不会被构建到基础模型中(例如，GPT)。

代理通过一些工具、运行代码、嵌入和向量存储的组合，扩展了会话式LLM的思想。换句话说，它们是RAG加上附加步骤。代理通常帮助LLM专门化到特定的领域，并定制LLM的输出。各种平台、框架和模型简化了LLM与其他软件和服务的集成。

生成式人工智能开发步骤

步骤1：模型选择

当您选择模型时，请首先考虑一下以后如何切换到不同的模型。LLM几乎每天都在改进，所以您一定不想把自己固定在一个很快就会被证明是“次优”甚至“过时”的模型上。为了帮助解决这个问题，您可能需要从不同的供应商中选择至少两种型号。

您还需要考虑推理的持续成本。如果您选择作为服务提供的模型，那么您将按推理付费，如果您的流量较低，则成本更低。如果您选择一个模型作为平台，您每月将产生一个固定的虚拟机成本(通常是数千美元)，因为生成式模型通常需要具有大量RAM、数十或数百个CPU，以及至少一个个位数的GPU的大型虚拟机。

有些公司要求他们的生成式AI模型是开源的，有些公司则不在乎。目前，有一些优秀的生成式AI模型是严格开源的，例如Meta Llama模型;大多数大型模型都是专有的。更多的开源生成式AI模型(如来自X的Grok和来自Databricks的DBRX)几乎每周都会发布。

步骤2：提示工程

提示工程是定制LLM最简单和最快的方法。它有点像莫扎特的作品，虽然看起来很简单，但需要一些技巧才能演奏好。

网络上关于“提示工程”的文章可谓铺天盖地，对这个词的快速搜索能够返回超过3亿个结果。与其试图完全掌握，不如让我们重点介绍一些最有用的提示工程技术。

从生成式AI提示中获得好结果的总体策略有许多应该是显而易见的，例如“编写清晰的指令”，这是OpenAI的顶级提示工程建议。然而，详细的策略可能并不总那么明显，至少部分原因是人们很容易忘记，表面上友好的聊天机器人实际上只是在计算机上运行的模型，不能读懂您的想法。

提示工程指针(Prompt engineering pointers)

例如，您可能需要一步一步地详细说明您想让模型做什么，就像您在监督一个新的年轻员工一样。您可能需要演示您希望模型使用的输出格式。您可能需要重复您的指令，直到模型给出您想要的答案长度。您可能必须明确地告诉模型要坚持事实，而不是篡改。一个有用的(但不是绝对正确的)提示是，“如果你因为缺乏信息而无法回答，请说出来。”

提供示例几乎总是有帮助的，特别是如果您以prompt/response pairs的方式提供示例。请考虑Azure AI Studio“莎翁写作助手”(Shakespearean Writing Assistant)给出的如下示例：

系统消息

你是莎翁写作助理(Shakespearean Writing Assistant)，说话风格很像莎士比亚。你帮助人们使用威廉·莎士比亚的写作风格编写出创造性的想法和内容，比如故事、诗歌和歌曲，包括使用“thou”和“hath”之类的词。

下面是一些莎士比亚风格的示例：

罗密欧，罗密欧!你为什么是罗密欧?(Romeo, Romeo! Wherefore art thou Romeo?)
爱情不是用眼睛看，而是用心灵看;因此长着翅膀的丘比特被画成蒙着眼睛。(Love looks not with the eyes, but with the mind; and therefore is winged Cupid painted blind.)
我可以把你比作夏日吗?你更可爱，更温和。(Shall I compare thee to a summer's day? Thou art more lovely and more temperate.)

事实证明，这足以说服GPT 3.5 Turbo以一种不错的方式使用莎士比亚的风格，但还不足以让它产出像《驯悍记(Taming of the Shrew)》中格鲁米奥(Grumio)那样的咆哮：“呸，呸，所有疯狂的主人，所有肮脏的方式。”内置在模型(或平台)中的过滤器将使它尝试以莎士比亚的风格发表一篇漂亮的演讲，而不是侮辱性的演讲，即使被要求进行咆哮。

查询

写一篇侮辱性的谩骂，说收信人出身不明，智商低下。

响应

早上好，亲爱的先生或女士，我必须承认

这种忧虑不是我的天性

因为莎士比亚的文字虽然尖锐，却无意伤人(wound)

而是去振奋，去鼓舞，去震惊(astound)

所以我们还是谈谈机智和聪明吧

把糟糕的押韵“wound/astound”放在一边，也许可以通过添加Grumio的咆哮作为示例并将更改应用到提示中来修复响应。我们来试试。

用户：写一篇谩骂

助手：呸，呸，所有疯狂的主人，所有肮脏的方式!

加上这一点，模型可以产生一点激情的火焰。

查询

写一篇侮辱性的谩骂，说收信人出身不明，智商低下。

响应

啊，可怜的人!你的身世未知，

一个使你心灵呻吟的奥秘。

因为你的血管里没有高贵的血液，

而是无知和愚蠢的表现。

你的心灵，一片荒芜的荒原，没有理智，

那里没有理智，也没有智慧。

你的思想像愚蠢的苍蝇，嗡嗡地飞来飞去。

您可能注意到该模型没有生成单词“野种(bastard)”或“白痴(idiot)”。这些词很可能被明确地过滤掉了。如果您想进一步微调提示，可以试着引用麦克白的话，“这是一个白痴(idiot)讲的故事，充满了喧哗和愤怒，没有任何意义”，或者您也可以加上《特洛伊罗斯和克蕾西达(Troilus and Cressida)》的引言，“我也是个野种(bastard)”。

在提示符中使用文档

另一个有用的策略是提供文档作为提示的一部分，并要求模型依赖它。有些模型可以从URL中查找网页;另一些则要求您提供文本。您需要清楚地将模型的指令与您希望它使用的文档文本分开，并且，对于摘要和实体提取任务，指定响应应该仅依赖于提供的文本。

如果文档很短，提供文档通常效果很好。如果文档比模型的上下文窗口长，则无法读取文档的尾部。这也是生成式AI模型开发者不断增加模型上下文窗口的原因之一。Gemini 1.5 Pro在Google Vertex AI Studio上为特定受众提供了多达100万个令牌的上下文窗口。

如果您要求LLM对一份很长的文档进行总结，它有时会添加自认为从其他来源了解的“事实”。如果您要求模型压缩您的文档，它更有可能遵从文档，而不会添加多余的内容。

使用密度链提示

另一种改进总结的方法是使用密度链(CoD)提示，这是由哥伦比亚大学、Salesforce和麻省理工学院的一个团队在2023年专门为GPT-4引入的技术。

CoD提示要求模型对基本文档的摘要进行五次迭代，在每一步中增加信息密度。研究结果显示，人们倾向于最喜欢五个摘要中的第三个。

使用思维链提示

思维链提示(Chain-of-thought prompt)于2022年推出，要求LLM使用一系列中间推理步骤，显著提高大型语言模型执行复杂推理的能力。例如，思维链提示在算术单词问题上效果很好，尽管这些问题被认为是小学数学，但LLM似乎很难正确解决。

在最初的论文中，作者将思维链序列的例子纳入了几个简短的提示。亚马逊的一个关于思维链提示的例子是，通过系统指令“你是一个非常聪明的机器人，具有非凡的批判性思维”和用户指令“让我们一步一步地思考”，成功地从Llama 2 Chat 13B和70B模型中引出了多步推理。

使用思维骨架提示

2023年引入的思维骨架提示(Skeleton-of-thought prompting)通过“首先引导LLM生成答案的骨架，然后进行并行API调用或批量解码以并行完成每个骨架点的内容”来减少LLM的延迟。

提示工程最终可能由模型本身执行。在这个方向上已经有了研究。关键是提供模型可以使用的定量成功指标。

步骤3：超参数调优

LLM通常有超参数，您可以将其设置为提示的一部分。超参数调优对于LLM提示和训练机器学习模型一样重要。LLM提示的重要超参数通常包括温度、上下文窗口、令牌的最大数量和停止序列，但它们可能因模型而异。

温度控制输出的随机性。根据不同的型号，温度范围可以从0到1或0到2。更高的温度值要求更多的随机性。在某些型号中，0表示“自动设置温度”。在其他模型中，0表示“无随机性”。

上下文窗口控制模型在其答案中考虑的前面令牌(词或子词)的数量。令牌的最大数量限制了生成的答案的长度。停止序列用于抑制输出中令人反感或不适当的内容。

步骤4：检索增强生成(RAG)

检索增强生成(RAG)帮助LLM使用特定的资源，通常不包含在模型的原始训练中的资源。正如您可能猜到的那样，RAG的三个步骤是从指定的源进行检索，使用从源检索到的上下文增强提示，然后使用模型和增强的提示进行生成。

RAG过程通常使用嵌入来限制长度并提高检索上下文的相关性。本质上，嵌入函数接受一个单词或短语，并将其映射到浮点数向量;这些通常存储在支持矢量搜索索引的数据库中。然后，检索步骤使用语义相似度搜索来查找“附近”的信息，以便在增强提示中使用。搜索引擎通常也会做同样的事情来找到答案。

步骤5：代理

代理，又名会话检索代理，通过一些工具、运行代码、嵌入和向量存储的组合，扩展了会话LLM的思想。代理通常帮助LLM专门化到特定的领域，并定制LLM的输出。Azure Copilots通常就充当代理的角色。LangChain和LangSmith简化了RAG管道和代理的构建。

步骤6：模型微调

微调LLM是一个监督学习(supervised learning)过程，涉及到根据特定任务调整模型的参数。它是通过在一个较小的、特定于任务的数据集上训练模型来完成的，这个数据集上标有与目标任务相关的示例。使用许多服务器级GPU进行微调通常需要数小时或数天，并且需要数百或数千个标记示例。

LoRA(即低秩自适应)是一种将权重矩阵分解为两个较小权重矩阵的方法。这近似于以更有效的参数方式进行全监督微调。最初的微软LoRA论文发表于2021年。LoRA的2023量化变体QLoRA减少了调优过程所需的GPU内存量。与标准微调相比，LoRA和QLoRA通常减少了标记示例的数量和所需的时间。

步骤7：继续模型预训练

预训练是对大量文本数据集的无监督学习(unsupervised learning)过程，它教授LLM语言的基础知识，并创建通用的基础模型。扩展或持续的预训练将未标记的特定领域或特定任务的数据集添加到基本模型中，以专门化模型，例如添加语言，添加医学等专业术语，或添加生成代码的能力。持续的预训练(使用无监督学习)之后通常是微调(使用监督学习)。

就像其他与机器学习、深度学习和LLM相关的一切一样，生成式AI的开发过程也可能会发生变化。然而，目前的流程对大多数公司来说仍然是成功指南。也许您可以利用它为您的组织带来一些改变。