告诉老板，AI大模型应该这样部署！

导语

随着大语言模型创新的快速步伐，企业正在积极探索用例并将其第一个生成式人工智能应用程序部署到生产中。

随着今年LLM或LLMOps的部署正式开始，企业根据自己的人才、工具和资本投资结合了四种类型的LLM部署方法。请记住，随着新的 LLM 优化和工具的定期推出，这些部署方法将不断发展。

这篇文章的目标是介绍这些方法并讨论这些设计选择背后的决策。

01.
结合实际情况进行快速工程

许多企业将通过这种方法开始他们的大语言模型之旅，因为它最具成本效益和时间效率。这涉及到直接调用 OpenAI、Cohere 或 Anthropic 等第三方 AI 提供商并进行提示。

然而，鉴于这些是广义的大语言模型，他们可能不会回答问题，除非它以特定的方式提出，或者除非得到更多方向的指导，否则不会引起正确的回答。构建这些提示，也称为“提示工程”，涉及创造性的写作技巧和多次迭代以获得最佳响应。

图1-1 提示工程输入示例

提示还可以包括帮助指导大语言模型的示例。这些示例包含在提示本身之前，称为“上下文”。“One shot”和“Few shot”提示是用户在上下文中介绍示例时的提示。

这是一个例子：

图1-2 提示工程输入示例

由于它就像调用 API 一样简单，因此这是企业快速启动 LLM 旅程的最常见方法，对于许多缺乏人工智能专业知识和资源的人来说可能就足够了。

这种方法适用于广义自然语言用例，但如果第三方专有人工智能提供商的流量很大，则可能会变得昂贵。

02.
检索增强生成（RAG）

基础模型是使用通用领域语料库进行训练的，这使得它们在生成特定领域响应方面效果较差。

因此，企业将希望在自己的数据上部署 LLM，以解锁其领域中的用例（例如，文档和支持方面的客户聊天机器人、IT 指令方面的内部聊天机器人等），或者生成最新的响应或使用非公开信息。

然而，很多时候可能没有足够的指令（数百或数千）来证明微调模型的合理性，更不用说训练新模型了。

图2-1 LLM通常不会提供及时或针对特定领域的回应

在这种情况下，企业可以使用 RAG 来增强提示，方法是使用一个或多个文档或文档块形式的外部数据，然后将其作为提示中的上下文传递，以便 LLM 可以正确地响应该信息。

在数据作为上下文传递之前，需要从内部存储中检索数据。为了确定为提示检索哪些数据，提示和文档（通常被分块以满足标记要求并使其更易于搜索）都被转换为嵌入，并确定相似性分数。最后，组装提示查询并发送给大语言模型。

Pinecone 等矢量数据库和 LlamaIndex 等 LLM 元数据工具是支持 RAG 方法的新兴工具。

图2-2 针对内部 IT 聊天机器人向大语言模型发出的 RAG 提示

除了节省微调时间之外，这种知识检索技术还减少了产生幻觉的机会，因为数据是在提示本身中传递的，而不是依赖于大语言模型的内部知识。

然而，企业需要注意，知识检索并不是万无一失的，因为大语言模型生成的正确性将在很大程度上依赖于所传递信息的质量和所使用的检索技术。

另一个需要注意的考虑因素是，在调用中发送数据（尤其是专有数据）会增加数据隐私风险，因为据报道基础模型可以记住通过的数据，并增加令牌窗口，从而增加每次调用的成本和延迟。

图2-3 RAG 架构示例

03.

微调模型

虽然即时工程和 RAG 对于某些企业用例来说可能是一个不错的选择，但我们也回顾了它们的缺点。随着企业数据量和用例重要性的增加，微调大语言模型可提供更好的投资回报率。

图3-1 典型的微调工作流程

当您进行微调时，LLM 会将您的微调数据集知识吸收到模型本身中，从而更新其权重。因此，一旦 LLM 得到微调，您就不再需要在提示上下文中发送示例或其他信息。这种方法降低了成本，降低了隐私风险，避免了代币大小限制，并提供了更好的延迟。由于模型吸收了微调数据的整个上下文，因此响应的质量也更高，泛化程度更高。

如果您有大量指令（通常为数万条），微调可以提供很好的价值，但它可能会占用大量资源且耗时。除了微调之外，您还需要花时间以正确的格式编译微调数据集以进行调整。AWS Bedrock 等服务使 LLM 的微调变得容易。

04.

训练模型

如果您有特定领域的用例和大量以领域为中心的数据，那么从头开始训练大语言模型可以提供最高质量的大语言模型。

这种方法是迄今为止采用起来最困难和最昂贵的。下图来自 Microsoft Build 的 Andrej Karpathy，很好地解释了从头开始构建 LLM 的复杂性。

例如，BloombergGPT是第一个金融模型 LLM。它接受了 40 年金融语言数据的训练，总数据集包含 7000 亿个Token。

图4-1 LLM 培训工作流程示例

企业需要了解与从头开始训练大语言模型相关的成本，因为它们需要大量计算，这会很快增加成本。根据所需的训练量，计算成本可能从几十万到几百万美元不等。

例如，Meta 的第一个65B LLaMa 模型训练在 2048 个 NVidia A100-80GB 上花费了 1,022,362 小时（在云平台上约为 4 美元/小时），成本约为 400 万美元。不过，训练成本正在迅速下降，像Replit 的代码 LLM和 MosaicML 的基础模型只需要几十万。

随着 LLMOps 基础设施随着更先进的工具（如 Fiddler 的AI Observability平台和方法）的发展，我们将看到更多的企业采用 LLM 部署选项，以更经济的成本和更快的上市时间产生更高质量的 LLM。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述