LLM定制的四个层次

LLM(Large Language Models)代表了一种提高生产力的创新方法。他们能够简化各种任务，显著提高整体效率。从提示工程到Agents可以分为四个层次。

Level-1: Prompt engineering

Prompt是简明的输入文本，用作查询或指令，引导语言模型产生所需输出。简而言之，它是人类用户让 LLM 解决任务的最直接方式。

随着LLM的迅猛发展，有效制作Prompt已经成为一项关键技能，因为给模型的指示将极大影响系统的输出结果。优秀的提示工程需要创建清楚、准确的指示，以最大化获得准确、相关且连贯回答的可能性。

精心设计的Prompt是模型与当前任务之间理解的桥梁，确保生成的回应直接针对输入问题。此外，它们对于减少偏见和防止模型产生不适当或冒犯性内容至关重要，这对于维护道德和包容性的AI应用尤为重要。

相反，一个构造不佳的Prompt可能会模糊不清或含糊其辞，使模型难以理解预期的任务。它也可能过于具体，限制了模型产生多样或有创意的回答的能力。如果缺乏足够的上下文，Prompt可能导致无关或无意义的回答。

以下是一些提示工程技巧：

选择最新的模型型号(可能更加智能)。
将指令放在Prompt的开头。
对所需的上下文、结果、长度、格式、风格等进行具体、描述性和尽可能详细的说明。
提供所需输出格式的示例。
避免重复和模棱两可的措辞。
指导模型做什么与不做什么。

一些优秀的Prompt engineering资料：

https://learnprompting.org/docs/intro
https://www.promptingguide.ai/zh
https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor
https://github.com/f/awesome-chatgpt-prompts

Level-2: Hyperparameter tuning

LLMs是基于高度复杂的transformer架构，并通过数十亿的可训练参数和大量数据集来实现高效的思考、理解和输出生成。这些大型语言模型在训练期间的学习方式和预测结果的质量，主要受内部因素的影响。其中，模型参数的作用是识别数据中的模式，这些参数会被模型自动调整，以确保准确地表达所学习的模式。而超参数则是影响学习过程和成果的外部因素，它们是用户设定的一系列可调选项，可以用来指导、优化或固定模型在特定任务上的性能。

和传统的机器学习或深度学习模型相似，LLMs中也有许多超参数用于定制模型的运行方式。其中一些特别重要的超参数包括：temperature、context_window、max_number_of_tokens和stop_equence。这些参数对于调整模型的行为和输出效果具有关键性作用。

「temperature」范围从0到2，并作为控制模型输出中随机性水平的旋钮。更高的温度设置会产生更具创造性和想象力的反应，而更低的温度设置则会产生更精确和更符合事实的答案。例如，0的温度确保模型以更集中和更确定的方式一致地表现，而0.8的设置使模型更倾向于探索不太可能的选项，从而可能产生更具创造性的文本。

「context_window」这一超参数规定了模型在生成文本时会考虑多少个前置的tokens。设定更大的上下文窗口可以让LLM创造出更贴近上下文的回答，但这同时意味着在训练过程中会消耗更多的计算资源。这个参数实际上决定了模型在形成回答时会回顾多远的文本内容。虽然用户不能直接调整这个参数，但他们可以根据具体任务的需求选择使用具有较大或较小上下文窗口的模型。

「max_number_of_tokens」这一参数决定了模型输出的最大tokens数量。通过设定这个超参数可以控制模型回应的长度，避免生成过长或过短的文本，并确保回应的长度适合特定的使用场景。需要特别指出的是，最大tokens数通常包括模型生成的tokens以及输入提示中已有的tokens。这意味着，如果输入的提示较长或者需要较长的输出，这个参数就需要设置得相对较高。

LLMs还可以通过编程来避免产生特定的内容，比如不适当的言语或敏感信息。这种功能是通过超参数「stop_equence」实现的。这个参数与某个特定单词、一组单词或某个概念相关联，可以有效地避免模型在后续输出中生成这些内容。通过这种方式，LLMs能更好地控制其生成内容，以符合特定的使用标准和要求。

在对话式人工智能，如聊天机器人的流行应用中，LLMs通常通过扩大上下文窗口来配置，以保持对话的连贯性。此外，它们使用停止序列来过滤掉任何不当或不适宜的内容，并将温度参数设置得较低，以确保提供精确且紧扣主题的回答。这种配置方式使得聊天机器人在交流中既能保持相关性，又能避免不恰当的表达。

Level-3：Retrieval augmented generation

尽管提示工程和超参数调整直观且容易操作，但这些方法在针对特定领域的互动中存在许多局限性。一般性的LLMs通常缺乏为特定行业或领域提供服务所需的专业知识、专业术语、背景环境或最新信息。比如，法律专业人士在寻找可靠、最新和准确的行业信息时，可能会发现通用型LLM提供的互动并不充分。这表明，尽管LLMs在处理普遍性问题上表现出色，但在特定领域的应用中仍有提升空间。

检索增强生成(Retrieval-Augmented Generation，RAG)是一种AI框架，它通过针对特定应用场景对精选数据源进行微调和丰富，有望克服上述所提到的限制，并提升由LLMs生成的回应的质量。这意味着，对于那些想要创建定制客户服务聊天机器人的公司来说，他们不必非得从零开始招募一流的计算机工程师来构建一个全新的AI系统。相反，这些公司可以将模型与针对特定领域的文本数据无缝结合，从而使模型专门化，更好地服务于公司独有的客户需求。

RAG的过程包括三个步骤：

「检索」：基于输入查询从知识源检索相关信息。
「增强」：用检索到的信息扩充输入查询或提示，通过从检索到的源中提供额外的上下文来增强模型的理解。
「生成」：利用模型的生成能力，基于增强的输入生成更知情、更丰富的上下文响应。

在实践中，为了使LLM能够补充其内置的知识，向量存储(Vector stores)和Agents的概念开始发挥作用。

Vector stores

向量实质上是一系列数字的集合。但是真正让向量吸引人的是它们在一个称为**「嵌入」**(embedding)的连续高维空间中代表更复杂实体（如单词、短语、图像或音频文件）的能力。这些嵌入有效地描绘了单词的句法和语义含义或在多种数据类型中的共有特征。它们在多种应用中都非常有用，比如推荐系统、搜索算法。当我们获取了这些嵌入之后，就会面临一个问题：如何以及在哪里高效地存储和检索这些嵌入数据？

这就是向量存储（或者向量数据库）发挥作用的领域。

与按行和列组织的传统关系型数据库或具有文档集合的文档数据库不同，向量数据库根据数字集的相似性将其排列在一起。这种设计实现了超快的查询，使其成为人工智能应用程序的绝佳选择。这些数据库之所以越来越受欢迎，主要是因为它们能够增强和细化LLMs的功能，提供长期记忆能力，并能存储针对特定领域的知识库。

使用向量数据库首先是要加载数据源(图像、文本或音频等)，然后使用嵌入模型(比如OpenAI的Ada-002或Meta的LLaMA)来生成向量表示。随后，这些嵌入式数据被上传到向量数据库中，以便进行查询。当用户提出查询时，查询内容会被自动转换成嵌入式格式，并在数据库中存储的所有文档上进行相似性搜索。如此，与查询相关的文档就会从向量数据库中被检索出来，这些文档增强了模型依赖的上下文信息，使得模型能生成更加定制化的回答。目前流行的向量存储数据库包括Chroma和FAISS。

RAG的使用不仅有利于提高人工智能系统的性能，而且有利于降低出现幻觉、产生有毒内容或有偏见信息的风险。

与向量存储有内在联系的是Agents的概念，它代表了LLM定制的最深层次——以创建更智能、特定于上下文的人工智能对话系统。

一些优秀的RAG资料：

https://github.com/run-llama/llama_index
https://github.com/StanGirard/quivr
https://github.com/ray-project/llm-applications

Level-4: Agent

在高度定制的LLM环境中，被称为**「Conversational Retrieval Agents」**的系统对于构建能够利用特定领域资源进行个性化人机交互的对话式AI系统发挥着关键作用。这里所说的“Agents”，指的是一个系统，其操作步骤或逻辑推理并非预先设定好的，而是由语言模型根据情境动态决定，从而使系统更加灵活和适应性强。

Agents不仅依靠通用LLM的对话功能，还配备了一系列专门的工具（通常包括一个或多个向量存储器）。它们可以根据用户的指令和一些特定的设置参数来判断是否使用这些工具，以及如何使用这些工具来提供最合适的回答。更进一步，Agents还能够按照特定的方式执行特定的功能或角色。例如，代理可以被设置成以文艺复兴时期诗人或足球评论员的风格来撰写政治文章。

例如，在医疗领域，Agents能够帮助医生更有效地治疗患者，方法是利用用于诊断、提供治疗建议或根据用户的具体问题解读症状的工具。通过融合医学文献的向量存储器，Agents被赋予了像医疗助理一样有用的特定领域信息和明确的职能。这意味着Agents不仅可以访问其培训时使用的通用知识库，还可以根据需要调用丰富的专业信息数据库，以帮助医生找到最佳的治疗方案。

Agents的集成不仅使LLM具有通用性，而且增强了它们提供特定领域的定制输出的能力。这种专门化确保所提供的响应不仅准确，而且与用户的查询高度相关。

一些优秀的AI-Agents资料：

https://github.com/Jenqyang/Awesome-AI-Agents
https://lilianweng.github.io/posts/2023-06-23-agent/

通过提示工程，我们可以简单地通过几条指令来激发这些模型的潜力。调整超参数让我们能够细致调校模型的回应，实现更精确的控制。采用检索增强生成的方法，我们让LLM能够获取特定领域的知识，这极大地提升了它们在专业任务中的效果。整合向量数据库和Agents则将定制化提升到一个新的高度，打造出能提供定制、精确、高度相关回答的特定情境AI系统。

这四个步骤不仅提升了LLM的能力，还使得AI驱动的交互更加个性化、高效和适应性强。

看到这里就关注我吧~