构建基于LLM的应用程序——为您的应用程序选择合适的LLM

。

在本章中，将引导您完成为应用程序选择合适LLM的过程。我们将涵盖以下几个主题：

市场上最具前景的LLM概览
比较LLM时应使用的主要标准和工具
规模与性能之间的权衡

在本章结束时，您应该能够清楚地理解如何为您的应用程序选择合适的LLM，并如何有效且负责任地使用它。

市场上最具前景的LLM

过去一年见证了LLM研究和开发的前所未有的激增。不同的组织发布或宣布了多个新模型，每个模型都有其独特的功能和能力。其中一些模型是有史以来规模最大、最先进的模型，超越了先前的最先进水平（SOTA），而且是数量级的提升。其他模型虽然较轻，但在特定任务上更为专门化。

在本章中，我们将回顾截至2024年市场上最具前景的一些LLM。我们将介绍它们的背景、关键发现和主要技术。我们还将比较它们在各种基准测试和任务中的表现、优势和局限性。此外，我们还将讨论它们的潜在应用、挑战以及对AI和社会未来的影响。
针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

专有模型

专有LLM由私人公司开发和拥有，且其代码未公开。通常使用这些模型需要支付费用。

专有模型提供了一系列优势，包括更好的支持和维护，以及安全性和一致性。由于其复杂性和训练数据集的原因，它们在泛化能力方面往往优于开源模型。另一方面，它们作为一个“黑盒”运行，意味着所有者不会向开发者披露源代码。

在接下来的部分中，我们将介绍截至2023年8月市场上三款最受欢迎的专有LLM。

GPT-4

GPT-4于2023年3月发布，与其新发布的“姊妹”模型GPT-4 Turbo一起，是OpenAI开发的最新模型之一，是本书撰写时市场上的顶尖模型之一（同时，OpenAI的CEO Sam Altman已经确认他们正在开发GPT-5）。

它属于生成预训练转换器（GPT）模型类别，这是一种由OpenAI引入的仅解码器的转换器架构。下图显示了其基本架构：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如上图所示，仅解码器架构仍然包含我们在第一章中讨论的变压器架构中的主要元素，包括位置嵌入、多头注意力和前馈层。然而，在这种架构中，模型仅由解码器组成，训练的目的是基于前面的标记来预测序列中的下一个标记。与编码器-解码器架构不同，仅解码器设计缺少一个用于总结输入信息的显式编码器。相反，信息隐含地编码在解码器的隐藏状态中，并在生成过程中每一步进行更新。

现在，我们来看一下GPT-4相较于之前版本的一些改进。

与GPT系列的前几代模型一样，GPT-4在公开可用的数据集和OpenAI许可的数据集上进行了训练（OpenAI未公开训练集的确切组成）。此外，为了使模型更符合用户的意图，训练过程还包括了从人类反馈中进行的强化学习（RLHF）训练。

定义
RLHF（基于人类反馈的强化学习）是一种旨在利用人类反馈作为评估LLM生成输出的标准，然后使用该反馈进一步优化模型的技术。实现这一目标的主要步骤有两个：

基于人类偏好训练一个奖励模型。
根据奖励模型优化LLM。这个步骤通过强化学习来完成，这是一种机器学习范式，在这种范式中，智能体通过与环境互动来学习决策。智能体根据其行为接收到奖励或惩罚形式的反馈，其目标是通过不断适应行为，以试错的方式最大化长期累积的奖励。

通过RLHF，借助奖励模型，LLM能够从人类偏好中学习，并更好地与用户的意图保持一致。

以ChatGPT为例。该模型集成了多种训练方法，包括无监督预训练、监督微调、指令调优和RLHF。RLHF组件涉及通过使用来自人类训练师的反馈训练模型来预测人类偏好。这些训练师会审查模型的响应并提供评分或修正，引导模型生成更有帮助、更准确、更符合用户意图的响应。

例如，如果一个语言模型最初生成的输出不够有帮助或不够准确，人类训练师可以提供反馈，指出首选的输出。然后，模型利用这一反馈调整其参数，以改善未来的响应。这个过程不断迭代，模型从一系列人类判断中学习，以更好地符合人类标准下的有用性或适当性。

GPT-4 展示了在常识推理和分析能力方面的卓越表现。它已经与最先进的系统进行了基准测试，包括我们在第一章中讨论过的大规模多任务语言理解（MMLU）。在MMLU测试中，GPT-4不仅在英语方面优于之前的模型，还在其他语言中表现出色。

以下是展示GPT-4在MMLU上表现的插图：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

除了MMLU之外，GPT-4还在多种最先进的系统和学术考试中进行了基准测试，您可以从下图中看到其表现：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意：在上图中，您可以看到两个版本的GPT-4，一个具有视觉能力，一个没有视觉能力（同时还有用于基准测试的GPT-3.5）。这是因为GPT-4是一个多模态模型，意味着它除了文本之外，还可以将图像作为输入。然而，在本章中，我们只会对其文本能力进行基准测试。

GPT-4 相较于其前身（GPT-3.5 和 GPT-3）的另一个重大改进是显著减少了幻觉风险。

定义
幻觉是一个用来描述现象的术语，当LLM生成的文本不正确、无意义或不真实，但看起来却似乎合理或连贯时，就会发生这种现象。例如，一个LLM可能会虚构一个与来源或常识相矛盾的事实，一个不存在的名字，或者一个没有意义的句子。

幻觉的产生是因为LLM并非数据库或搜索引擎，它们并不存储或检索事实信息。相反，它们是基于统计模型，从海量文本数据中学习，并根据所学的模式和概率生成输出。然而，这些模式和概率可能并不反映真实情况或现实，因为数据可能是不完整的、噪声的或存在偏见的。此外，LLM的上下文理解和记忆能力有限，因为它们一次只能处理一定数量的标记，并将其抽象成潜在的表示。因此，LLM可能会生成没有任何数据或逻辑支持的文本，但这些文本在提示下可能是最有可能或最相关的。

事实上，尽管它仍然无法做到100%的可靠，但GPT-4在TruthfulQA基准测试中取得了显著的改进，该测试评估模型区分事实和错误陈述的能力（我们在第一章的模型评估部分中讨论过TruthfulQA基准测试）。在这里，您可以看到一个插图，比较了GPT-4在TruthfulQA基准测试中的结果与GPT-3.5（OpenAI的ChatGPT背后的模型）和Anthropic-LM的结果（我们将在后面的章节中讨论该模型）。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后，在GPT-4的开发中，OpenAI 进行了额外的努力，使其更加安全和符合规范，从一开始就组建了一个由50多名专家组成的团队，这些专家来自AI对齐风险、隐私和网络安全等领域，旨在理解这种强大模型的风险程度并找到预防措施。

定义
对齐是一个描述LLM行为与其人类用户需求的有用性和无害性程度的术语。例如，如果一个LLM生成的文本准确、相关、连贯且尊重他人，它就可以被认为是对齐的。如果一个LLM生成的文本是错误的、具有误导性、有害的或冒犯性的，它就可能是未对齐的。

得益于这一分析，更多的数据被收集并用于训练GPT-4，以减轻其潜在风险，从而使其风险相比前代模型GPT-3.5有所降低。

Gemini 1.5

Gemini 1.5 是由谷歌开发的最先进的生成式AI模型，于2023年12月发布。与GPT-4一样，Gemini设计为多模态模型，这意味着它可以处理和生成跨多种模态的内容，包括文本、图像、音频、视频和代码。它基于专家混合（MoE）变压器架构。

定义
在变压器架构的上下文中，MoE（专家混合）指的是一种在其层内包含多个专门子模型的模型，这些子模型被称为“专家”。每个专家都是一个神经网络，旨在更高效地处理不同类型的数据或任务。MoE模型使用一种门控机制或路由器来确定哪个专家应处理给定的输入，从而使模型能够动态分配资源，并专注于处理某些类型的信息。这种方法可以实现更高效的训练和推理，因为它使模型在规模和复杂性上进行扩展，而不会导致计算成本的同比增加。

Gemini 有多种规格，包括 Ultra、Pro 和 Nano，以满足从数据中心到移动设备的不同计算需求。开发者可以通过为不同模型版本提供的API来访问Gemini，从而将其能力集成到应用程序中。

与其前一版本 Gemini 1.0 相比，当前版本在文本、视觉和音频任务方面表现更优异，正如以下截图所示：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

同样，它在数学、科学、推理、编码以及多语言领域也展现了卓越的能力：

v 在这里插入图片描述

请注意，Gemini 1.5 Pro 在多个领域的许多基准测试中表现优于更大规模的 Gemini 1.0 Ultra。截至目前，Gemini Pro 可以通过网页应用在 gemini.google.com 免费试用，而 Gemini Ultra 则通过每月订阅费用的高级服务提供。此外，专为移动设备定制的 Gemini Nano 可以通过 Google AI Edge SDK for Android 在兼容的安卓设备上运行。请注意，截至2024年4月，该SDK仍处于早期访问预览阶段，您可以通过此表单申请参与早期访问计划。最后，开发者还可以通过 Google AI Studio 提供的 REST API 访问 Gemini Pro 和 Ultra。

Claude 2

Claude 2，即通过用户数据和专业知识实现宪法级大规模对齐，是由 Anthropic 开发的一款LLM。这是一家由前 OpenAI 研究人员创立并专注于 AI 安全与对齐的研究公司，Claude 2 于2023年7月发布。

Claude 2 是基于变压器架构的LLM，通过无监督学习、RLHF 和宪法级 AI（CAI）对互联网上的公开信息和专有数据进行训练。

CAI 是 Claude 的一个真正独特之处。事实上，Anthropic 对 Claude 2 与安全原则的对齐给予了极大的关注。更具体地说，Anthropic 开发了这种称为 CAI 的独特技术，并在2022年12月的一篇论文《宪法级 AI：来自 AI 反馈的无害性》中披露了这一技术。

CAI 旨在通过防止有害或歧视性输出、不帮助人类从事非法或不道德活动，并广泛创建一个有用、诚实且无害的AI系统，使模型更加安全并与人类的价值观和意图保持一致。为此，它使用了一组原则来指导模型的行为和输出，而不仅仅依赖于人类反馈或数据。这些原则源自多种来源，如《联合国人权宣言》、信任和安全最佳实践、其他AI研究实验室提出的原则、非西方视角以及实证研究。

CAI 在训练过程中分两个阶段使用这些原则：

首先，模型使用这些原则和一些示例对其自身的响应进行批评和修正。
其次，模型通过强化学习进行训练，但不是使用人类反馈，而是使用基于这些原则生成的AI反馈来选择更无害的输出。

下图展示了根据 CAI 技术的训练过程：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Claude 2 的另一个特点是其上下文长度限制为100,000个标记。这意味着用户可以输入更长的提示，例如技术文档的页面甚至一本书，而不需要将其嵌入。此外，与其他LLM相比，该模型还可以生成更长的输出。

最后，Claude 2 在处理代码时也展现了出色的能力，在HumanEval基准测试中得分为71.2%。

定义
HumanEval 是用于评估LLM代码生成能力的基准测试。它包含164个由人类精心设计的Python编程问题，每个问题都包括一个提示、一种解决方案和一个测试套件。这些问题涵盖了各种主题，例如数据结构、算法、逻辑、数学和字符串操作。该基准测试可以用来衡量LLM输出的功能正确性、语法有效性和语义连贯性。

总体而言，Claude 2 是一个非常有趣的模型，也是GPT-4的强劲竞争对手，值得关注。它可以通过REST API使用，或者直接通过Anthropic的测试版聊天体验（截至2023年8月，仅限于美国和英国用户）。

以下比较表展示了这三种模型之间的主要差异：

模型	GPT-4	Gemini	Claude 2
公司或机构	OpenAI	Google	Anthropic
首次发布	2023年3月	2023年12月	2023年7月
架构	基于变压器，仅解码器	基于变压器	基于变压器
尺寸和变体	参数未正式公布	两个上下文长度变体：GPT-4 8K 标记、GPT-4 32K 标记	三种尺寸，从小到大分别为：Nano、Pro 和 Ultra
使用方式	通过 OpenAI 开发者平台的 REST API	通过 platform.openai.com/playground 使用 OpenAI Playground	通过 Google AI Studio 的 REST API

表3.1：GPT-4、PaLM 2 和 Claude 2 的比较表

除了专有模型之外，现今市场上还有大量的开源LLM。在接下来的部分中，我们将讨论其中的一些。

开源模型

开源模型的优势在于，按照定义，开发者可以完全看到并访问源代码。在LLM的上下文中，这意味着以下几点：

您对架构有较大的控制权，这意味着您可以在项目中使用的本地版本中进行修改。这也意味着它们不会受到模型所有者对源代码进行的潜在更新的影响。
您可以从头开始训练模型，除了经典的微调外，这一点在专有模型中也是可行的。
免费使用，这意味着您在使用这些LLM时不会产生费用，而专有模型通常采用按使用量收费的定价方式。

为了比较开源模型，在本书中我们将参考独立的Hugging Face Open LLM Leaderboard（您可以在此处找到），这是一个旨在评估和比较LLM在各种自然语言理解（NLU）任务上表现的项目。该项目托管在Hugging Face Spaces上，这是一个创建和共享机器学习应用程序的平台。

Open LLM Leaderboard 使用了四个主要的评估基准，我们在第一章的“模型评估”部分中讨论过：

AI2推理挑战（ARC） ：小学科学问题和复杂的NLU任务。
HellaSwag：常识推理。
MMLU：涵盖数学、计算机科学和法律等多个领域的任务。
TruthfulQA：评估模型在生成答案时的真实性。

尽管这些仅仅是LLM基准测试中的一小部分，但我们将使用这个排行榜作为参考评估框架，因为它已被广泛采用。

LLaMA-2

大型语言模型Meta AI 2（LLaMA-2）是由Meta开发的一系列新模型，于2023年7月18日向公众开放，并且开源和免费（其第一个版本最初仅限于研究人员使用）。
它是一个自回归模型，采用了优化的仅解码器的变压器架构。

定义
在变压器的上下文中，自回归的概念指的是模型在预测序列中的下一个标记时，是基于所有之前的标记进行的。这是通过在输入中屏蔽未来的标记来实现的，以使模型只能关注过去的标记。例如，如果输入序列是“The sky is blue”，模型首先会预测“The”，然后是“sky”，接着是“is”，最后是“blue”，并在每次预测后使用屏蔽来隐藏随后的标记。

LLaMA-2 模型有三种规模：70亿、130亿和700亿参数。所有版本均在2万亿个标记上进行了训练，并具有4,092个标记的上下文长度。

此外，所有模型规模都配有一个“聊天”版本，称为 LLaMA-2-chat，与基础模型 LLaMA-2 相比，这个版本在通用对话场景中更加多功能。

注意
在LLM的上下文中，基础模型和“聊天”或助手模型之间的区别主要体现在它们的训练过程和预期用途上：

基础模型：这些模型在大量文本数据（通常来源于互联网）上进行训练，主要功能是在给定上下文中预测下一个词，这使得它们在理解和生成语言方面表现出色。然而，它们可能并不总是精确或专注于特定指令。
助手模型：这些模型最初是基础LLM，但经过进一步微调，使用包含指令的输入输出对以及模型尝试遵循这些指令的过程进行训练。它们通常使用RLHF（基于人类反馈的强化学习）来优化模型，使其在帮助性、诚实性和无害性方面表现得更好。因此，这些模型不太可能生成有问题的文本，更适合于实际应用，如聊天机器人和内容生成。例如，助手模型GPT-3.5 Turbo（ChatGPT背后的模型）是完成模型GPT-3的微调版本。

总而言之，虽然基础模型提供了对语言的广泛理解，但助手模型则优化为能够更好地遵循指令，并提供更准确且与上下文相关的响应。

LLaMA-2-chat 的开发过程中采用了两个主要步骤的微调过程：

监督微调：这一步涉及在公开可用的指令数据集和超过100万个人工注释上对模型进行微调，以使其在对话场景中更加有用和安全。微调过程中使用了一系列精心选择的提示来引导模型的输出，并使用了鼓励多样性和相关性的损失函数（这就是为什么称之为“监督”的原因）。
基于人类反馈的强化学习（RLHF） ：正如我们在介绍GPT-4时所见，RLHF是一种利用人类反馈作为评估LLM生成输出的标准，然后使用该反馈进一步优化模型的技术。

以下是LLaMA训练过程的示意图：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

要访问该模型，您需要在Meta的网站上提交请求。一旦提交请求，您将收到一封包含GitHub仓库的电子邮件，在那里您可以下载以下资源：

模型代码
模型权重
README（用户指南）
负责任使用指南
许可证
可接受使用政策
模型卡

Falcon LLM

Falcon LLM 是一种LLM的新趋势的代表，旨在构建较轻的模型（具有更少的参数），而更注重训练数据集的质量。确实，像GPT-4这样拥有数万亿参数的复杂模型在训练阶段和推理阶段都极为沉重。这意味着需要高昂的计算能力（依赖GPU和TPU）以及较长的训练时间。

Falcon LLM 是阿布扎比技术创新研究所（TII）于2023年5月推出的开源模型。它是一个自回归、仅解码器的变压器模型，在1万亿个标记上进行了训练，拥有400亿参数（尽管它也有一个更轻量的版本，只有70亿参数）。与我们在LLaMA中看到的类似，Falcon LLM 也有一个微调变体，称为“Instruct”，专门用于更好地遵循用户指令。

定义
Instruct模型专门用于执行短形式的指令任务。指令任务是指模型需要执行自然语言命令或查询，例如“写一首关于猫的俳句”或“告诉我巴黎的天气”。Instruct微调模型是在大量指令及其对应输出的数据集上进行训练的，例如斯坦福的Alpaca数据集。

根据Open LLM排行榜，自推出以来，Falcon LLM一直位居全球前列，仅次于某些版本的LLaMA。那么问题可能是：一个只有“仅仅”400亿参数的模型为何表现如此出色？事实上，答案在于数据集的质量。Falcon是使用专门的工具开发的，包含一个独特的数据管道，能够从网络数据中提取有价值的内容。该管道旨在通过广泛的过滤和去重技术提取高质量的内容。最终生成的数据集名为RefinedWeb，由TII根据Apache-2.0许可证发布，可在此处找到。

通过将优质数据与这些优化相结合，Falcon在分别使用GPT-3和PaLM-62B约75%和80%的训练计算预算的情况下，取得了卓越的性能。

Mistral

我们将要讨论的第三个也是最后一个开源模型系列是Mistral，由Mistral AI公司开发。该公司由一支AI科学家团队于2023年4月创立，团队成员此前曾在Meta Platforms和Google DeepMind工作。该公司总部位于法国，通过筹集大量资金并发布开源LLM，迅速赢得了声誉，强调了AI开发中透明度和可访问性的重要性。

Mistral模型，特别是Mistral-7B-v0.1，是一个仅解码器的变压器模型，拥有73亿参数，专为生成式文本任务设计。它因其创新的架构选择（如分组查询注意力（GQA）和滑动窗口注意力（SWA））而闻名，这些选择使其在基准测试中表现优于其他模型。

定义
GQA（分组查询注意力）和SWA（滑动窗口注意力）是旨在提高LLM效率和性能的机制。

GQA 是一种技术，它通过将注意力机制的查询头分组来实现比标准全注意力机制更快的推理时间。每个组共享一个键头和一个值头，从而减少了计算的复杂性。
SWA 用于高效处理较长的文本序列。它扩展了模型的注意力范围，超越了固定窗口大小，使每一层都可以引用前一层的多个位置。这意味着在一个层中的某个位置的隐藏状态可以关注前一层中特定范围内的隐藏状态，从而使模型能够访问更远距离的标记，并以较低的推理成本处理不同长度的序列。

该模型还提供了一个为通用功能而微调的变体，称为Mistral-7B-instruct。在MT-Bench（一个使用LLM作为评估者的评估框架）上，这个变体超越了市场上所有其他70亿参数的LLM（截至2024年4月）。
与许多其他开源模型一样，Mistral可以通过Hugging Face Hub获取和下载。

注意
2024年2月，Mistral AI 与微软达成了一项为期多年的合作伙伴关系，旨在加速人工智能创新。此次合作将利用微软的Azure AI超级计算基础设施来支持Mistral AI的LLM的开发和部署。Mistral AI的模型，包括他们的高级模型Mistral Large，将通过Azure AI Studio和Azure Machine Learning模型目录提供给客户。该合作伙伴关系旨在扩展Mistral AI在全球市场的影响力，并促进持续的研究合作。

以下比较表列出了这三种模型之间的主要区别：

模型	LlaMA	Falcon LLM	Mistral
公司或机构	Meta	技术创新研究所（TII）	Mistral AI
首次发布	2023年7月	2023年5月	2023年9月
架构	自回归变压器，仅解码器	自回归变压器，仅解码器	变压器，仅解码器
尺寸和变体	三种尺寸：7B、13B 和 70B，以及微调版本（chat）	两种尺寸：7B 和 40B，以及微调版本（instruct）	7B 尺寸，以及微调版本（instruct）
许可证	自定义商业许可证，详见：ai.meta.com/resources/m…	商业 Apache 2.0 许可证	商业 Apache 2.0 许可证
使用方式	提交请求表单至：ai.meta.com/resources/m… 并下载GitHub仓库	可通过Hugging Face Hub 下载或使用推理API/端点	可通过Hugging Face Hub 下载或使用推理API/端点，也可通过Azure AI Studio 使用

超越语言模型

到目前为止，我们只讨论了特定于语言的基础模型，因为它们是本书的重点。然而，在AI驱动的应用程序中，值得一提的是，还有其他可以处理不同于文本的数据的基础模型，这些模型也可以进行嵌入和编排。

以下是当前市场上一些大型基础模型（LFM）的示例：

Whisper：这是由OpenAI开发的一种通用语音识别模型，可以将多种语言的语音转录和翻译为文本。它在一个包含多样化音频的大型数据集上进行了训练，并且是一个多任务模型，能够执行多语言语音识别、语音翻译、口语语言识别和语音活动检测。
Midjourney：由同名独立研究实验室开发，Midjourney基于序列到序列的变压器模型，该模型接受文本提示并输出与提示相匹配的四幅图像。Midjourney被设计为艺术家和创意专业人士的工具，可用于快速原型设计、灵感激发或实验。
DALL-E：与前者类似，DALL-E由OpenAI开发，使用经过训练的GPT-3的120亿参数版本，根据自然语言描述生成图像，训练数据集包含文本-图像对。

我们的理念是，可以在应用程序中组合和编排多个LFM，以实现非凡的效果。例如，假设我们想撰写一篇关于与一位年轻厨师采访的评论，并将其发布在Instagram上。涉及的模型可能如下：

Whisper 将采访音频转换为文本。
一个带有网络插件的LLM（如Falcon-7B-instruct）将从互联网上搜索该年轻厨师的名字，并获取其传记。
另一个LLM（如LlaMA）将处理文本并生成具有Instagram风格的评论。我们还可以要求同一模型生成一个提示，该提示将指导下一个模型根据内容生成图片。
DALL-E 将根据LLM生成的提示生成图像。
然后，我们为我们的LFM流程提供一个Instagram插件，以便应用程序能够将包括插图在内的完整评论发布到我们的个人资料中。

最后，有一些新兴的LFM旨在实现多模态，这意味着它们可以使用一种架构处理多种数据格式。例如，GPT-4本身就是一个多模态模型。

以下截图展示了OpenAI在早期实验中使用GPT-4视觉功能的一个示例，展示了它对图像中有趣方面的理解：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以下截图展示了GPT-4早期版本的另一个示例，展示了它如何理解并详细解释图表：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以下示例展示了GPT-4早期版本如何理解并解决复杂的数学问题，同时提供相应的解答理由：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GPT-4 是一个大型多模态模型（LMM）的示例，它代表了我们可能在未来几年内见证的趋势。

选择合适LLM的决策框架

在前面的段落中，我们讨论了一些当前市场上最具前景的LLM。现在的问题是：我应该在我的应用程序中使用哪一个？实际上，这个问题并没有一个简单的答案。

考虑因素

在为您的应用程序选择LLM时，有许多因素需要考虑。这些因素需要在两个场景中加以权衡：专有LLM和开源LLM。以下是选择LLM时可能需要考虑的一些因素和权衡：

规模和性能：我们看到，更复杂的模型（即具有大量参数的模型）往往表现更好，尤其是在参数化知识和泛化能力方面。然而，模型越大，处理输入和生成输出所需的计算和内存就越多，这可能导致更高的延迟，以及更高的成本。
成本和托管策略：在我们的应用程序中集成LLM时，有两种类型的成本需要考虑：
- 模型使用成本：这指的是使用模型所需支付的费用。专有模型（如GPT-4或Claude 2）通常需要支付费用，费用通常与处理的标记数量成正比。另一方面，开源模型（如LlaMA或Falcon LLM）可以免费使用。
- 模型托管成本：这指的是您的托管策略。通常，专有模型托管在私有或公有的超级计算平台上，您可以通过REST API消费它们，而不必担心底层基础设施（例如，GPT-4托管在微软Azure云上的超级计算机中）。对于开源模型，我们通常需要提供自己的基础设施，因为这些模型可以本地下载。当然，模型越大，所需的计算能力就越强。

注意
在使用开源模型时，另一个选择是使用Hugging Face的推理API。免费版本允许您在共享的基础设施上以有限的速率测试和评估所有可用的LLM。对于生产用例，Hugging Face还提供推理端点，使您可以轻松地在专用和完全托管的基础设施上部署您的LLM，并可配置区域、计算能力和安全级别等参数，以满足延迟、吞吐量和合规性方面的约束条件。推理端点的定价可在此处查阅。

定制化：在决定采用哪种模型之前，这可能是您需要评估的要求。事实上，并非所有模型在定制化方面都具有相同的灵活性。当我们谈论定制化时，指的是两种活动：
- 微调：这是稍微调整LLM参数以更好地适应特定领域的过程。所有开源模型都可以进行微调。对于专有模型，并非所有LLM都可以微调：例如，OpenAI的GPT-3.5可以进行微调，而GPT-4-0613的微调过程仍处于实验阶段，截至2023年12月，需要向OpenAI提交请求方可访问。因此，重要的是要了解您的应用程序是否需要微调，并相应地做出决定。
- 从头训练：如果您希望LLM在特定领域知识方面非常专业，您可能希望从头开始重新训练模型。要从头开始训练LLM，而无需重新设计架构，您可以下载开源LLM并在自定义数据集上重新训练它们。当然，这意味着我们需要访问源代码，而在使用专有LLM时这是不可能的。
特定领域的能力：我们看到，评估LLM性能的最流行方式是跨领域平均不同的基准。然而，也有一些基准测试专注于特定的能力：如果MMLU衡量的是LLM的广泛文化和常识推理能力，TruthfulQA则更关注LLM的对齐性，而HumanEval则专门针对LLM的编码能力。因此，如果您有一个特定的用例，您可能希望选择在某个特定基准测试中表现优异的模型，而不是在所有基准测试中平均表现优异的模型。也就是说，如果您需要出色的编码能力，您可能会选择Claude 2；如果您关注分析推理，PaLM 2可能是您的最佳选择。另一方面，如果您需要一个涵盖所有这些能力的模型，GPT-4可能是您的正确选择。

选择特定领域的模型也是降低模型复杂性的一种方式。如果您只需要在特定用例中使用模型，使用一个相对较小的模型（例如LlaMA-7B-instruct）可能就足够了，这也带来了成本和性能方面的优势。

注意
如果您正在寻找极其特定的LLM，有许多模型是基于特定领域的技术文档进行训练的。例如，2023年初，斯坦福基础模型研究中心（CRFM）和MosaicML发布了BioMedLM，这是一种基于解码器的变压器模型，拥有27亿参数，专门针对生物医学摘要和论文进行训练。另一个例子是BloombergGPT，这是一个专门针对金融领域的LLM，拥有500亿参数，由Bloomberg开发，并基于Bloomberg的庞大数据源上的3630亿标记数据集进行训练，或许是迄今为止最大的特定领域数据集，并补充了3450亿个来自通用数据集的标记。

为了使这个决策框架更具实用性，让我们考虑以下关于TechGen公司的虚拟案例研究。

案例研究

TechGen Solutions是一家领先的AI驱动分析服务提供商，他们需要在两个高级语言模型之间做出选择，以用于下一代客户交互系统：GPT-4和LLaMa-2。他们需要一个强大的语言模型来处理各种客户查询、提供准确的技术信息，并与其专有软件集成。以下是他们的选项：

GPT-4：由OpenAI开发，GPT-4以其庞大的参数数量以及处理文本和图像输入的能力而闻名。
LLaMa-2：由Meta AI开发，LLaMa-2是一个开源模型，以其可访问性和在较小数据集上的性能表现受到赞誉。

在做出决策时，他们考虑了以下因素：

性能：TechGen评估了模型的性能，尤其是在生成技术内容和代码方面，GPT-4表现出更高的准确性。
集成：与TechGen系统的集成难易程度至关重要，由于GPT-4被广泛采用，可能提供更无缝的兼容性。
成本：虽然LLaMa-2在某些条件下可免费用于商业用途，但GPT-4是收费的，这需要TechGen在决策时考虑到这一因素。
未来保障：TechGen考虑了每个模型的长期可行性，包括更新和改进的潜力。

基于这些考虑，TechGen选择了GPT-4，其在生成复杂技术响应和多语言能力方面的优越性能与他们的国际扩展计划一致。决策也受到GPT-4图像处理功能的影响，TechGen预计随着他们在客户服务中引入更多的多媒体内容，这一功能将变得越来越重要。

TechGen选择GPT-4而非LLaMa-2，主要是因为他们需要一个高性能、多功能的语言模型，以满足其不断增长的全球业务和多样化的客户需求。虽然LLaMa-2的开源特性和成本效益很有吸引力，但GPT-4的先进功能和未来保障特性为TechGen的雄心勃勃的目标提供了更有说服力的理由。

需要注意的是，这些决策因素并不是决定在应用程序中嵌入哪个模型的详尽指南。然而，在设置应用程序流程时，这些都是有用的反思元素，帮助您确定需求，并筛选出更适合您目标的LLM。

总结

本章介绍了市场上一些最具前景的LLM。首先区分了专有模型和开源模型，并探讨了它们各自的优缺点。随后深入探讨了GPT-4、PaLM-2、Claude 2、LLaMa-2、Falcon LLM和MPT的架构和技术特性，并增加了一节介绍一些LMMs。最后，提供了一个简单的框架，帮助开发者在构建AI驱动的应用程序时决定选择哪种LLM。鉴于您所在行业的具体情况，这对于从应用程序中获得最大影响至关重要。

从下一章开始，我们将着手在应用程序中实际操作LLM。