大模型应用工程化过程

近年来，以人工智能为代表的新一代信息技术加速应用，特别是基于大模型、大数据、大算力的 ChatGPT 的发布，标志着人工智能技术取得里程碑式突破，推动科技创新进入新阶段。随着大模型技术的迅猛发展和场景价值的不断涌现，该技术或将重塑多个行业的工作方式和格局。

大模型应用工程化各环节

大模型相较于中小模型，具有更好的表示能力、泛化能力、学习能力和语义表达能力，但其参数量巨大、训练所需数据量和算力资源多、部署运营更为复杂，工程化落地涉及数据构建、模型算法、模型训练、模型压缩与加速、模型评测、模型运营和安全可信等多个复杂环节。

1）数据构建

训练大模型需要海量数据做支撑，高质量数据集的构建和处理对于大模型的性能表现至关重要。训练数据集一般需要涵盖多种类型、多种领域的数据来源，并配以相应的数据预处理过程。根据数据来源不同，大模型的训练数据主要可分为公开数据、商业数据和私有数据。大模型参数量需要跟训练数据集大小相匹配，简单堆砌参数量并不能无限度地提升其性能。通过提升训练数据集质量和内容丰富度、加入一些特定数据集、合理利用外挂知识库资源、合理配置各种类型数据配比等方式，可以有效提升大模型的整体性能，减少模型幻觉，并加快模型的收敛速度。

高质量的数据预处理是提升模型表现和安全可靠性的重要3 手段。比如自然语言处理训练数据的预处理手段一般包括：质量过滤：过滤重复数据、低质量数据、虚假内容、不合规内容等； 数据去重：重复数据可能会降低大模型的多样性，导致训练过程不稳定，从而影响模型性能，一般可在句子级、文档级和数据集级等不同颗粒度上进行数据去重处理；隐私脱敏：对于包含个人敏感信息的数据进行脱敏处理，如身份证号码、电话号码等，包括但不限于匿名化、泛化等手段；数据去毒：消除带有种族/性别偏见、社会文化偏见、宗教文化偏见的数据，以及低俗、粗鄙和带有攻击性的数据等；数据降维：其目标是在保留基本信息的同时减少数据集的复杂性，从而提高训练效率，一般可通过减少特征维度或样本大小来实现；数据增强：通过人工创建对现有数据的变更来增加数据量和多样性，特别是在数据量有限的情况下，通过数据增强可以提高模型的准确性、泛化能力和鲁棒性，也可以应对数据类别不平衡等问题。完成数据预处理后，可以将数据通过分词等手段，转换为适用于大模型训练的表达形式，形成高质量语料。此外，在模型推理过程中，也可以通过整合外部的领域知识库或专业数据库，为模型提供额外的背景知识和参考数据，尤其是快速且不断地更新信息，从而提高模型的准确性和鲁棒性。

2）模型算法

大模型技术的突破源于自然语言处理领域的 Transformer 架构。该架构使得模型参数量突破了 1 个亿，随后一系列大模型被推出。基于 Transformer 架构的模型可以分为编码器、解码器、编码到解码三大类，其主要特点和代表性模型如表 1 所示。

当前，基于 Transformer 解码器结构训练的大模型成为了自然语言处理领域的主流方案。在此影响下，语音、视觉以及跨模态等领域的大模型也尝试应用类似模型架构，并取得了较好效果，比如语音领域的 OpenAI whisper 和 DaLL-E 等，图像生成领域的 Stable Diffusion 开源模型等。

3）模型训练

大模型训练涉及预训练和微调等重要环节。预训练的主要目的是利用大量无标签的数据，训练出一个有能力捕捉到数据中隐藏的底层结构和模式的模型，这一阶段的模型通常被称为“基座模型”。由于大模型的参数量和训练数据量的急剧增长，单个计算设备的算力已经不足以支撑模型训练。当前，一般通过分布式训练来解决预训练过程中的海量计算任务和高内存资源等问题，但也面临着计算墙、内存墙和通信墙等挑战。目前解决分布式训练的关键技术是并行化，将任务分割并分配到多个处理器或设备上，以便同时完成计算，更有效地利用计算资源，减少训练所需时间。微调的主要目的是在预训练模型的基础上，通过有监督微调、强化学习等方式，进一步提升模型在下游任务中的表现，使得模型输出更符合人类期望。有监督微调，又称为指令微调，通过使用有标注的特定任务数据对预训练模型进行微调，从而使得模型具备遵循指令的能力。早期的微调算法会涉及到预训练模型的全量参数更新，计算成本较高，目前已提出了多种参数高效微调任务的方法以节约计算成本，如 LoRA、Adapter、P-tuning等。 强化学习技术是基于人类反馈，进一步调整模型的行为。其数据集一般由经过人工评估的反馈数据构建，这些数据反映了模型的输出与期望输出之间的差异，基于 Q-learning、深度Q网络或近端策略优化等强化学习算法进行训练。

大模型训练场景对中高端 AI 芯片需求旺盛，需要统筹规划 CPU芯片、GPU芯片、服务器、网络、存储、冷却、算力运营服务、AI应用服务平台等多个方面。在金融机构通用服务器集群基础上，构建基于异构芯片体系的 AI 算力资源池，实现对金融机构现有AI 算力资源的统一调度，保障大模型训练的算力支撑。

4）模型压缩与加速

模型压缩是指通过各种技术手段来减小机器学习模型的大小、复杂度和计算量，加速推理过程并减少内存使用，以便在资源受限的设备上部署和运行，如移动设备、边缘设备等。目前模型压缩技术主要包括知识蒸馏、剪枝和量化等解决方案。

知识蒸馏是一种训练小型模型以模仿大型模型行为的方法，保留了大型模型主要功能的同时降低了计算和存储需求，但通常需要一个预先训练好的大型模型，且性能上会有一定损失。

剪枝是一种去除模型中不重要或冗余参数的方法，一般可以在不显著影响模型性能的情况下减小模型的大小和计算需求，但需要确定哪些参数是不重要或冗余的，以选择合适的剪枝策略。

量化是一种减少模型参数和运算中数字精度以降低模型的存储需求和计算复杂度的技术，可适用于多种模型和任务，并显著减少存储和计算需求，但可能会造成一定程度的精度损失，且有时需要特定的硬件支持。

模型加速主要研究加速模型的训练和推理过程，伴随模型参数增长，正逐渐成为研究热点。

训练环节：针对计算量、通信、内存可以进行一系列优化，例如使用梯度累积或梯度压缩可以优化通信策略、使用半精度浮点数可以节省内存等。

推理环节：优化手段包括使用 GPU、TPU 和 ASIC等芯片的专用硬件加速器加速计算过程、使用并行化和分布式推理提高推理吞吐量并减少推理时间、使用缓存和预取策略降低内存访问延迟、在边缘设备上进行推理减少与服务器端的通信延迟、结合模型压缩技术加速推理过程等。现阶段AI 应用中，大量的算法、模型、开发框架、软件等开发都基于通用加速卡架构，在考虑硬件算力的基础上，要结合加速芯片软件栈及开发工具链等配套的软件生态能力。

5）模型评测

模型评测在机器学习和自然语言处理领域扮演着至关重要7 的角色。大模型具有更强大的泛化能力，可以处理多种任务，但大模型的输出可能存在不真实、不准确、不专业等问题，因此在大模型上线或升级时，有必要对其进行较为全面、充分的评测，帮助模型迭代优化。

大模型评测已成为行业发展热点问题，目前国内外相关评测层出不穷。据初步统计，目前行业内关于大模型基准测试或特定任务的测试数据集已多达 200 余项，主要推出机构可以大体分为学术界、产业界、媒体、社区以及智库等。其中一些代表性的评估基准包括 HELM、MMLU、C-EVAL、BigBench、HumanEval、AGIEVal、 SuperCLUE、OpenLLM 等。总体来看，大模型评测仍处于早期阶段，如何构建出全面、充分且能伴随大模型能力增长不断迭代的大模型评测基准，仍面临较大挑战。