企业本地部署大型语言模型（LLMs）构建本地垂直领域知识库的策略|空天防御

0 引言

在数字化转型的浪潮中，传统企业面临着前所未有的机遇与挑战。随着大数据、云计算和人工智能技术的发展，企业积累的私有数据成为了潜在的金矿，等待着被挖掘和利用。大型语言模型（LLMs）作为当前人工智能领域的前沿技术，能够帮助企业从海量数据中提取有价值的信息，优化决策流程，提升服务质量。

然而，如何在企业本地环境中充分利用私有数据发挥大模型的能力，是许多企业亟需解决的问题。大型语言模型（LLMs）在专有领域依然存在知识幻觉、答非所问等问题，距离行业应用落地依然面临不小挑战。企业内部具有丰富的领域场景，高质量、大规模的领域数据，而在互联网场景下，企业面临极大的数据安全与隐私挑战。如何利用企业内部数据发挥大模型能力，在利用大模型能力的过程中保证数据安全，避免任何的数据隐私泄露以及安全风险，成为一个当前研究的热点议题。

本文将简要介绍企业如何通过一系列策略和步骤，在本地部署和利用大模型，构建企业本地垂直领域知识库。

1 明确业务需求

在本地部署私有大型语言模型（LLMs）之前，企业首先需要明确其业务需求和目标。通过业务流程分析、痛点识别、资源评估、技术选型以及预期成果等步骤，识别哪些业务流程可以通过大型语言模型（LLMs）技术得到改进，例如代码生成、内容创作、数据分析和信息检索等。

2 数据收集与整理

数据是大型语言模型（LLMs）学习的基础，企业私有数据的质量和数量直接影响模型训练的效果。企业在长期运营过程中，积累了大量的私有数据。首先，企业需要确定哪些业务环节和操作中会产生有用的数据。常见的数据来源包括人力资源信息，财务信息、体系文件和试验数据等等。

企业需要对私有数据进行预处理和清洗，确保数据质量。这包括去除无关信息、纠正错误、标准化格式等，大型语言模型（LLMs）能够更好地理解和处理数据。

同时，企业需要投入资源，建立专业的数据科学团队，或者与专业的数据服务公司合作，以确保数据整理工作的专业性和效率。

3 模型选择和训练

企业在选择模型时需要考虑到模型的复杂性、性能和适用性。对于私有大模型的部署，可以选择从头开始训练一个模型，或者在现有开源模型的基础上利用企业私有数据进行微调，或者采用检索增强生成技术（RAG）。

关于训练大模型的具体成本，目前似乎尚无明确答案。大模型训练需要多少算力？OpenAI在GPT-4的训练中，动用了大约25000个A100 GPU，历时近100天，并采用分布式计算以加速模型的训练过程，从而使GPT-4表现出卓越性能。而一张英伟达A100的价格十万人民币以上，由此可见，想要训练出大模型，需要投入大量的成本。

微调虽然显著降低了成本，但是对模型进行微调并没有解决知识截止问题，因为它只是将知识截止推迟到了更晚的日期。因此，建议仅在数据更新的速度较缓的情况下通过微调技术来更新 LLMs 的内部知识。除了知识截止问题，目前微调还可以帮助减轻幻觉，但不能完全消除它们。一方面原因在于大模型在提供答案时没有引用其来源。因此，你不知道答案是来自预训练数据、微调数据集，还是大模型编造的。另一方面，如果我们使用 LLMs 创建微调数据集，则可能存在另一个可能的虚假来源。最后，经过微调的模型无法根据提出问题的用户自动提供不同的响应。同样，不存在访问限制的概念，这意味着与大模型互动的任何人都可以访问其所有信息，所以对于机密信息的处理就成为问题。

图1 检索增强生成技术（RAG）和微调的对比[1]

检索增强生成技术（RAG）通过大型语言模型+知识召回的方式，解决通用大语言模型在专业领域回答缺乏依据、存在幻觉的问题，是各类基于大模型的知识问答应用的常用技术。RAG 有效地缓解了幻觉问题，提高了知识更新的速度，并增强了内容生成的可追溯性，使得大型语言模型在实际应用中变得更加实用和可信。并且，不同的用户可以根据自己的需求建立自己独特的知识库，保障了信息的知悉范围。

4 模型部署

首先选择对中文支持良好的开源大模型进行本地部署，以7B参数为例，国内开源大模型第一梯队当属阿里的通义千问Qwen 1.5，以及清华大学和智谱AI联合开发的ChatGLM3。

一方面可以通过部署开源工具进行本地大模型部署，Ollama是一个旨在简化大型语言模型本地部署和运行过程的工具。它提供了一个轻量级、易于扩展的框架，让开发者能够在本地机器上轻松构建和管理LLMs。通过Ollama，可以访问和运行一系列预构建的模型，或者导入和定制自己的模型，无需关注复杂的底层实现细节。

图2 检索增强生成技术（RAG）[1]

另一方面，当前检索增强生成技术（RAG）有LangChain和 LlamaIndex 等流行框架。这些框架先从广泛的文档数据库中检索相关信息，把企业私有知识文档进行切片然后向量化后续通过向量检索进行召回，再作为上下文输入到大语言模型进行归纳总结。然后大模型利用这些信息来引导生成过程，极大地提升了内容的准确性和相关性。

企业可以利用开源大模型和开源工具将大模型部署到生产环境中，也可以与现有的IT基础设施和业务系统集成。通过整合内部文档、报告、用户手册和试验数据等资料，构建庞大企业知识库。这个知识库可以用来增强大模型的检索能力，使其在回答问题时能够引用更准确的信息。提供创新的智能搜索、智能问答、辅助创作、辅助阅读等认知能力，真正帮助企业实现内容管理“智能化”，进一步释放数据内容的价值。

5 持续监控和优化

部署私有大型语言模型（LLMs）并不是一次性的任务，而是一个持续的过程。企业需要持续监控模型的性能，收集用户反馈，并根据业务发展和市场变化结合RAG，同时对模型进行微调或者更新，提升大模型在企业垂直领域知识的精度。此外，企业还应定期评估模型输出的准确性，不断优化知识库内容。通过持续的监控和优化，企业可以确保其私有大模型始终处于最佳状态，为企业带来持续价值。

6 结论

本地部署大型语言模型（LLMs）构建企业垂直领域知识库是一个复杂的过程，需要企业在多个方面进行投入和规划。通过明确业务需求、合理处理数据、选择合适的模型、有效部署和持续优化，充分利用大模型的潜力，提升业务效率和企业的核心竞争力。随着AI技术的不断进步，本地部署的私有大模型将成为企业数字化转型的重要推动力。