零门槛微调大模型：基于 Ludwig 低代码框架使用 LoRA 技术微调实践

一、Ludwig 介绍

自然语言处理 (NLP) 和人工智能 (AI) 的飞速发展催生了许多强大的模型，它们能够理解和生成如同人类般的文本，为聊天机器人、文档摘要等应用领域带来了革命性的改变。然而，释放这些模型的全部潜力需要针对特定用例进行微调。Ludwig，一个由 Linux 基金会人工智能与数据部门主办的低代码框架，应运而生。并迅速获得了开源社区的广泛关注，在 Github 上已收获 10.9k 颗星。它致力于帮助用户轻松构建定制化的人工智能模型，例如大语言模型 (LLMs) 和其他深度神经网络。

Ludwig 最初由 Piero Molino 于 2019 年在 Uber AI 团队成员 Yaroslav Dudin 和 Sai Sumanth Miryala 的帮助下创建。如今，Ludwig 已经发展成为一个由 Linux 基金会支持的开源项目，并托管在 Github 上，拥有一个活跃的社区。Ludwig 的开发和维护由 Predibase 的员工和社区贡献者共同完成。

1.1、Ludwig 的主要优势

极易上手: 用户仅需使用一个声明式的 YAML 配置文件，即可轻松训练出最先进的 LLM 模型。Ludwig 支持多任务和多模态学习，并提供全面的配置验证功能，能够在运行前检测无效参数组合，避免错误发生。
高效性和可扩展性: 自动选择最佳批量大小，支持 DDP、DeepSpeed 等分布式训练策略，并提供参数高效微调（PEFT）、4 位量化（QLoRA）、分页和 8 位优化器等多种优化特性，即使面对超大规模数据集也能轻松应对。
专家级控制: 用户可以完全掌控模型的各个方面，细致到激活函数的选择。同时，Ludwig 还提供超参数优化、模型可解释性分析以及丰富的指标可视化工具，满足专业开发者的需求。
模块化和可扩展设计: 如同深度学习的“积木”，用户可以通过简单的参数调整尝试不同的模型架构、任务、特征和模态，极大地提升了模型开发的灵活性。
面向生产环境: 提供预构建的 Docker 容器，原生支持在 Kubernetes 上使用 Ray 进行模型部署，并支持将模型导出至 Torchscript 和 Triton 等平台，以及一键上传模型至 HuggingFace。

Ludwig 特别容易上手，即使你不是代码高手，也能用它轻松构建各种机器学习和深度学习模型。 你只需要一个简单的 YAML 配置文件，就可以训练出最先进的 LLM 模型，还能玩转多任务和多模态学习，超级方便！从模型训练、微调、参数优化，到最终的可视化和部署，Ludwig 都能帮你轻松搞定。

1.2、Ludwig 的主要功能

训练和微调: 支持多种训练模式，包括对预训练模型进行完整的训练和微调。
模型配置: 使用 YAML 文件进行配置，允许用户对模型参数进行详细定义，实现高度的可定制性和灵活性。
超参数调整: 集成自动超参数优化工具，以增强模型性能。
可解释的人工智能: 提供工具帮助用户深入了解模型决策，提高模型的可解释性和透明度。
模型服务和基准测试: 简化模型服务的过程，并支持在不同条件下对模型性能进行基准测试。

Ludwig 的整体设计理念是简化 AI 模型的构建和部署流程，无论是 AI 领域的新手还是专家，都可以轻松上手，快速构建出适用于各种场景的定制化 AI 模型。

二、Ludwig 原理

2.1、ECD 技术架构

Ludwig 的核心建模架构被称为 ECD (编码器-组合器-解码器) 架构。它就像一个高效的信息处理工厂，首先将多个输入特征进行编码，然后将它们送入“组合器”模型进行整合。组合器模型处理完这些编码后的信息后，会将结果传递给针对每个输出特征的解码器，最后输出预测结果并进行后处理。您可以进一步了解 Ludwig 的各种组合器模型，例如 TabNet、Transformer 和 Concat (Wide and Deep learning) 等。

ECD 架构的示意图就像一只翩翩起舞的蝴蝶，因此也被称为“蝴蝶架构”。

ECD 架构可以灵活处理各种不同类型的输入和输出数据，因此适用于许多不同的应用场景。

2.2、分布式训练

训练大型 AI 模型，尤其是像 LLM 这种巨无霸，没有分布式训练就像老牛拉破车，效率低得让人心碎。好消息是，Ludwig 与 Ray 强强联手，完美解决了这个问题，让你的模型训练效率瞬间起飞！

无论你是在轻便的笔记本电脑上，还是在强大的云端 GPU 集群上，甚至是动用成百上千台机器进行史诗级训练，Ludwig 都能轻松应对，而且你不用修改任何代码，就能享受分布式训练带来的速度与激情！

Ludwig 之所以如此优秀，主要归功于与 Ray 的深度整合：

Ray 集群启动器: 就像一位经验丰富的指挥家，只需一个简单的指令，就能迅速组建起一支强大的计算乐团，为你演奏 AI 的华美乐章。
Horovod on Ray: 分布式训练的配置过程通常复杂得令人头疼，但有了 Horovod on Ray，一切都变得无比轻松，你只需专注于模型本身，剩下的交给它就好。
Dask on Ray: 面对海量数据，传统的单机训练就像小马过河，力不从心。Dask on Ray 犹如一座坚固的桥梁，让你轻松跨越数据规模的鸿沟。
Ray Tune: 寻找最佳超参数就像在迷宫中探索，Ray Tune 为你提供了一盏明灯，在多台机器上并行搜索，快速找到通往成功之路。

三、Ludwig 微调

3.1、微调准备工作

在开始微调之前，让我们先来熟悉一下 Ludwig 及其生态系统。如前所述，Ludwig 是一个用于构建自定义 AI 模型的低代码框架，你可以把它想象成一个 AI 模型的“乐高积木”，它能帮助你构建各种自定义模型，例如大语言模型和其他深度神经网络。从技术角度来看，Ludwig 能够训练和微调任何神经网络，并支持广泛的机器学习和深度学习用例。此外，Ludwig 还提供了可视化、超参数调整、可解释的人工智能、模型基准测试以及模型服务等功能。

Ludwig 使用 YAML 文件来指定所有配置，例如模型名称、要执行的任务类型、微调时的 Epoch 数量、训练和微调的超参数、量化配置等。Ludwig 支持各种以 LLM 为中心的任务，例如零样本批量推理、检索增强生成 (RAG)、基于适配器的文本生成微调、指令微调等。接下来，我们将以 Mistral 7B 模型为例，带你一步步体验如何用 Ludwig 对其进行微调，Ludwig 使用 YAML 文件来配置模型参数，就像写一个简单的清单一样。我们会在后面的例子中详细介绍如何配置。

在开始微调你的 AI 模型之前，需要做一些准备工作，一般包括以下几个方面：

环境设置: 安装必要的软件和软件包。
数据准备: 选择和预处理合适的数据集。
YAML 配置: 在 YAML 文件中定义模型参数和训练选项。
模型训练和评估: 执行微调过程并评估模型性能。

3.2、Ludwig 微调 LLM 详细步骤

请注意，本文中的代码示例将在 VSCode 环境中运行，但您也可以在 Kaggle Notebook、Jupyter 服务器以及 Google Colab 等其他环境中运行这些代码。

3.2.1、安装必要的软件包

如果遇到 Transformers 版本的运行时错误，请执行以下操作。

%pip install ludwig==0.10.0 ludwig[llm] 
%pip install torch==2.1.2 
%pip install PyYAML==6.0 
%pip install datasets==2.18.0 
%pip install pandas==2.1.4
%pip install transformers==4.30.2

3.2.2、导入必要的库和依赖项

import yaml
import logging
import torch
import datasets
import pandas as pd
from ludwig.api import LudwigModel

3.2.3、数据准备和预处理

这里我们使用斯坦福大学的 Alpaca 数据集来进行微调。这份数据集就像是专门为基于指令的 LLM 微调而设计，它是由 OpenAI 的 text-davinci-003 引擎生成的，包含了 52,000 多个指令、每个条目包含指令、对应的任务以及 LLM 的输出。

为了有效地管理计算资源，我们将重点关注前 5,000 行数据。我们将使用 Hugging Face 的数据集库来访问和加载数据集到 Pandas DataFrame 中。

data = datasets.load_dataset("tatsu-lab/alpaca")
df = pd.DataFrame(data["train"])
df = df[["instruction", "input", "output"]]
df.head()

3.2.4、创建 YAML 配置文件

我们需要创建一个名为 model.yaml 的 YAML 配置文件，就像一份“训练秘籍”，告诉 Ludwig 如何训练我们的模型。这份秘籍包括以下内容：

模型类型：我们要训练的是 LLM 模型，所以这里要设定为 llm。
基础模型：我们选择使用 Hugging Face 模型库中的 mistralai/Mistral-7B-Instruct-v0.1 模型作为基础，你也可以选择其他预训练模型或者自己训练的模型。
输入和输出特征: 这里需要指定模型的输入和输出类型，我们将其分别定义为 instruction 和 output ，代表文本类型，用于处理数据集的输入和模型的输出。
提示模板: 这部分就像给模型的“行动指南”，告诉它如何理解你的指令并给出正确的回应。
文本生成参数: 这里可以设置一些参数来控制模型生成文本的方式，例如 temperature 参数控制文本的随机性，max_new_tokens 参数控制生成文本的最大长度。
适配器和量化: 为了提高模型的效率，我们会使用 LoRA 适配器和 4 位量化技术来优化模型的大小和计算量。
数据预处理: 我们会将 global_max_sequence_length 参数设置为 512，将所有输入文本的长度标准化，并将数据集随机划分为训练集和验证集。
训练器设置: 最后，我们将模型配置为使用大小为 1 的批次进行一个 Epoch 的训练，使用带预热的余弦学习率调度器和 paged_adam 优化器。

model_type: llm
base_model: meta-llama/Llama-2-7b-hf

quantization:
  bits: 4

adapter:
  type: lora

prompt:
  template: |
    ### Instruction:
    {instruction}

    ### Input:
    {input}

    ### Response:

input_features:
  - name: prompt
    type: text

output_features:
  - name: output
    type: text

trainer:
  type: finetune
  learning_rate: 0.0001
  batch_size: 1
  gradient_accumulation_steps: 16
  epochs: 3
  learning_rate_scheduler:
    warmup_fraction: 0.01

preprocessing:
  sample_ratio: 0.1

这份 YAML 配置文件涵盖了模型训练和微调所需的所有必要参数。如果你想深入了解更详细的自定义选项，可以参考 Ludwig 的官方文档。

3.2.4.1、在 YAML 文件中“写秘籍”

还记得我们之前提到的“训练秘籍”——YAML 配置文件吗？我们可以直接在里面定义模型的各种设置，就像这样：

import os
import logging
from ludwig.api import LudwigModel

# 在此处设置您的Hugging Face认证令牌
hugging_face_token = <your_huggingface_api_token>
os.environ["HUGGING_FACE_HUB_TOKEN"] = hugging_face_token

qlora_fine_tuning_config = yaml.safe_load(
"""
model_type: llm
base_model: mistralai/Mistral-7B-Instruct-v0.2

input_features:
  - name: instruction
    type: text

output_features:
  - name: output
    type: text

prompt:
  template: >-
    下面是描述任务的指令，与输入配对提供更多背景信息。适当地写一个回复完成请求。

    ### Instruction: {instruction}

    ### Input: {input}

    ### Response:

generation:
  temperature: 0.1
  max_new_tokens: 64

adapter:
  type: lora

quantization:
  bits: 4

preprocessing:
  global_max_sequence_length: 512
  split:
    type: random
    probabilities:
    - 0.95
    - 0
    - 0.05

trainer:
  type: finetune
  epochs: 1 # Typically, you want to set this to 3 epochs for instruction fine-tuning
  batch_size: 1
  eval_batch_size: 2
  optimizer:
    type: paged_adam
  gradient_accumulation_steps: 16
  learning_rate: 0.0004
  learning_rate_scheduler:
    decay: cosine
    warmup_fraction: 0.03
"""
)

3.2.5、使用 LoRA 微调 LLM

万事俱备，只欠东风！现在，我们只需要召唤出 Ludwig 的力量，就可以开始训练模型了。

首先，我们需要实例化一个 Ludwig 模型对象，把我们精心准备的 YAML 配置文件作为参数传递给它，同时，别忘了带上记录器，以便随时跟踪训练进度。接下来，只需一行简单的代码 model.train(), 就可以启动训练过程啦！

如果遇到错误，请安装以下 Transformers 运行时：

%pip install transformers==4.30.2

model = LudwigModel(
  config=qlora_fine_tuning_config, 
  logging_level=logging.INFO
  )

results = model.train(dataset=df[:5000])

仅需两行代码，我们就可以初始化 LLM 微调过程。为了加快训练速度，节省时间和计算资源，我们暂时只用了前 5000 行数据进行训练。这里我使用了 Kaggle 的 P100 GPU 来加速微调过程，您也可以选择使用它来提升微调的速度和性能！

3.2.6、评估模型性能

test_examples = pd.DataFrame([
    {
        "instruction": "列举三种不同类型的云.",
        "input": "",
    },
    {
        "instruction": "给以下菜谱提出三个改进建议",
        "input": "鸡肉蔬菜汤：将鸡肉、胡萝卜、芹菜和土豆放入水中煮沸，然后小火慢炖一小时。",
    },
    {
        "instruction": "解释一下什么是量子计算。",
        "input": "",
    },
    {
        "instruction": "用不超过 20 个字描述这张图片",
        "input": "一只金毛猎犬在沙滩上奔跑，背景是夕阳。",
    },
    {
        "instruction": "比较并对比巴洛克和古典音乐的特点。",
        "input": "",
    },
])

predictions = model.predict(test_examples, generation_config={
"max_new_tokens": 64, 
"temperature": 0.1})[0]

for input_with_prediction in zip(
    test_examples['instruction'], 
    test_examples['input'], 
    predictions['output_response']
):
    
    print(f"Instruction: {input_with_prediction[0]}")
    print(f"Input: {input_with_prediction[1]}")
    print(f"Generated Output: {input_with_prediction[2][0]}")
    print("\n\n")

四、模型部署

现在，我们可以将微调后的模型部署到 Hugging Face 平台。请按照以下步骤操作：

4.1、在 Hugging Face 上创建模型仓库

访问 Hugging Face 网站并登录您的账号。
点击您的个人资料图标，选择 "New Model"。
填写必要的信息，并为您的模型指定一个名称。

4.2、生成 Hugging Face API 密钥

在 Hugging Face 网站上，点击您的个人资料图标，然后选择 "Settings"。
选择 "Access Tokens" 并点击 "New Token"。
在生成 Token 时，选择 "Write" 权限。

4.3、使用 Hugging Face CLI 进行身份验证

打开命令行终端。
使用以下命令登录 Hugging Face，将 <API_KEY> 替换为您生成的 API 密钥：

huggingface-cli login --token <API_KEY>

4.4、将您的模型上传到 Hugging Face

使用以下命令将您的模型上传到 Hugging Face，将 <repo-id> 替换为您的模型仓库 ID，将 <model-path> 替换为本地保存模型的路径：

ludwig upload hf_hub --repo_id <repo-id> --model_path <model-path>

五、模型微调扩展

现在，你已经掌握了用 Ludwig 微调 LLM 的基本招式。但是，江湖路漫漫，想要训练出独步天下的 AI 模型，还需要不断修炼，拓展训练思路。

好在 Ludwig 非常灵活，就像可塑性极强的武学奇才，可以根据你的需求进行各种调整和扩展。以下是一些修改建议：

数据：修炼的根基: 不同的 AI 模型就像不同门派的武功，需要不同的内功心法。根据你想要训练的模型类型和目标，选择合适的数据集至关重要。

# Huggingface datasets and tokenizers
from datasets import load_dataset
from tokenizers import Tokenizer
from tokenizers.models import WordLevel
from tokenizers.trainers import WordLevelTrainer
from tokenizers.pre_tokenizers import Whitespace

任务：挑战自我，突破瓶颈: 不要局限于指令微调，尝试用 Ludwig 完成更复杂的 NLP 任务，例如文本分类、问答系统等等，不断挑战自我，突破模型的极限。
模型：博采众长，融会贯通: Hugging Face 模型库就像一个武学宝库，里面有各种各样的预训练模型。你可以根据自己的需要选择合适的模型，甚至可以将不同的模型组合起来，创造出更强大的模型。
超参数：精雕细琢，追求极致: 超参数就像武功招式中的细节，微小的调整就能对模型的性能产生巨大的影响。Ludwig 内置了超参数优化工具，可以帮助你找到最佳的超参数组合，让你的模型发挥出最大威力。

六、总结

Ludwig 就像一位武功高强的引路人，为你打开了 AI 世界的大门。它简单易用，功能强大，即使是初学者也能轻松上手。Ludwig 的低代码框架为将大语言模型 (LLM) 微调至特定任务提供了一种高效便捷的途径，它在易用性和强大的自定义能力之间取得了良好的平衡。通过利用 Ludwig 全面的模型开发、训练和评估功能，开发人员可以构建出针对特定用例量身定制的强大且高性能的 AI 模型，以满足各种现实世界应用场景的需求。

以下是 Ludwig 的核心优势：