“AURORA-M：首个遵循人类审查安全指令微调的开源多语言模型

在人工智能领域，多模态学习是一个日益增长的研究领域，它涉及将来自不同源（如图像、文本、音频等）的信息结合起来。但高昂的训练计算成本限制了模型的普及性，使得小型机构和个人难以负担。而且现有模型在多语言能力上受限，难以覆盖广泛的语言和文化背景。持续预训练可能导致灾难性遗忘，即模型在更新知识时可能会忘记之前学到的信息，而从头开始预训练的成本同样高昂。最重要的是预训练模型是否符合人工智能安全和开发法律标准也是一个重要挑战，需要确保模型的输出既安全又可靠。这些挑战共同制约了预训练语言模型的进一步发展和应用。

Aurora-M是一个15B参数的多语种开源预训练语言模型，支持英语、芬兰语、印地语、日语、越南语和代码。它在StarCoderPlus的基础上，经过额外4350亿个token的持续预训练，总训练token数超过2万亿个。Aurora-M是首个根据人类审查的安全指令进行微调的模型，它在多语言任务和安全性评估中表现出色，具有对灾难性遗忘的鲁棒性，性能优于其他替代方案。尽管预训练语言模型面临高昂的计算成本、多语言能力有限、灾难性遗忘等挑战，Aurora-M通过持续预训练和安全微调，在多语种AI应用领域取得了重要进展。

Figure 1: 展示了AURORA-M与其前身模型StarCoderBase和StarCoderPlus在不同代码和多语言评估基准上的总体性能比较。

AURORA-M数据集概述

AURORA-M数据集由一系列精心策划的图像和相应的文本描述组成，这些描述涵盖了广泛的主题和场景。

特点

多样性：AURORA-M的一个显著特点是其内容的多样性。数据集中包含的图像和文本不仅涵盖了自然景观和城市街景，还包括日常用品和抽象概念。这种多样性使得数据集能够支持广泛的多模态学习任务。

规模：数据集的规模对于机器学习任务的成功至关重要。AURORA-M的规模适中，既能够满足复杂任务的需求，又不至于因为数据量过大而导致处理上的困难。

标注：每个图像都有详细的标签，这些标签与相应的文本描述紧密相连。这种丰富的上下文信息对于多模态学习至关重要，因为它允许模型更好地理解图像和文本之间的关系。

AURORA-M模型的训练是一个复杂的过程，它依赖于精心策划和处理的数据集。这些数据集不仅需要包含丰富的多模态信息，还需要通过一系列步骤进行整理、过滤和处理，以确保数据的质量和适用性。在AURORA-M的案例中，数据集的构建分为两个主要阶段：持续辅助预训练（CAP）和持续对齐调整（CAT）。

在CAP阶段，数据集的构建侧重于收集和整合大量的多模态数据。这一阶段的目标是为模型提供一个广泛的知识基础，使其能够学习到不同类型图像和文本之间的关联。数据整理过程涉及到从各种来源搜集图像和文本对，这些数据源可能包括公开的图像数据库、在线论坛、社交媒体平台等。随后，这些数据需要经过严格的过滤，以去除不相关或质量不高的数据。处理过程则包括数据的清洗、格式化和标准化，确保数据集的一致性和可用性。

CAT阶段则更加注重数据集的深度处理和调整。在这一阶段，数据集不仅要继续扩大规模，还要通过持续的预训练来提高模型的对齐能力。这意味着模型需要不断地接触新的数据，以学习如何更好地将图像和文本的信息对齐。此外，CAT阶段还可能涉及到对数据集的进一步细化，如根据模型在特定任务上的表现来调整数据的分布，或者引入更多的标注信息来增强模型的上下文理解能力。

在整个过程中，数据集的构建和处理需要考虑到模型的最终应用场景。例如，如果模型将被用于跨语言的图像标注任务，那么数据集中就需要包含多种语言的文本描述。同时，数据集的构建还需要考虑到模型的安全性和伦理性，确保模型不会学习到有偏见或不恰当的信息。

通过这两个阶段的精心策划和处理，AURORA-M模型能够获得一个高质量、多样化且不断更新的数据集，这为其在多模态学习和理解任务中的表现提供了坚实的基础。随着模型训练的进行，数据集的持续更新和优化将有助于模型不断地学习和适应新的挑战，从而在多模态人工智能领域实现持续的进步。

模型训练

AURORA-M模型的训练在LUMI超级计算机上进行，这是一个拥有强大计算能力的设施。在这样的环境中，AURORA-M能够利用多个GPU进行并行计算，显著加快了模型的训练速度。具体来说，训练过程中使用了数量众多的GPU，这些GPU协同工作，共同处理大量的数据和复杂的计算任务。

训练的持续时间是衡量模型训练效率的一个重要指标。AURORA-M的训练过程耗时数周，这在大型机器学习模型的训练中是一个相对较短的时间。这样的效率得益于LUMI超级计算机的高性能计算资源，以及优化的并行化策略，使得训练过程能够快速进行。

能源使用情况是现代大型机器学习模型训练中不可忽视的一个方面。AURORA-M在训练过程中消耗了大量的电力，这是由于GPU和其他计算资源的高能耗特性。然而，通过优化算法和并行化策略，可以在一定程度上减少能源的消耗，同时也提高了训练的效率。

并行化策略是AURORA-M模型训练中的一个关键组成部分。通过将模型的不同部分分配给不同的GPU进行处理，可以显著提高训练的速度和效率。这种策略需要精心设计，以确保数据在各个GPU之间有效传输，并且模型的不同部分能够同步更新。

学习率调整策略对于模型的训练同样至关重要。AURORA-M的训练过程中采用了动态调整学习率的策略，以确保模型在训练初期能够快速收敛，在训练后期则能够进行细致的优化。这种策略有助于提高模型的性能，避免训练过程中的过拟合问题。

安全性

AURORA-M在设计和训练过程中采取了一系列措施来增强其安全性。其中最重要的一个策略是在广泛的指令-响应对数据集上进行微调。这种方法使得模型能够学习如何更恰当地响应各种指令，同时避免产生不当或有害的输出。通过这种方式，AURORA-M能够更好地理解和遵循用户的指令，同时保持对潜在风险的敏感性。

特别地，AURORA-M的开发团队还特别关注了拜登-哈里斯政府关于人工智能的行政命令中提出的关键关切。这些关切包括确保人工智能系统的公正性、透明性和责任感。为了回应这些关切，AURORA-M在微调过程中加入了特定的指导原则，以确保模型的输出不仅安全，而且符合伦理和社会标准。

此外，AURORA-M的开发还包括了对模型输出的持续监控和评估。这意味着模型在实际应用中的表现会被定期检查，以确保其符合预期的安全和伦理标准。如果发现任何问题或偏差，开发团队会立即采取措施进行调整和优化。

评估

AURORA-M的评估工作涉及多种语言，包括英语、日语、芬兰语、印地语和越南语。这些评估任务旨在衡量模型在处理不同语言时的准确性、一致性和稳定性。通过这些评估，研究人员能够了解模型在不同语言环境下的表现，并识别出任何可能的偏差或不足之处。例如，在英语评估中，模型可能展现出较高的性能，而在其他语言上可能需要进一步的优化和调整。

Table 4: 展示了英语评估的结果，对比了不同模型在英语评估数据集上的表现。

除了语言评估外，AURORA-M还针对代码生成任务进行了专门的评估。代码生成是一个复杂的任务，它要求模型不仅要理解自然语言的指令，还要能够准确地转换为编程语言。在这一领域的评估中，AURORA-M的表现能够反映出其在理解和生成技术内容方面的能力。

Table 5: 展示了HumanEval和MBPP评估结果，对比了不同模型在代码生成任务上的表现。

评估过程中，研究人员特别关注了AURORA-M在持续预训练中的表现。持续预训练是指在模型已经训练完成的基础上，继续对其进行训练以学习新的知识。这一过程对于避免灾难性遗忘至关重要，即模型在获得新知识的同时不会丢失旧的知识。通过评估，研究人员能够监测AURORA-M在持续学习过程中的表现，确保其能够平衡新旧知识，提高整体的性能。

应用

AURORA-M数据集的应用范围广泛，它为多模态学习任务提供了坚实的基础。在图像和文本的联合表示学习领域，AURORA-M发挥着重要作用。通过将图像的视觉信息与文本的语义信息结合，模型能够学习到一种共同的表示，这种表示能够捕捉到两种模态之间的复杂关系。这种联合学习的方法不仅能够提高模型对图像内容的理解，还能增强其对文本描述的语义理解能力，从而在多种应用场景中实现更加精确的预测和分类。

在图像和文本的检索任务中，AURORA-M同样表现出其价值。多模态表示使得检索系统能够同时考虑图像的视觉特征和文本的语义内容，从而提供更加准确和相关的搜索结果。例如，当用户输入一个查询词时，系统不仅能够返回与该词直接相关的文本信息，还能找到视觉上与之匹配的图像。这种跨模态的检索能力在电子商务、社交媒体和内容推荐等领域具有广泛的应用前景。

跨模态翻译是AURORA-M支持的另一项重要任务。这项任务涉及到将一种模态的信息转换为另一种模态的表达。例如，模型可以学习如何根据图像内容生成相应的文本描述，或者根据文本描述生成图像。这种能力在自动字幕生成、图像标注、虚拟现实和增强现实等领域具有重要的应用价值。通过AURORA-M提供的数据，研究者可以训练出能够理解和生成多模态内容的智能系统，从而推动人机交互和内容创作的自动化。

论文链接：https://arxiv.org/pdf/2404.00399