Llama 3.1 技术研究报告-7

news2024/9/30 9:53:15

7.6 图像识别结果

我们评估了 Llama 3 在⼀系列任务上的图像理解能⼒,这些任务涵盖了⾃然图像理解、⽂本理解、图表理解和多模态推理

  • MMMU (Yue 等⼈,2024a) 是⼀个具有挑战性的数据集,⽤于多模态推理,模型需要理解图像并解决涵盖 30
    个不同学科的⼤学级问题。这包括多项选择和开放式问题。我们按照其他作品的做法,在包含 900 张图像的验证集上评估我们的模型。
  • VQAv2 (Antol 等⼈,2015) 测试模型结合图像理解、语⾔理解和常识来回答关于⾃然图像的通⽤问题的能⼒。
  • AI2 Diagram (Kembhavi 等⼈,2016) 评估模型解析科学图表并就同⼀图表回答问题的能⼒。我们使⽤与Gemini 和 x.ai 相同的评估协议,并使⽤透明边框报告分数。
  • ChartQA (Masry 等⼈,2022) 是⼀个具有挑战性的图表理解基准。这要求模型在视觉上理解不同类型的图表并回答有关图表的逻辑问题。
  • TextVQA (Singh 等⼈,2019)是⼀个流⾏的基准数据集,要求模型读取并推理图像中的⽂本以回答有关它们的问题。这测试了模型在⾃然图像上的 OCR 理解能⼒。
  • DocVQA (Mathew 等⼈,2020) 是⼀个专注于⽂档分析和识别的基准数据集。它包含各种⽂档的图像,评估模型执⾏ OCR理解和推理⽂档内容以回答问题的能⼒。
    在这里插入图片描述

表 29 展⽰了我们的实验结果。表中的结果表明,附加到 Llama 3 的我们的视觉模块在不同模型容量的⼴泛图像识别基准测试中表现出竞争⼒。使⽤结果产⽣的 Llama 3-V 405B 模型,我们在所有基准测试中都优于 GPT-4V,虽然略逊于 Gemini 1.5 Pro 和 Claude 3.5 Sonnet。Llama 3 405B 在⽂档理解任务上表现出特别的竞争性。

7.7 视频识别结果

我们在三个基准上评估了 Llama 3 的视频适配器

  • PerceptionTest (Pătrăucean 等⼈,2023) 评估模型回答聚焦于技能(记忆、抽象、物理、语义)和不同类型的推理(描述性、解释性、预测性、反事实)的时间推理问题的能⼒。它包含 11.6K 测试 QA 对,每个视频平均 23 秒⻓,由全球 100 名参与者拍摄,展⽰感知上有趣的任务。我们专注于多项选择问答任务,每个问题都有三个可能的选项。我们通过将我们的预测提交到在线挑战服务器来报告在保留的测试分割上的性能。
  • NExT-QA (Xiao 等⼈,2021) 是另⼀个时间和因果推理基准,侧重于开放式问答。它包含 1K 测试视频,平均⻓度为 44秒,搭配 9K 个问题。评估是通过将模型的响应与真实答案使⽤ Wu-Palmer 相似度 (WUPS) (Wu 和Palmer,1994) 进⾏⽐较来执⾏的。
  • TVQA (Lei 等⼈,2018) 评估模型执⾏组合推理的能⼒,需要时空定位相关时刻、识别视觉概念和与基于字幕的对话联合推理。这个数据集来源于流⾏的电视节⽬,此外还测试了模型利⽤对这些电视节⽬的外部知识回答问题的能⼒。它包含超过 15K 验证 QA 对,每个相应的视频⽚段平均⻓度为 76 秒。它还遵循多项选择格式,每个问题都有五个选项,我们按照先前的⼯作 (OpenAI, 2023b) 在验证集上报告性能。
  • ActivityNet-QA (Yu 等⼈,2019)评估模型对⻓视频⽚段进⾏推理以理解动作、空间关系、时间关系、计数等的能⼒。它包含来⾃ 800 个视频的 8K 测试 QA 对,每个视频平均 3 分钟⻓。对于评估,我们遵循先前⼯作 (Google, 2023; Lin 等⼈,2023; Maaz 等⼈,2024) 的协议,其中模型⽣成短的⼀词或短语答案,并通过 GPT-3.5 API 评估输出的正确性,将其与真实答案进⾏⽐较。我们报告 API 评估的平均准确率。

在进⾏推理时,我们从完整视频⽚段中均匀采样帧,并将这些帧与短⽂本提⽰⼀起传递到模型中。由于我们的⼤多数基准测试涉及回答多项选择问题,我们使⽤以下提⽰:从以下选项中选择正确答案

{问题}。⽤正确的选项字⺟回答,其他什么都不要写

对于那些需要产⽣简短答案的基准测试(例如,ActivityNet-QA 和 NExT-QA),我们使⽤以下提⽰:

⽤⼀个词或短语回答问题。{问题}。对于 NExT-QA,由于评估指标 (WUPS) 对⻓度和使⽤的具体单词敏感,我们另外提⽰模型要具体,并以最突出的答案作出回应,例如,在被问及地点问题时,指定“客厅”⽽不是简单地回应“房⼦”

对于那些包含字幕的基准测试(即,TVQA),我们在推理期间在提⽰中包含⽚段对应的字幕。
在这里插入图片描述

我们在表 30 中展⽰了 Llama 3 8B 和 70B 的性能。我们将 Llama 3 的性能与两个 Gemini 和两个 GPT-4 模型的性能进⾏了⽐较。请注意,由于我们没有在训练或微调数据中包含这些基准测试的任何部分,我们所有的结果都是零样本的。我们发现,在后训练期间训练了⼩型视频适配器的我们的 Llama 3 模型⾮常有竞争⼒,甚⾄在某些情况下⽐其他可能从预训练开始就利⽤原⽣多模态处理的模型更好。鉴于我们只评估了 8B 和 70B 参数模型,Llama 3 在视频识别上表现尤为出⾊。Llama 3 在 PerceptionTest 上取得了最佳性能,表明该模型具有执⾏复杂时间推理的强能⼒。在像 ActivityNet-QA 这样的⻓篇活动理解任务中,即使它只处理最多 64 帧,也就是说对于 3 分钟⻓的视频,模型每 3 秒只处理⼀帧,Llama 3 也能够获得强⼤的结果。
在这里插入图片描述

8 语⾳实验

我们进⾏实验,研究将语⾳能⼒以组合⽅式集成到 Llama 3 中的⽅法,类似于我们⽤于视觉识别的⽅法。在输⼊端,⼀个编码器和⼀个适配器被结合⽤来处理语⾳信号。我们利⽤⽂本形式的系统提⽰来启⽤ Llama 3 中不同的语⾳理解模式。如果没有提供系统提⽰,模型充当通⽤的⼝语对话模型,可以有效地以与 Llama 3 ⽂本版本⼀致的⽅式响应⽤⼾的语⾳。对话历史被引⼊作为提⽰前缀,以改善多轮对话体验。我们还尝试使⽤系统提⽰,启⽤ Llama 3 ⽤于⾃动语⾳识别(ASR)和⾃动语⾳翻译(AST)。Llama 3 的语⾳接⼝⽀持多达 34 种语⾔。它还允许⽂本和语⾳的交错输⼊,使模型能够解决⾼级的⾳频理解任务。

我们还尝试了⼀种语⾳⽣成⽅法,我们实现了⼀个流式⽂本到语⾳(TTS)系统,在语⾔模型解码期间即时⽣成语⾳波形。我们为 Llama 3 设计的语⾳⽣成器基于专有的 TTS 系统,并且我们没有对语⾔模型进⾏语⾳⽣成的微调。相反,我们专注于通过利⽤ Llama 3 嵌⼊在推理时提⾼语⾳合成的延迟、准确性和⾃然性。语⾳接⼝在图 28 和 29 中说明。

8.1 数据

8.1.1 语⾳理解

训练数据可以分为两种类型。预训练数据包括⼤量未标记的语⾳,⽤于以⾃监督⽅式初始化语⾳编码器。监督微调数据包括语⾳识别、语⾳翻译和⼝语对话数据;这些数据⽤于在与⼤型语⾔模型集成时解锁特定能⼒。

预训练数据。为了预训练语⾳编码器,我们整理了⼤约 1500 万⼩时的语⾳录⾳数据集,涵盖⼤量语⾔。我们使⽤语⾳活动检测(VAD)模型过滤我们的⾳频数据,并选择 VAD 阈值⾼于 0.7 的⾳频样本进⾏预训练。在语⾳预训练数据中,我们还专注于确保没有个⼈⾝份信息(PII)。我们使⽤ Presidio 分析器来识别此类 PII。

语⾳识别和翻译数据。我们的 ASR 训练数据包含 23 万⼩时的⼿动转录语⾳录⾳,涵盖 34 种语⾔。我们的 AST 训练数据包含 9 万⼩时的翻译,两个⽅向:从 33 种语⾔到英语和从英语到 33 种语⾔。这些数据包含使⽤ NLLB ⼯具包(NLLB 团队等⼈,2022)⽣成的监督和合成数据。使⽤合成 AST 数据使我们能够提⾼低资源语⾔的模型质量。我们数据中的语⾳段落的最⼤⻓度为 60 秒。

⼝语对话数据。为了微调⼝语对话的语⾳适配器,我们通过要求语⾔模型响应这些提⽰的转录来合成地⽣成语⾳提⽰的响应(Fathullah 等⼈,2024)。我们使⽤ ASR 数据集的 6 万⼩时语⾳的⼦集以这种⽅式⽣成合成数据。此外,我们通过在⽤于微调 Llama 3 的数据⼦集上运⾏ Voicebox TTS 系统(Le 等⼈,2024)⽣成了 2.5 万⼩时的合成数据。我们使⽤⼏种启发式⽅法选择与语⾳分布相匹配的微调数据⼦集。这些启发式⽅法包括专注于相对简短的提⽰,具有简单结构,且没有⾮⽂本符号。

8.1.2 语⾳⽣成

语⾳⽣成数据集主要包括⽤于训练⽂本归⼀化(TN)模型和韵律模型(PM)的数据。两种训练数据都通过额外的输⼊特征 Llama 3 嵌⼊进⾏了增强,以提供上下⽂信息。

⽂本归⼀化数据。我们的 TN 训练数据集包括 55K 个样本,涵盖了需要⾮平凡归⼀化的⼴泛符号类别(例如,数字、⽇期、时间)。每个样本是⼀对书⾯形式⽂本和相应的归⼀化⼝语形式⽂本,以及执⾏归⼀化的⼀系列⼿⼯制作的 TN 规则。

韵律模型数据。PM 训练数据包括从 50K ⼩时 TTS 数据集中提取的语⾔和韵律特征,这些是由专业配⾳演员在录⾳室环境中录制的配对⽂稿和⾳频。

Llama 3 嵌⼊。Llama 3 嵌⼊被取作第 16 个解码器层的输出。我们专⻔使⽤ Llama 3 8B 模型,并提取给定⽂本(即 TN 的书⾯形式输⼊⽂本或 PM 的⾳频转录)的嵌⼊,就好像它们是由带有空⽤⼾提⽰的 Llama 3 模型⽣成的⼀样。在给定样本中,Llama 3 令牌序列中的每个块都与 TN 或 PM 的相应块明确对⻬,即,特定于 TN 的⽂本令牌(由 unicode 类别分隔)或电话速率特征。这允许使⽤ Llama 3 令牌和嵌⼊的流式输⼊来训练 TN 和 PM 模块。

8.2 模型架构
8.2.1 语⾳理解

在输⼊端,语⾳模块由两个连续的模块组成:语⾳编码器和适配器。语⾳模块的输出直接输⼊到语⾔模型作为令牌表⽰,实现语⾳和⽂本令牌之间的直接交互。此外,我们引⼊了两个新的特殊的令牌来包围语⾳表⽰序列。语⾳模块与视觉模块(⻅第 7 节)有很⼤的不同,后者通过交叉注意⼒层将多模态信息输⼊到语⾔模型中。相⽐之下,语⾳模块⽣成的嵌⼊可以⽆缝地与⽂本令牌集成,使语⾳界⾯能够利⽤ Llama 3 语⾔模型的所有能⼒。

语⾳编码器。我们的语⾳编码器是⼀个具有 10 亿参数的 Conformer(Gulati 等⼈,2020)模型。模型的输⼊由 80 维的 mel-频谱图特征组成,⾸先由⼀个步⻓为 4 的堆叠层处理,然后通过线性投影将帧⻓度减少到 40 毫秒。然后由具有 24 个 Conformer 层的编码器处理这些特征。每个 Conformer 层具有 1536 的潜在维度,并包含两个 Macron-net ⻛格的前馈⽹络,其尺⼨为 4096,⼀个卷积模块,核⼤⼩为 7,以及⼀个旋转注意⼒模块(Su 等⼈,2024)和 24 个注意⼒头。

语⾳适配器。语⾳适配器包含⼤约 1 亿参数。它由⼀个卷积层、⼀个旋转变换器层和⼀个线性层组成。卷积层的核⼤⼩为 3,步⻓为 2,旨在将语⾳帧⻓度减少到 80 毫秒。这允许模型向语⾔模型提供更粗粒度的特征。变换器层具有 3072 的潜在维度和⼀个尺⼨为 4096 的前馈⽹络,这在卷积下采样后进⼀步处理语⾳信息和上下⽂。最后,线性层将输出维度映射以匹配语⾔模型嵌⼊层。

8.2.2 语⾳⽣成

我们在语⾳⽣成的两个关键组件中使⽤ Llama 3 8B 嵌⼊:⽂本归⼀化和韵律建模。TN 模块通过上下⽂转换书⾯⽂本为⼝语形式,确保⽣成语⾳的语义正确性。PM 模块通过使⽤这些嵌⼊预测韵律特征来增强⾃然性和表现⼒。它们共同实现了准确和⾃然的语⾳⽣成。

⽂本归⼀化。作为⽣成语⾳语义正确性的决定因素,⽂本归⼀化(TN)模块执⾏从书⾯形式⽂本到最终由下游组件⼝头表达的相应⼝语形式的上下⽂感知转换。例如,书⾯形式⽂本 123 根据语义上下⽂被读作基数(⼀百⼆⼗三)或逐字拼写(⼀⼆三)。TN 系统由⼀个流式 LSTM 基础的序列标记模型组成,该模型预测⽤于转换输⼊⽂本的⼀系列⼿⼯制作的 TN 规则(Kang 等⼈,2024)。神经模型还通过交叉注意⼒接收 Llama 3 嵌⼊,以利⽤其中编码的上下⽂信息,实现最⼩的⽂本令牌前瞻和流式输⼊/输出。

韵律建模。为了增强合成语⾳的⾃然性和表现⼒,我们集成了⼀个仅解码器的基于 Transformer 的韵律模型(PM)(Radford 等⼈,2021),它将 Llama 3 嵌⼊作为额外的输⼊。这种集成利⽤了 Llama 3 的语⾔能⼒,使⽤它的⽂本输出和中间嵌⼊在令牌速率(Devlin 等⼈,2018; Dong 等⼈,2019; Raffel 等⼈,2020; Guo 等⼈,2023)上,以增强韵律特征的预测,从⽽减少了模型所需的前瞻。

PM 集成了⼏个输⼊组件以⽣成全⾯的韵律预测:从上述⽂本归⼀化前端派⽣的语⾔特征、令牌和嵌⼊。PM 预测三个关键的韵律特征:每个⾳素的对数持续时间、对数 F0(基频)平均值和对数功率平均值跨越⾳素持续时间。模型包括⼀个单向的 Transformer 和六个注意⼒头。每个块包括交叉注意⼒层和两个具有 864 隐藏维度的全连接层。PM 的⼀个独特特点是其双重交叉注意⼒机制,⼀层专⻔⽤于语⾔输⼊,另⼀层⽤于 Llama 嵌⼊。这种设置有效地管理了不同的输⼊速率,⽽⽆需显式对⻬。

8.3 训练配⽅

8.3.1 语⾳理解

语⾳模块的训练分为两个阶段。第⼀阶段是语⾳预训练,利⽤未标记的数据训练⼀个在不同语⾔和声学条件下具有强⼤泛化能⼒的语⾳编码器。第⼆阶段是监督微调,适配器和预训练编码器与语⾔模型集成,并在语⾔模型保持冻结状态时与它⼀起训练。这使模型能够响应语⾳输⼊。这个阶段使⽤与语⾳理解能⼒相对应的标记数据。

多语⾔ ASR 和 AST 建模常常导致语⾔混淆/⼲扰,从⽽导致性能下降。缓解这⼀问题的流⾏⽅法是在源语⾔和⽬标语⾔两侧都加⼊语⾔识别(LID)信息。这可以提⾼预定⽅向集的性能,但确实会带来潜在的泛化能⼒损失。例如,如果⼀个翻译系统期望在源语⾔和⽬标语⾔两侧都有 LID,那么模型在训练中未⻅过的⽅向上不太可能表现出良好的零样本性能。因此,我们的挑战是设计⼀个系统,它在⼀定程度上允许 LID 信息,但保持模型⾜够通⽤,以便我们可以让模型在未⻅过的⽅向上进⾏语⾳翻译。

为了解决这个问题,我们设计了系统提⽰,这些提⽰只包含要发出的⽂本(⽬标侧)的 LID。在这些提⽰中,没有语⾳输⼊(源侧)的 LID 信息,这也可能使其能够处理代码混合语⾳。对于 ASR,我们使⽤以下系统提⽰:Repeat after me in {language}:,其中 {language} 来⾃ 34 种语⾔之⼀(英语、法语等)。对于语⾳翻译,系统提⽰是:Translate the following sentence into {language}:。这种设计已被证明在促使语⾔模型以期望的语⾔响应⽅⾯是有效的。我们在训练和推理期间使⽤了相同的系统提⽰。

语⾳预训练。我们使⽤⾃监督 BEST-RQ 算法(Chiu 等⼈,2022)来预训练语⾳编码器。我们对输⼊的 mel-频谱图应⽤了 32 帧⻓度的掩码,并以 2.5% 的概率进⾏。如果语⾳话语超过 60 秒,我们执⾏ 6K 帧的随机裁剪,相当于 60 秒的语⾳。我们通过将 4 个连续帧堆叠,将 320 维向量投影到 16 维空间,并在包含 8192 个向量的码本中进⾏余弦相似度度量的最近邻搜索,来量化 mel-频谱图特征。为了稳定预训练,我们使⽤了 16 个不同的码本。投影矩阵和码本是随机初始化的,并且在模型训练过程中不更新。出于效率原因,多 softmax 损失仅在掩蔽帧上使⽤。编码器训练了 50 万步,全局批量⼤⼩为 2048 个话语。

监督微调。预训练的语⾳编码器和随机初始化的适配器在监督微调阶段进⼀步与 Llama 3 联合优化。在此过程中,语⾔模型保持不变。训练数据是 ASR、AST 和⼝语对话数据的混合。Llama 3 8B 的语⾳模型训练了 65 万次更新,使⽤全局批量⼤⼩为 512 个话语和初始学习率为 10^−4。Llama 3 70B 的语⾳模型训练了 60 万次更新,使⽤全局批量⼤⼩为 768 个话语和初始学习率为 4 × 10^−5。

8.3.2 语⾳⽣成

为了⽀持实时处理,韵律模型采⽤了⼀种前瞻机制,考虑了固定数量的未来⾳素和可变数量的未来令牌。这确保了在处理传⼊⽂本时的⼀致性前瞻,这对于低延迟语⾳合成应⽤⾄关重要。
训练。我们开发了⼀种利⽤因果掩蔽的动态对⻬策略,以促进语⾳合成中的流式处理。这种策略结合了固定数量的未来⾳素和可变数量的未来令牌的前瞻机制,与⽂本归⼀化过程中的分块过程(第 8.1.2 节)对⻬。对于每个⾳素,令牌前瞻包括由块⼤⼩定义的最⼤令牌数量,导致 Llama 嵌⼊的可变前瞻,但对⾳素的固定前瞻。

Llama 3 嵌⼊来⾃在韵律模型训练期间保持冻结状态的 Llama 3 8B 模型。输⼊的⾳素速率特征包括语⾔和说话者/⻛格可控元素。模型训练以批量⼤⼩为 1024 个话语进⾏,每个话语的最⼤⻓度为 500 个⾳素。我们使⽤ AdamW 优化器,学习率为 9 × 10^−4,训练超过 100 万次更新,前 3000 次更新进⾏学习率预热,随后遵循余弦调度。

推理。在推理期间,采⽤相同的前瞻机制和因果掩蔽策略,以确保训练和实时处理之间的⼀致性。PM 以流式⽅式处理传⼊⽂本,逐个⾳素更新⾳素速率特征,逐块更新令牌速率特征。只有当该块的第⼀个⾳素当前时,才更新新的块输⼊,保持与训练期间的对⻬和前瞻。

对于韵律⽬标预测,我们采⽤了延迟模式⽅法(Kharitonov 等⼈,2021),这增强了模型捕捉和再现⻓距离韵律依赖的能⼒。这种⽅法有助于合成语⾳的⾃然性和表现⼒,确保低延迟和⾼质量的输出。

8.4 语⾳理解结果

我们在三个任务上评估了我们 Llama 3 的语⾳界⾯的语⾳理解能⼒:(1) ⾃动语⾳识别,(2) 语⾳翻译,以及 (3) ⼝语问题回答。我们将我们 Llama 3 的语⾳界⾯的性能与三个最先进的语⾳理解模型进⾏⽐较:Whisper(Radford 等⼈,2023)、SeamlessM4T(Barrault 等⼈,2023)和 Gemini。在所有评估中,我们对 Llama 3 令牌预测使⽤了贪婪搜索。

语⾳识别。我们在多语⾔ LibriSpeech(MLS;Pratap 等⼈,2020)、LibriSpeech(Panayotov 等⼈,2015)、VoxPopuli(Wang 等⼈,2021a)和多语⾔ FLEURS 数据集的⼀个⼦集(Conneau 等⼈,2023)的英语数据集上评估 ASR 性能。在评估中,解码结果使⽤ Whisper ⽂本归⼀化器进⾏后处理,以确保与其他模型报告的结果进⾏⽐较时的⼀致性。在所有基准测试中,我们测量了我们 Llama 3 的语⾳界⾯在这些基准测试的标准测试集上的单词错误率,除了中⽂、⽇语、韩语和泰语,这些语⾔报告的是字符错误率。
在这里插入图片描述

表 31 显⽰了 ASR 评估的结果。它展⽰了 Llama 3(以及更⼴泛的多模态基础模型)在语⾳识别任务上
的强性能:我们的模型在所有基准测试中都超越了像 Whisper20 和 SeamlessM4T 这样为语⾳量⾝定
制的模型。在 MLS 英语上,Llama 3 的表现与 Gemini 相似。

语⾳翻译。我们还在语⾳翻译任务中评估了我们的模型,其中模型被要求将⾮英语语⾳翻译成英⽂⽂本。我们在这些评估中使⽤了 FLEURS 和 Covost 2(Wang 等⼈,2021b)数据集,测量翻译成英⽂的 BLEU 分数。表 32 展⽰了这些实验的结果。21 我们的模型在语⾳翻译中的性能突出了多模态基础模型对于像语⾳翻译这样的任务的优势。

⼝语问题回答。Llama 3 的语⾳界⾯展⽰了显著的问题回答能⼒。该模型可以轻松理解代码混合语⾳,⽽⽆需事先接触此类数据。值得注意的是,尽管模型仅在单轮对话上进⾏了训练,但它能够参与扩展的、连贯的多轮对话会话。图 30 展⽰了⼀些突出这些多语⾔和多轮能⼒的⽰例。

安全性。我们在 MuTox(Costa-jussà 等⼈,2023)上评估了我们语⾳模型的安全性,这是⼀个包含 20000 个英语和西班⽛语句⼦和 4000 个其他 19 种语⾔的多语⾔⾳频数据集,每个句⼦都附有毒性标签。⾳频作为输⼊传递给模型,输出在清理⼀些特殊字符后评估其毒性。我们应⽤了 MuTox 分类器(Costa-jussà 等⼈,2023)并将结果与 Gemini 1.5 Pro 进⾏了⽐较。我们评估了添加毒性(AT)的百分⽐,当输⼊提⽰是安全的⽽输出是有毒的时候,以及丢失毒性(LT)的百分⽐,当输⼊提⽰是有毒的⽽答案安全的时候。表 33 显⽰了英语的结果和我们评估的所有 21 种语⾔的平均结果。22 添加的毒性百分⽐⾮常低:我们的语⾳模型在英语中添加的毒性百分⽐最低,不到 1%。它去除的毒性远多于它增加的毒性。

8.5 语⾳⽣成结果

对于语⾳⽣成,我们专注于评估使⽤ Llama 3 嵌⼊在⽂本归⼀化和韵律建模任务中的逐令牌输⼊流式模型的质量。评估的重点是与不将 Llama 3 嵌⼊作为额外输⼊的模型进⾏⽐较。
在这里插入图片描述

⽂本归⼀化。为了衡量 Llama 3 嵌⼊的效果,我们尝试改变模型使⽤的右侧上下⽂量。我们训练模型时使⽤了 3 个 TN 令牌(由 unicode 类别分隔)的右侧上下⽂。这个模型与不使⽤ Llama 3 嵌⼊,使⽤ 3 个令牌的右侧上下⽂或完整的双向上下⽂的模型进⾏了⽐较。正如预期的那样,表 34 显⽰使⽤完整的右侧上下⽂可以提⾼没有 Llama 3 嵌⼊的模型的性能。然⽽,包含 Llama 3 嵌⼊的模型超越了所有其他模型,因此能够在不依赖输⼊中的⻓上下⽂的情况下实现令牌速率的输⼊/输出流式处理。

韵律建模。为了评估我们使⽤ Llama 3 8B 的韵律模型(PM)的性能,我们进⾏了两组⼈类评估,⽐较有⽆ Llama 3 嵌⼊的模型。评估者听取不同模型的样本并表明他们的偏好。为了⽣成最终的语⾳波形,我们使⽤内部基于 Transformer 的声学模型(Wu 等⼈,2021)预测频谱特征,并使⽤ WaveRNN 神经⽹络声码器(Kalchbrenner 等⼈,2018)⽣成最终的语⾳波形。
在这里插入图片描述

⾸先,我们直接与没有 Llama 3 嵌⼊的流式基线模型进⾏了⽐较。在第⼆项测试中,Llama 3 8B PM 被与没有 Llama 3 嵌⼊的⾮流式基线模型进⾏了⽐较。正如表 35 所⽰,与流式基线相⽐,Llama 3 8B PM 有 60% 的时间被偏好,与⾮流式基线相⽐有 63.6% 的时间被偏好,表明在感知质量上有显著改进。Llama 3 8B PM 的关键优势是其逐令牌流式能⼒(第 8.2.2 节),这在推理期间保持了低延迟。这减少了模型的前瞻要求,与⾮流式基线相⽐,实现了更具响应性和实时性的语⾳合成。总体⽽⾔,Llama 3 8B 韵律模型⼀贯优于基线模型,证明了其在增强合成语⾳的⾃然性和表现⼒⽅⾯的有效性。
在这里插入图片描述

9 相关研究

Llama 3 的开发建⽴在⼤量先前研究基础模型的⼯作之上,涉及语⾔、图像、视频和语⾳等领域。对这些⼯作的全⾯概述不在本⽂讨论范围之内;我们推荐读者参考 Bordes 等⼈(2024 年)、Madan 等⼈(2024 年)、Zhao 等⼈(2023a 年)等⼈的概述。下⾯,我们简要概述了直接影响 Llama 3 开发的开创性⼯作。

9.1 语⾔

规模。Llama 3 延续了基础模型中不断增加规模的⻓期趋势。改进的驱动因素是计算能⼒的增加和数据的改进,405B 模型使⽤的预训练计算预算是 Llama 2 70B 的近 50 倍。尽管包含 405B 参数,但我们最⼤的 Llama 3 实际上包含的参数⽐早期性能较差的模型如 PALM(Chowdhery 等⼈,2023 年)要少,这是由于对规模法则(Kaplan 等⼈,2020 年;Hoffmann 等⼈,2022 年)的更好理解。关于其他前沿模型的规模,如 Claude 3 或 GPT 4(OpenAI,2023a 年),公众知之甚少,但总体性能是可⽐的。

⼩型模型。⼩型模型的发展与⼤型模型的发展相似。参数更少的模型可以显著降低推理成本并简化部署(Mehta 等⼈,2024 年;Team 等⼈,2024 年)。较⼩的 Llama 3 模型通过训练远远超出计算最优训练点来实现这⼀点,有效地⽤训练计算换取推理效率。另⼀种途径是将⼤型模型蒸馏成⼩型模型,如 Phi(Abdin 等⼈,2024 年)。

架构。虽然 Llama 3 相对于 Llama 2 ⼏乎没有架构上的改动,但其他近期的基础模型探索了其他设计。最值得注意的是,专家混合架构(Shazeer 等⼈,2017 年;Lewis 等⼈,2021 年;Fedus 等⼈,2022 年;Zhou 等⼈,2022 年)可以作为⼀种有效的⽅式来增加模型的容量,如 Mixtral(Jiang 等⼈,2024 年)和 Arctic(Snowflake,2024 年)。Llama 3 的性能超越了这些模型,表明密集架构并不是限制因素,但在训练和推理效率以及⼤规模模型稳定性⽅⾯仍然存在许多权衡。

开源。开源权重基础模型在过去⼀年中迅速改进,Llama3-405B 现在与当前闭源的最先进⽔平相当。最近开发了许多模型系列,包括 Mistral(Jiang 等⼈,2023 年)、Falcon(Almazrouei 等⼈,2023 年)、MPT(Databricks,2024 年)、Pythia(Biderman 等⼈,2023 年)、Arctic(Snowflake,2024 年)、OpenELM(Mehta 等⼈,2024 年)、OLMo(Groeneveld 等⼈,2024 年)、StableLM(Bellagente 等⼈,2024 年)、OpenLLaMA(Geng 和 Liu,2023 年)、Qwen(Bai 等⼈,2023 年)、Gemma(Team 等⼈,2024 年)、Grok(XAI,2024 年)和 Phi(Abdin 等⼈,2024 年)。

后训练。Llama 3 的后训练遵循了既定的指令调整策略(Chung 等⼈,2022 年;Ouyang 等⼈,2022 年),然后与⼈类反馈对⻬(Kaufmann 等⼈,2023 年)。尽管⼀些研究表明轻量级对⻬程序的惊⼈有效性(Zhou 等⼈,2024 年),Llama 3 使⽤了数百万⼈类指令和偏好判断来改进预训练模型,包括拒绝采样(Bai 等⼈,2022 年)、监督微调(Sanh 等⼈,2022 年)和直接偏好优化(Rafailov 等⼈,2023 年)等技术。为了策划这些指令和偏好⽰例,我们部署了 Llama 3 的早期版本来过滤(Liu 等⼈,2024c)、重写(Pan 等⼈,2024 年)或⽣成提⽰和响应(Liu 等⼈,2024b),并通过多轮后训练应⽤这些技术。

9.2 多模态

我们在 Llama 3 中对多模态能⼒的实验是⼀系列在基础模型中联合建模多种模态的⻓期⼯作的⼀部分。

图像。⼤量⼯作已经在⼤量图像-⽂本对上训练图像识别模型,例如 Mahajan 等⼈(2018 年)、Xiao 等⼈(2024a 年)、Team(2024 年)、OpenAI(2023b 年)。Radford 等⼈(2021 年)展⽰了第⼀个通过对⽐学习联合嵌⼊图像和⽂本的模型之⼀。最近,⼀系列模型研究了与 Llama 3 中使⽤的⽅法类似的途径,例如 Alayrac 等⼈(2022 年)、Dai 等⼈(2023 年)、Liu 等⼈(2023c,b)、Yang 等⼈(2023b)、Ye 等⼈(2023 年)、Zhu 等⼈(2023 年)。我们在 Llama 3 中的⽅法结合了这些论⽂中的许多思想,取得了与 Gemini 1.0 Ultra(Google,2023 年)和 GPT-4 Vision(OpenAI,2023b 年)相当的成果;⻅第 7.6 节。

视频。尽管视频输⼊已被越来越多的基础模型⽀持(Google,2023 年;OpenAI,2023b 年),但关于视频和语⾔联合建模的⼯作量并不是很⼤。与 Llama 3 类似,⼤多数当前研究采⽤适配器⽅法来对⻬视频和语⾔表⽰,并解锁关于视频的问答和推理(Lin 等⼈,2023 年;Li 等⼈,2023a;Maaz 等⼈,2024 年;Zhang 等⼈,2023 年;Zhao 等⼈,2022 年)。我们发现这种⽅法产⽣的结果是与最先进的技术竞争的;⻅第 7.7 节。

语⾳。我们的⼯作也属于将语⾔和语⾳建模相结合的更⼴泛⼯作。早期的⽂本和语⾳联合模型包括 AudioPaLM(Rubenstein 等⼈,2023 年)、VioLA(Wang 等⼈,2023b 年)、VoxtLM Maiti 等⼈(2023 年)、SUTLM(Chou 等⼈,2023 年)和 Spirit-LM(Nguyen 等⼈,2024 年)。我们的⼯作建⽴在像 Fathullah 等⼈(2024 年)这样的先前组合语⾳和语⾔的组合⽅法上。与⼤多数先前的⼯作不同,我们选择不对语⾔模型本⾝进⾏针对语⾳任务的微调,因为这样做可能会导致在⾮语⾳任务上的竞争。我们发现,在更⼤的模型规模上,即使没有这样的微调,也是可以获得强⼤的性能的;⻅第 8.4 节。

10 结论

在许多⽅⾯,⾼质量基础模型的开发仍处于起步阶段。我们在开发 Llama 3 中的经验表明,这些模型的进⼀步重⼤改进即将到来。在整个 Llama 3 模型系列的开发过程中,我们发现始终专注于⾼质量数据、规模和简单性始终能够获得最佳结果。在初步实验中,我们探索了更复杂的模型架构和训练⽅案,但并未发现这些⽅法的好处能够超过它们在模型开发中引⼊的额外复杂性。

开发像 Llama 3 这样的旗舰基础模型涉及克服许多深层次的技术问题,但也需要聪明的组织决策。例如,为确保 Llama 3 不会在常⽤基准上意外过拟合,我们的预训练数据由⼀个独⽴的团队采购和处理,这个团队有强烈的动机防⽌预训练数据被外部基准污染。另⼀个例⼦是,我们通过只允许⼀⼩部分不参与模型开发的研究⼈员执⾏和访问这些评估,确保我们的⼈类评估保持可信。虽然这种组织决策很少在技术论⽂中讨论,但我们发现它们对 Llama 3 模型系列的成功开发⾄关重要。

我们分享了我们的开发过程细节,因为我们相信这将
(1) 帮助更⼤的研究社区了解基础模型开发的关键因素;
(2) 有助于就基础模型在公众中的未来进⾏更明智的讨论。

我们还分享了将多模态能⼒整合到 Llama 3 中的初步实验。虽然这些模型仍在积极开发中,尚未准备好发布,但我们希望早期分享我们的结果能够加速这⽅⾯的研究。在本⽂中呈现的详细安全分析的积极结果之后,我们公开发布了我们的 Llama 3 语⾔模型,以加速开发对众多社会相关⽤例的 AI 系统,并使研究社区能够审查我们的模型并找到改进这些模型的⽅法,使其更好、更安全。我们相信,公开发布基础模型在这些模型的负责任开发中起着关键作⽤,我们希望 Llama 3 的发布⿎励⾏业拥抱开放、负责任的通⽤⼈⼯智能的开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2179326.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

tesseract:一个.Net版本的开源OCR项目

推荐一个.Net版本的开源OCR项目,方便我们在项目中集成OCR功能。 01 项目简介 tesseract是针对Tesseract-OCR(C)引擎封装的.NET版本,支持超过100种语言的文本识别,使得.NET开发者能够轻松地利用Tesseract的强大功能&a…

LLM基础概念-训练集

数据集 训练集(Training Set) 用来训练模型的数据。就像给学生提供教材一样,训练集帮助模型学习如何从输入数据预测出正确的结果。 验证集(Validation Set) 这个数据集用来检查模型在训练过程中的表现。它帮助我们调整模型训练参数的设置,以确保模型不…

《基于 Spring Boot 的健身房管理系统功能介绍》

一、系统概述 本健身房管理系统基于 Spring Boot 框架开发,旨在为健身房提供一套高效、便捷的管理解决方案。系统涵盖了会员卡查询、会员管理、员工管理、器材管理和课程管理等核心功能,帮助健身房实现全面的数字化管理。 二、会员卡查询 用户可以通过输…

影响 Linux、Unix 系统的 CUPS 漏洞可导致 RCE

在经过大量炒作和第三方过早泄露信息之后,安全研究员 Simone Margaritelli 公布了有关通用 UNIX 打印系统 (CUPS) 中的四个零日漏洞的详细信息。 这些漏洞可被远程、未经身份验证的攻击者滥用,在易受攻击的 Linux 和类 Unix 系统上实现代码执行。 CUPS…

【多线程】多线程(2):Thread方法,线程核心操作

【Thread类其他的属性和方法】 给线程命名的方法,不起名字则默认叫做Thread-0,Thread-1…… 【线程的属性】 ID,名称,状态,优先级:JVM自动分配,不能手动设置 状态:java中把线程的…

速通数据结构与算法第六站 树堆

系列文章目录 速通数据结构与算法系列 1 速通数据结构与算法第一站 复杂度 http://t.csdnimg.cn/sxEGF 2 速通数据结构与算法第二站 顺序表 http://t.csdnimg.cn/WVyDb 3 速通数据结构与算法第三站 单链表 http://t.csdnimg.cn/cDpcC 4 速通…

长期提供APX515/B原装二手APX525/B音频分析仪

Audio Precision APx515 是一款针对生产测试而优化的高性能音频分析仪。它因其速度、性能、自动化和易用性而成为一流的仪器。它具有卓越的性能,具有 –106 dB 的典型 THDN、1M 点 FFT 和 192k 数字 I/O,以及所有 APx 系列音频分析仪的一键式自动化和易用…

Flask-1

文章目录 Flask准备创建flask项目flask加载项目配置的二种方式 路由的基本定义接收任意路由参数接收限定类型参数自定义路由参数转换器 终端运行Flask项目http的请求与响应flask的生命周期请求获取请求中各项数据获取请求URL参数获取请求体获取请求头相关信息 响应响应html文本…

通信工程学习:什么是LAN局域网、MAN城域网、WAN广域网

LAN局域网、MAN城域网、WAN广域网 LAN(Local Area Network,局域网)、MAN(Metropolitan Area Network,城域网)和WAN(Wide Area Network,广域网)是计算机网络中根据覆盖范围…

Hive数仓操作(五)

一、Hive 信息查看 Hive的元数据管理: Hive 将表的元数据(如表名、列名、类型等)存储在关系型数据库中,通常是 MySQL。元数据的主要表包括: TBLS:存储表的信息(表名、类型、ID 等)。…

VMware NSX Advanced Load Balancer (NSX ALB) 22.1.7 发布下载,新增功能概览

VMware NSX Advanced Load Balancer (NSX ALB) 22.1.7 - 多云负载均衡平台 应用交付:多云负载均衡、Web 应用防火墙和容器 Ingress 服务 请访问原文链接:https://sysin.org/blog/vmware-nsx-alb-22/,查看最新版。原创作品,转载请…

一、Spring Boot集成Spring Security之自动装配

Spring Boot集成Spring Security之自动装配介绍 一、实现功能及软件版本说明二、创建Spring Boot项目三、查看自动装配配置类四、自动装配配置类之SecurityAutoConfiguration1、SecurityAutoConfiguration部分源码2、主要作用3、SpringBootWebSecurityConfiguration3.1、Spring…

D - Hidden Weights

题目链接: D - Hidden Weights (atcoder.jp) 题目描述: 数据范围限制: 样例: 输入: 3 3 1 2 2 3 2 3 1 3 -1 输出: 3 5 2 样例图: 思路: 第一次想的是从没有入节点的点去出发,然后去依次去更新,但是发现这个是错误的。 用dfs…

GPG error golang 1.19

1. 问题描述及原因分析 在飞腾2000的服务器,OS为Kylin Linux Advanced Server release V10环境下,docker版本为18.09.0(docker-engine-18.09.0-101.ky10.aarch64),基于容器镜像golang:1.19编译新的容器镜像&#xff0…

图解C#高级教程(二):事件

在现实生活当中,有一些事情发生时,会连带另一些事情的发生。例如,当某国的总统发生换届时,不同党派会表现出不同的行为。两者构成了“因果”关系,因为发生了A,所以发生了B。在编程语言当中,具有…

Motion open Heart 详细动画化开放式心脏解剖

详细和动画的心脏直视解剖。 具有真实的运动和精确的心动周期动画。 包括真实阀门动画序列。 配备高清纹理2048x2048和高清法线贴图,可在教育和游戏方面获得更好、更真实的效果。为(VR)虚拟现实场景和增强现实(AR)做好准备。 下载:​​Unity资源商店链接资源下载链接 …

高职院校“ICT工程师”人才培养方案——以华为认证高级网络工程师HCIP为例

一、引言 在电子信息领域,新技术、新理念和新思路的迅猛发展正推动着信息和网络技术成为各行业产业链的关键部分。信息技术与网络技术的深度融合催生了多样化的应用技术。ICT行业正逐渐渗透到生活的每一个角落,引领着新一轮信息通信产业的发展浪潮。 为…

在LabVIEW中如何读取EXCEL

在LabVIEW中读取Excel文件通常使用“报告生成工具包”(Report Generation Toolkit)。以下是详细步骤: ​ 安装工具包:确保已安装“报告生成工具包”。这通常随LabVIEW一起提供,但需要单独安装。 创建VI: 打…

一文详解:跨国医疗机构安全合规文件流转的跨境传输解决办法

跨国医疗机构是指那些能够在不同国家之间提供医疗服务的机构,它们通常具有国际化的医疗网络、专业的医疗团队和先进的医疗设备。这些机构不仅能够帮助患者获取国外优质的医疗资源,还能提供包括医疗咨询、治疗安排、病历翻译、签证办理、海外陪同等在内的…

中国联通(海外)数据中心资源:从基础设施运维服务到IDC机房增值服务

在全球化日益加深的今天,企业海外拓展已成为其发展战略的重要一环。然而,面对复杂多变的国际环境和严格的业务要求,如何确保海外业务的高效运行与数据安全,成为了企业亟需解决的关键问题。中国联通国际有限公司凭借其丰富的全球资…