机器学习基础-大语言模型

大语言模型的基本概念 “大”体现在什么地方？

预训练+微调两阶段的基本流程和作用

第一阶段：利用语言模型进行无监督预训练

第二阶段：通过监督微调的模式解决下游任务

BERT模型中MLM和NSP机制基本概念

MLM

NSP

Prompt学习的基本概念

提示学习的基本概念

流程

思维链提示（Chain-of-Thought Prompting）的基本概念

模型蒸馏的基本概念

多模态的基本概念

多模态表示学习

大语言模型的基本概念 “大”体现在什么地方？

大语言模型（Large Language Model, LLM）是指那些具有非常大的参数量、训练数据集规模和计算资源需求的深度学习模型，它们通常基于神经网络架构，并通过大量文本数据进行训练。这些模型能够生成人类语言的文本，执行各种自然语言处理任务，如翻译、问答、摘要等。

大语言模型的“三大”特点： 大数据（训练数据巨大）、大模型(参数数量大）、大算力

预训练+微调两阶段的基本流程和作用

第一阶段：利用语言模型进行无监督预训练

通过设计好一个网络结构来作语言模型任务，然后用海量无标注自然语言文本作为原料，用无监督学习的方式训练模型。

第二阶段：通过监督微调的模式解决下游任务

流程：①准备特定任务数据集：为特定的下游任务收集带有标签的小规模数据集。② 调整模型结构：根据需要添加新的层或者修改现有层来适应具体任务的要求③ 设置微调参数 ④训练模型

是在已有的模型上进行进一步训练，改变模型内部参数，让模型更适应特定任务，属于监督微调SFT: Supervised Fine-Tuning)

BERT模型中MLM和NSP机制基本概念

BERT(Bidirectional Encoder Representation from Transformer)，是基于Transformer 的自然语言表示框架。

Transformer 编码器：BERT与GPT一样，都是基于Transformer的二阶段训练模型，都在Pre-Training阶段无监督地训练出一个可通用的Transformer模型，然后在Fine-Tuning阶段对这个模型中的参数进行微调，使之能够适应不同的下游任务。
双向性：与以前的单向模型（如 GPT）不同，BERT采用的是双向的Transformer，也就是不用进行Mask操作，同时考虑一个词左右两边的信息来推断该词的意义。这种特性使得 BERT 能够更准确地理解词汇的上下文。

为了使模型获得对语言结构的广泛理解，BERT 有了两个预训练方法创新：MLM和NSP

MLM

掩码语言建模 (Masked Language Modeling, MLM)：随机遮盖输入序列中的一部分词（通常是15%），然后让模型预测这些被遮盖掉的词。这个任务帮助模型学习到词语之间的相互关系和上下文信息。

理解：在Transformer中，我们即想要知道上文的信息，又想要知道下文的信息，但同时要保证整个模型不知道要预测词的信息，那么就干脆不要告诉模型这个词的信息就可以了。也就是说，BERT在输入的句子中，挖掉一些需要预测的词，然后通过上下文来分析句子，最终使用其相应位置的输出来预测被挖掉的词。这其实就像是在做完形填空一样。
但是，直接将大量的词替换为<MASK>标签可能会造成一些问题，模型可能会认为只需要预测<MASK>相应的输出就行，其他位置的输出就无所谓。同时Fine-Tuning阶段的输入数据中并没有<MASK>标签，也有数据分布不同的问题。为了减轻这样训练带来的影响，BERT采用了如下的方式:
1.输入数据中随机选择15%的词用于预测，这15%的词中，
2.80%的词向量输入时被替换为<MASK>
3.10%的词的词向量在输入时被替换为其他词的词向量
4.另外10%保持不动
这样一来就相当于告诉模型，我可能给你答案，也可能不给你答案，也可能给你错误的答案，有<MASK>的地方我会检查你的答案，没<MASK>的地方我也可能检查你的答案，所以<MASK>标签对你来说没有什么特殊意义，所以无论如何，你都要好好预测所有位置的输出。

NSP

下一句预测 (Next Sentence Prediction, NSP)：给定两个句子 A 和 B，模型需要判断 B 是否是 A 的下一个句子。这个任务有助于提高模型对于句子间连贯性的理解，在问答、文本蕴含等任务中有重要作用。

BERT还提出了另外一种预训练方式NSP，与MLM同时进行，组成多任务预训练。这种预训练的方式就是往Transformer中输入连续的两个句子，左边的句子前面加上一个<CLS>标签，它的输出被用来判断两个句子之间是否是连续上下文关系。采用负采样的方法，正负样本(是否有连续上下文关系）各占50%。
输入表示：BERT 的输入是由三个向量相加组成的，以确保模型可以区分不同的部分并捕捉到句子的位置和顺序信息。

词向量（Token Embeddings）：每个 token（包括特殊符号如 [CLS] 和 [SEP]）都有一个对应的词嵌入，这代表了词汇表中的位置。

位置向量（Positional Embeddings）：虽然 Transformer 架构本身并不具备处理序列顺序的能力，但通过加入位置编码，BERT 能够了解 token 在序列中的绝对或相对位置。

段向量（Segment Embeddings）：也称为句子 A/B 嵌入，用于标识哪个 token 属于句子 A 或句子 B。这对于二元分类任务尤其重要，例如 NSP，其中需要明确知道哪些部分构成了第一个句子，哪些构成了第二个句子。

Prompt学习的基本概念

提示学习（Prompt-based Learning）是一种利用预训练语言模型（如BERT、GPT等）进行特定任务的方法，它通过构造一个或多个提示（prompt）来引导模型生成预期的输出。这种方法允许用户以自然语言的方式与模型交互，并且可以在不改变模型权重的情况下实现多种应用。

提示学习的基本概念

提示（Prompt）：提示是指一段文本，通常包含一些上下文信息和一个空白处，用于指导模型生成特定类型的输出。例如，在问答任务中，提示可以是“问题: [问题内容] 答案:”，然后让模型填充答案部分。
零样本学习（Zero-shot learning）：在没有针对特定任务进行任何微调的情况下，直接使用预训练好的大语言模型完成新任务。提示学习特别适合这种场景，因为它依赖于模型已经学到的语言知识。
少样本学习（Few-shot learning）：提供少量的例子作为示范，帮助模型理解如何应对新的任务。这些例子被嵌入到提示中，形成所谓的“in-context learning”。

流程

提示添加
答案搜索
答案映射

思维链提示（Chain-of-Thought Prompting）的基本概念

随着语言模型规模的不断扩大，其也具备了丰富的知识和强大的语境学习能力。然而，仅仅通过扩大语言模型的规模，并不能显著提升推理（Reasoning）能力，如常识推理、逻辑推理、数学推理等。通过示例（Demonstrations）或者明确指导模型在面对问题时如何逐步思考，促使模型在得出最终答案之前生成中间的推理步骤，可以显著提升其在推理任务上的表现。这种方法被称为思维链提示（Chain-of-Thought Prompting）。

理解：语言模型在推理能力方面的表现一直未能令人满意，一些研究人员认为这可能是因为此前的模式是直接让模型输出结果，而忽略了其中的思考过程。人类在解决包括数学应用题在内的、涉及多步推理的问题时，通常会逐步书写整个解题过程的中间步骤，最终得出答案。如果明确告知模型先输出中间的推理步骤，再根据生成的步骤得出答案，是否能够提升其推理表现呢？针对这个问题，Google Brain 的研究人员提出了思维链（Chain-of-Thought， CoT）提示方式[171]，除了将问题输入模型，还将类似题目的解题思路和步骤输入模型，使得模型不仅输出最终结果，还输出中间步骤，从而提升模型的推理能力。研究人员甚至提出了零样本思维链（Zero-shot Chain-of-Thought，Zeroshot CoT）提示方式，只需要简单地告知模型“让我们一步一步思考（Let’s thinkstep by step）”，模型就能够自动输出中间步骤。

模型蒸馏的基本概念

采用的方法：迁移学习
主要思想：通过预先训练好的复杂模型(Teacher model)的最后输出结果来作为先验知识，结合One-Hot label数据，共同指导个简单的网络(Student model)学习，最终使学生模型大导或媲美老师模型的准确度。
目标：让student学习到teacher的泛化能力

多模态的基本概念

每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉等；信息的媒介，有语音、视频、文字等。以上的每一种都可以称为一种模态。多模态机器学习旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态表示学习

定义：利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。
两大研究方向：
- 联合表示（Joint Representations）：将多个模态的信息一起映射到一个统一的多模态向量空间。
- 协同表示（Coordinated Representations）：将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束。