机器学习基础-大语言模型

news2025/4/16 23:11:47

目录

大语言模型的基本概念 “大”体现在什么地方?

预训练+微调两阶段的基本流程和作用

第一阶段:利用语言模型进行无监督预训练

第二阶段:通过监督微调的模式解决下游任务

BERT模型中MLM和NSP机制基本概念

MLM

NSP

Prompt学习的基本概念

提示学习的基本概念

流程

思维链提示(Chain-of-Thought Prompting)的基本概念

模型蒸馏的基本概念

多模态的基本概念

多模态表示学习


大语言模型的基本概念 “大”体现在什么地方?

大语言模型(Large Language Model, LLM)是指那些具有非常大的参数量、训练数据集规模和计算资源需求的深度学习模型,它们通常基于神经网络架构,并通过大量文本数据进行训练。这些模型能够生成人类语言的文本,执行各种自然语言处理任务,如翻译、问答、摘要等。

大语言模型的“三大”特点: 大数据(训练数据巨大)、大模型(参数数量大)、大算力

预训练+微调两阶段的基本流程和作用

第一阶段:利用语言模型进行无监督预训练

通过设计好一个网络结构来作语言模型任务,然后用海量无标注自然语言文本作为原料,用无监督学习的方式训练模型。

第二阶段:通过监督微调的模式解决下游任务

流程:①准备特定任务数据集:为特定的下游任务收集带有标签小规模数据集。② 调整模型结构:根据需要添加新的层或者修改现有层来适应具体任务的要求③ 设置微调参数 ④训练模型

是在已有的模型上进行进一步训练,改变模型内部参数,让模型更适应特定任务,属于监督微调SFT: Supervised Fine-Tuning)

BERT模型中MLM和NSP机制基本概念

BERT(Bidirectional Encoder Representation from Transformer),是基于Transformer 的自然语言表示框架。

  • Transformer 编码器:BERT与GPT一样,都是基于Transformer的二阶段训练模型,都在Pre-Training阶段无监督地训练出一个可通用的Transformer模型,然后在Fine-Tuning阶段对这个模型中的参数进行微调,使之能够适应不同的下游任务。
  • 双向性:与以前的单向模型(如 GPT)不同,BERT采用的是双向的Transformer,也就是不用进行Mask操作,同时考虑一个词左右两边的信息来推断该词的意义。这种特性使得 BERT 能够更准确地理解词汇的上下文。

为了使模型获得对语言结构的广泛理解,BERT 有了两个预训练方法创新MLM和NSP

MLM

  • 掩码语言建模 (Masked Language Modeling, MLM)随机遮盖输入序列中的一部分词(通常是15%),然后让模型预测这些被遮盖掉的词。这个任务帮助模型学习到词语之间的相互关系和上下文信息。

理解:在Transformer中,我们即想要知道上文的信息,又想要知道下文的信息,但同时要保证整个模型不知道要预测词的信息,那么就干脆不要告诉模型这个词的信息就可以了。也就是说,BERT在输入的句子中,挖掉一些需要预测的词,然后通过上下文来分析句子,最终使用其相应位置的输出来预测被挖掉的词。这其实就像是在做完形填空一样。
但是,直接将大量的词替换为<MASK>标签可能会造成一些问题,模型可能会认为只需要预测<MASK>相应的输出就行,其他位置的输出就无所谓。同时Fine-Tuning阶段的输入数据中并没有<MASK>标签,也有数据分布不同的问题。为了减轻这样训练带来的影响,BERT采用了如下的方式:
1.输入数据中随机选择15%的词用于预测,这15%的词中,
2.80%的词向量输入时被替换为<MASK>
3.10%的词的词向量在输入时被替换为其他词的词向量
4.另外10%保持不动
这样一来就相当于告诉模型,我可能给你答案,也可能不给你答案,也可能给你错误的答案,有<MASK>的地方我会检查你的答案,没<MASK>的地方我也可能检查你的答案,所以<MASK>标签对你来说没有什么特殊意义,所以无论如何,你都要好好预测所有位置的输出。

NSP

  • 下一句预测 (Next Sentence Prediction, NSP)给定两个句子 A 和 B,模型需要判断 B 是否是 A 的下一个句子。这个任务有助于提高模型对于句子间连贯性的理解,在问答、文本蕴含等任务中有重要作用。

BERT还提出了另外一种预训练方式NSP,与MLM同时进行,组成多任务预训练。这种预训练的方式就是往Transformer中输入连续的两个句子,左边的句子前面加上一个<CLS>标签,它的输出被用来判断两个句子之间是否是连续上下文关系。采用负采样的方法,正负样本(是否有连续上下文关系)各占50%。
输入表示:BERT 的输入是由三个向量相加组成的,以确保模型可以区分不同的部分并捕捉到句子的位置和顺序信息。

  • 词向量(Token Embeddings):每个 token(包括特殊符号如 [CLS] 和 [SEP])都有一个对应的词嵌入,这代表了词汇表中的位置。

  • 位置向量(Positional Embeddings):虽然 Transformer 架构本身并不具备处理序列顺序的能力,但通过加入位置编码,BERT 能够了解 token 在序列中的绝对或相对位置。

  • 段向量(Segment Embeddings):也称为句子 A/B 嵌入,用于标识哪个 token 属于句子 A 或句子 B。这对于二元分类任务尤其重要,例如 NSP,其中需要明确知道哪些部分构成了第一个句子,哪些构成了第二个句子。

Prompt学习的基本概念

提示学习(Prompt-based Learning)是一种利用预训练语言模型(如BERT、GPT等)进行特定任务的方法,它通过构造一个或多个提示(prompt)来引导模型生成预期的输出。这种方法允许用户以自然语言的方式与模型交互,并且可以在不改变模型权重的情况下实现多种应用。

提示学习的基本概念

  • 提示(Prompt):提示是指一段文本,通常包含一些上下文信息和一个空白处,用于指导模型生成特定类型的输出。例如,在问答任务中,提示可以是“问题: [问题内容] 答案:”,然后让模型填充答案部分。

  • 零样本学习(Zero-shot learning):在没有针对特定任务进行任何微调的情况下,直接使用预训练好的大语言模型完成新任务。提示学习特别适合这种场景,因为它依赖于模型已经学到的语言知识。

  • 少样本学习(Few-shot learning):提供少量的例子作为示范,帮助模型理解如何应对新的任务。这些例子被嵌入到提示中,形成所谓的“in-context learning”。

流程

  1. 提示添加
  2. 答案搜索
  3. 答案映射

思维链提示(Chain-of-Thought Prompting)的基本概念

随着语言模型规模的不断扩大,其也具备了丰富的知识和强大的语境学习能力。然而,仅仅通过扩大语言模型的规模,并不能显著提升推理(Reasoning)能力, 如常识推理、逻辑推理、数学推理等。通过示例(Demonstrations)或者明确指导模型在面对问题时如何逐步思考,促使模型在得出最终答案之前生成中间的推理步骤,可以显著提升其在推理任务上的表现。这种方法被称为思维链提示 (Chain-of-Thought Prompting)。

理解:语言模型在推理能力方面的表现一直未能令人满意,一些研究人员认为这可能是因 为此前的模式是直接让模型输出结果,而忽略了其中的思考过程。人类在解决包括 数学应用题在内的、涉及多步推理的问题时,通常会逐步书写整个解题过程的中间 步骤,最终得出答案。如果明确告知模型先输出中间的推理步骤,再根据生成的步 骤得出答案,是否能够提升其推理表现呢? 针对这个问题,Google Brain 的研究人员提出了思维链(Chain-of-Thought, CoT)提示方式[171],除了将问题输入模型,还将类似题目的解题思路和步骤输 入模型,使得模型不仅输出最终结果,还输出中间步骤,从而提升模型的推理能力。 研究人员甚至提出了零样本思维链(Zero-shot Chain-of-Thought,Zeroshot CoT)提示方式,只需要简单地告知模型“让我们一步一步思考(Let’s thinkstep by step)”,模型就能够自动输出中间步骤。

模型蒸馏的基本概念

采用的方法:迁移学习
主要思想:通过预先训练好的复杂模型(Teacher model)的最后输出结果来作为先验知识,结合One-Hot label数据,共同指导个简单的网络(Student model)学习,最终使学生模型大导或媲美老师模型的准确度。
目标:让student学习到teacher的泛化能力

多模态的基本概念

每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉等;信息的媒介,有语音、视频、文字等。以上的每一种都可以称为一种模态。多模态机器学习旨在通过机器 学习的方法实现处理和理解多源模态信息的能力。目前比较热门 的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态表示学习

  • 定义:利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。
  • 两大研究方向
    • 联合表示(Joint Representations):将多个模态的信息一起映射到一个统一的多模态向量空间。
    • 协同表示(Coordinated Representations):将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2273498.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu挂载Windows 磁盘,双系统

首先我们需要在终端输入这个命令&#xff0c;来查看磁盘分配情况 lsblk -f 找到需要挂载的磁盘&#xff0c;检查其类型&#xff08; 我的/dev/nvme2n1p1类型是ntfs&#xff0c;名字叫3500winData&#xff09; 然后新建一个挂载磁盘的目录&#xff0c;我的是/media/zeqi/3500wi…

Java设计模式 —— 【行为型模式】命令模式(Command Pattern) 详解

文章目录 模式介绍优缺点适用场景结构案例实现注意事项 模式介绍 有时候需要向某些对象发送请求&#xff0c;但是并不知道请求的接收者是谁&#xff0c;也不知道被请求的操作是什么。此时希望用一种松耦合的方式来设计程序&#xff0c;使得请求发送者和请求接收者能够消除彼此…

如何很快将文件转换成另外一种编码格式?编码?按指定编码格式编译?如何检测文件编码格式?Java .class文件编码和JVM运行期内存编码?

如何很快将文件转换成另外一种编码格式? 利用VS Code右下角的"选择编码"功能&#xff0c;选择"通过编码保存"可以很方便将文件转换成另外一种编码格式。尤其&#xff0c;在测试w/ BOM或w/o BOM, 或者ANSI编码和UTF编码转换&#xff0c;特别方便。VS文件另…

AnaConda下载PyTorch慢的解决办法

使用Conda下载比较慢&#xff0c;改为pip下载 复制下载链接到迅雷下载 激活虚拟环境&#xff0c;安装whl&#xff0c;即可安装成功 pip install D:\openai.wiki\ChatGLM2-6B\torch-2.4.1cu121-cp38-cp38-win_amd64.whl

opencv摄像头标定程序实现

摄像头标定是计算机视觉中的一个重要步骤&#xff0c;用于确定摄像头的内参&#xff08;如焦距、主点、畸变系数等&#xff09;和外参&#xff08;如旋转矩阵和平移向量&#xff09;。OpenCV 提供了方便的工具来进行摄像头标定。下面分别给出 C 和 Python 的实现。 1. C 实现…

UE5AI感知组件

官方解释&#xff1a; AI感知系统为Pawn提供了一种从环境中接收数据的方式&#xff0c;例如噪音的来源、AI是否遭到破坏、或AI是否看到了什么。 AI感知组件&#xff08;AIPerception Component&#xff09;是用于实现游戏中的非玩家角色&#xff08;NPC&#xff09;对环境和其…

Python生日祝福烟花

1. 实现效果 2. 素材加载 2个图片和3个音频 shoot_image pygame.image.load(shoot(已去底).jpg) # 加载拼接的发射图像 flower_image pygame.image.load(flower.jpg) # 加载拼接的烟花图 烟花不好去底 # 调整图像的像素为原图的1/2 因为图像相对于界面来说有些大 shoo…

智能手机租赁系统全新模式改变消费习惯与商家盈利路径

内容概要 智能手机租赁系统的崛起&#xff0c;让我们瞄到了一个消费市场的新风向标。想象一下&#xff0c;传统上人们总是为了最新款手机奋不顾身地排队、借钱甚至是透支信用卡。现在&#xff0c;通过灵活的租赁选项&#xff0c;消费者可以更加随意地体验高科技产品&#xff0…

【简博士统计学习方法】第1章:3. 统计学习方法的三要素

3. 统计学习方法的三要素 3.1 监督学习的三要素 3.1.1 模型 假设空间&#xff08;Hypothesis Space&#xff09;&#xff1a;所有可能的条件概率分布或决策函数&#xff0c;用 F \mathcal{F} F表示。 若定义为决策函数的集合&#xff1a; F { f ∣ Y f ( X ) } \mathcal{F…

牛客网刷题 ——C语言初阶(2分支和循环-for)——打印菱形

1. 题目描述 用C语言在屏幕上输出以下图案&#xff1a; 2. 思路 我是先上手&#xff0c;先把上半部分打印出来&#xff0c;然后慢慢再来分析&#xff0c;下面这是我先把整个上半部分打印出来&#xff0c;因为空格不方便看是几个&#xff0c;这里先用&代替空格了 然后这里…

STM32——系统滴答定时器(SysTick寄存器详解)

文章目录 1.SysTick简介2.工作原理3.SysTick寄存器4.代码延时逻辑5.附上整体代码6.一些重要解释 1.SysTick简介 Cortex-M处理器内集成了一个小型的名为SysTick(系统节拍)的定时器,它属于NVIC的一部分,且可以产生 SysTick异常(异常类型#15)。SysTick为简单的向下计数的24位计数…

《Opencv》信用卡信息识别项目

目录 一、项目介绍 二、数据材料介绍 1、模板图片&#xff08;1张&#xff09; 2、需要处理的信用卡图片&#xff08;5张&#xff09; 三、实现过程 1、导入需要用到的库 2、设置命令行参数 3、模板图像中数字的定位处理 4、信用卡图像处理 5、模板匹配 四、总结 一…

密码学科普

1 信息传输中的安全隐患 1. 窃听 解决方案&#xff1a;明文加密&#xff0c;X只能窃听到密文 2. 假冒 解决方案&#xff1a;消息认证码或者数字签名 3. 篡改 解决方案&#xff1a;消息认证码或者数字签名 4. 事后否认 解决方案&#xff1a;数字签名 2 对称加密/非对称加密 1…

复合机器人助力手机壳cnc加工向自动化升级

在当今竞争激烈的制造业领域&#xff0c;如何提高生产效率、降低成本、提升产品质量&#xff0c;成为众多企业面临的关键挑战。尤其是在手机壳 CNC 加工这一细分行业&#xff0c;随着市场需求的持续增长&#xff0c;对生产效能的要求愈发严苛。而复合机器人的出现&#xff0c;正…

爬虫学习记录

1.概念 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 通用爬虫:抓取的是一整张页面数据聚焦爬虫:抓取的是页面中的特定局部内容增量式爬虫:监测网站中数据更新的情况,只会抓取网站中最新更新出来的数据 robots.txt协议: 君子协议,网站后面添加robotx.txt…

黑马头条平台管理实战

黑马头条 08平台管理 1.开始准备和开发思路1.1.开发网关1.2编写admin-gateway 代码 2.开发登录微服务2.1编写登录微服务 3.频道管理4.敏感词管理5.用户认证审核6.自媒体文章人工审核99. 最后开发中碰到的问题汇总1.关于nacos 配置 问题2.在开发频道管理新增频道后端无法接收到前…

实验四 数组和函数

实验名称 实验四 数组和函数 实验目的 &#xff08;1&#xff09;掌握一维、二维数组以及字符数组的定义、元素引用和编程方法。 &#xff08;2&#xff09;掌握字符串常用程序的设计方法。 &#xff08;3&#xff09;掌握函数定义和调用的方法&#xff0c;以及函数参数传…

Idea(中文版) 项目结构/基本设置/设计背景

目录 1. Idea 项目结构 1.1 新建项目 1.2 新建项目的模块 1.3 新建项目模块的包 1.4 新建项目模块包的类 2. 基本设置 2.1 设置主题 2.2 设置字体 2.3 设置注释 2.4 自动导包 2.5 忽略大小写 2.6 设置背景图片 3. 项目与模块操作 3.1 修改类名 3.2 关闭项目 1. I…

Android Audio基础(53)——PCM逻辑设备Write数据

1. 前言 本文,我们将以回放(Playback,播放音频)为例,讲解PCM Data是如何从用户空间到内核空间,最后传递到Codec。 在 ASoC音频框架简介中,我们给出了回放(Playback)PCM数据流示意图。: 对于Linux来说,由于分为 user space 和kernel space,而且两者之间数据不能随便…

Android Audio基础(54)——数字音频接口 I2S、PCM(TDM) 、PDM

1. 概述 本文介绍的数字音频接口全部是硬件接口,是实际的物理连线方式,即同一个PCB板上IC芯片和IC芯片之间的通讯协议。 PCM、PDM也可以用于表示音频编码格式,。编码格式是指模拟信号数字化的方式。 I2S和PCM(TDM)接口传输的数据是PCM格式的音频数据。这两种协议是最为常见…