3分钟掌握大模型训练全流程

news2024/9/28 13:35:10

之前有小伙伴私信我,想了解下大模型比如 chatGPT 是如何进行训练的。

和他们聊了一下,发现有一个点一直在困惑着大家,那就是——

大模型的训练是无监督学习还是有监督学习?在大模型训练过程中,数据的标签是什么?如何计算损失然后进行反向传播的呢?

今天就简单来聊一下这个问题。

1、是有监督还是无监督

事实上,很多自然语言处理(NLP)的模型,尤其是上文提到的大语言模型(如GPT系列),都是通过无监督学习或自监督学习的方式进行训练的。

也就是说它们不需要人工标注的标签来进行训练。

试想一下,训练 GPT 的数据样本大多来自于互联网,如果需要对这些数据进行标注的话,会花费大量的人力,并且很多长文本是没有办法或者很难去标注的。

因此这类模型的训练采用的基本是自监督学习的模式。

自监督学习可以认为是无监督学习的一种特殊方式。

模型通过从输入数据本身生成的伪标签来进行训练,这些伪标签不是由人工标注的,而是由模型根据一定的规则自动生成的。

常见的自监督学习任务模型有以下两种。

第一种是掩码语言模型(Masked Language Model, MLM),这是 BERT 等模型使用的一种训练方法。

它将其中一部分输入词进行随机掩码(替换为一个特殊的掩码符号),模型的任务就是是预测这些被掩码的词。

这样,模型就能学习到词与上下文之间的关系,有点类似于让模型不断进行完形填空的意思。

第二种是因果语言模型(Causal Language Model, CLM),这是 GPT 系列模型使用的一种训练方法。

在这种训练模式下,模型被训练来预测给定前文的下一个词,这样,模型就能学习到文本的顺序结构和语言的生成过程。

说到这你可能还不完全清楚,看下面的例子就明白了。

2、GPT 的训练过程

以因果语言模型的训练为例,假设给模型的输入数据是:The quick brown fox jumps over the lazy" 这句话。

当然实际训练时,输入给模型的数据还会经过 Tokenization、词嵌入和位置编码这些步骤,但是我们这里先绕过,不影响理解。

在 GPT 等模型的训练时,如果给定上述句子作为模型的输入,是希望模型可以预测出下一个词是什么,这是模型的任务。

因此,每给定一个单词(Token),模型都要预测下一个词,然后将预测出来的词加上原来已有的词作为新的输入,继续预测下一个词,如此反复迭代。

将训练过程写出伪代码是如下形式。

# 假设:
# - input_tokens 是输入序列
# - target_tokens 是目标序列
# - transformer_model 是一个Transformer模型
# - optimizer 是用于优化模型参数的优化器
# - loss_function 是损失函数,例如交叉熵损失
for epoch in range(num_epochs):  # 迭代多个训练周期
  for input_tokens, target_tokens in data_loader:
    # 1. 模型输入
    # 将输入token转换为嵌入向量,进行词嵌入和位置编码
    input_embeddings = embedding_layer(input_tokens)
    position_embeddings = get_position_embeddings(input_embeddings)
    transformer_input = input_embeddings + position_embeddings
    # 2. Transformer模型
    # 通过Transformer模型得到输出
    transformer_output = transformer_model(transformer_input)
    # 3. 模型输出和损失计算
    # 将Transformer输出转换为logits
    logits = output_layer(transformer_output)
    loss = loss_function(logits, target_tokens) # 计算损失
    # 4. 梯度下降和反向传播
    optimizer.zero_grad()  # 清除之前的梯度
    loss.backward()  # 反向传播,计算梯度
    optimizer.step() # 更新模型参数

上面的 input_tokens 就可以认为是输入的一句话。

可以看到在计算损失的时候,比较的是模型的输出和 target_tokens 的损失。

模型的输出我们好理解,就是模型预测的下一个词,那么target_tokens 是什么呢?

上面说到自监督学习的时候,说到一句话:“自监督学习中的伪标签是模型通过一定的规则生成的”。

target_tokens 就是伪标签,因为模型需要预测下一个词,因此“一定的规则”就是对输入 token 往后移一位来实现的,如下所示。

input_tokens 是原始句子中的单词序列,而 target_tokens 是这个序列向右移动一个位置的结果。

在训练过程中,模型会试图根据 input_tokens 中的每个词来预测 target_tokens 中的下一个词。

例如,给定输入 “The”,模型应该预测输出 “quick”;然后将 “The” 和 "quick "合成新的输入 “The quick” 给模型,模型应该预测出 “brown”,以此类推。

这样经过大量甚至是海量的文本数据的自监督学习,模型就可以学到很多自然语言的结构和句式了。

大语言模型也就训练完成了。

当然上面的过程说的很粗糙,仅仅是想让大家先搞清楚自监督学习这个概念,以及实际模型训练时,模型是如何自我监督的。

关于 token 的详细理解,可以参考之前写的这篇文章:[5分钟了解什么是 token]

相信看完之后,你会对大模型的训练有一个更加清晰的认识了吧。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2173652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安利!4款录屏神器,2024年你用过几款?

如今在线教育越来越流行,老师们和教育工作者急需一个好用的录屏工具。到了2024年,OBS录屏软件因其强大的功能和稳定性,成了大家特别关注的焦点。那它到底有啥亮点呢?还有没有其他录屏软件也值得一看呢? 1. 福昕专业录…

反距离加权插值(IDW)讲解与MATLAB代码

文章目录 反距离加权插值(IDW)基本原理1.权重分配:2.插值计算:代码构成代码讲解已知数据点定义:创建查询点:IDW 插值参数:IDW 插值函数:计算插值值:绘图:源代码运行结果反距离加权插值(IDW) 反距离加权插值(IDW,Inverse Distance Weighting)是一种常用的空间插…

影视站群程序大对比,苹果cmsv10 vs海洋cms

在影视站群程序领域,苹果CMSv10和海洋CMS是两款备受站长们青睐的程序。它们分别具备各自的优势,适合不同需求的站群管理和优化。以下是两者的详细对比,并重点介绍苹果CMS的主要优势和插件功能。 苹果CMSv10简介 maccmscn 苹果CMSv10&#x…

解决银河麒麟V10向日葵远程连接断开问题

解决银河麒麟V10向日葵远程连接断开问题 方法一:重启系统方法二:执行xhost 命令 💖The Begin💖点点关注,收藏不迷路💖 当你在银河麒麟桌面操作系统V10上使用向日葵进行远程连接时,如果遇到频繁断…

小爱心换着玩

使用Python画出小人发射爱心的代码 from turtle import * from time import sleepdef go_to(x, y):up()goto(x, y)down()def head(x,y,r):go_to(x,y)speed(1)circle(r)leg(x,y)def leg(x,y):right(90)forward(180)right(30)forward(100)left(120)go_to(x,y-180)forward(100)ri…

大模型与智能体的市场调研分析

2024年,很多人都在谈论智能体,我老婆这样的美术老师,也让我给她科普一下,于是我花了几天时间,系统学习和深入调研了一下,在此分享给大家。 时代背景 人工智能就像电力一样,如果你的竞争对手正…

【二十七】【QT开发应用】VS如何复制项目,QT无边窗窗口Pro版本,信号与信号槽的应用,背景图片自适应控件大小

VS复制项目 在使用VS的过程中,有的时候我们需要复制我们已经存在的项目. 我们可以先创建一个新的项目. 接着把需要复制的项目的文件复制粘贴到新的项目文件夹中. 不要忘记添加现有项目. CFrameLessWidgetBase.h #pragma once #include <QWidget> class CFrameLessWi…

2025秋招内推--招联金融

【投递方式】 直接扫下方二维码&#xff0c;或点击内推官网https://wecruit.hotjob.cn/SU61025e262f9d247b98e0a2c2/mc/position/campus&#xff0c;使用内推码 igcefb 投递&#xff09; 【招聘岗位】 后台开发 前端开发 数据开发 数据运营 算法开发 技术运维 软件测试 产品策…

【AHK】打造炒股利器系列——用数组和循环来简化语音报时器

上一篇文章&#xff0c;【AHK】打造炒股利器系列——语音报时器 作为AHK入门&#xff0c;讲解了 注释、赋值、if语句、逻辑运算符、定时器等基本知识。本篇将引入Array和Loop语句来简化化这个语音报时器&#xff0c;让代码更优雅&#xff0c;代码越简单越不容易出错误&#xff…

JavaWeb——Vue组件库Element(2/6):常见组件:Table表格、Pagination分页(介绍,属性,事件)

目录 常见组件-表格 介绍 属性 常见组件-分页 介绍 属性 事件 了解完了 Element 的快速入门程序之后&#xff0c;接下来要了解 Element 当中所提供的一些常见组件。对于 Element 当中常见组件的学习非常简单&#xff0c;基本上就是 CtrlC 复制、CtrlV 粘贴的过程。学习…

在 CentOS 8 服务器上运行 Selenium 代码

1.安装依赖包 sudo dnf update -y sudo dnf install -y wget unzip2. 安装 Google Chrome wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm sudo dnf localinstall google-chrome-stable_current_x86_64.rpm -y3. 安装 ChromeDriver 3.1首…

【深度学习】05-Rnn循环神经网络-01- 自然语言处理概述/词嵌入层/循环网络/文本生成案例精讲

循环神经网络&#xff08;RNN&#xff09;主要用于自然语言处理的。 循环神经网络&#xff08;RNN&#xff09;、卷积神经网络&#xff08;CNN&#xff09;和全连接神经网络&#xff08;FCN&#xff09;是三种常见的神经网络类型&#xff0c;各自擅长处理不同类型的数据。下面…

转做大模型开发,能不能挽救职业生涯?

大模型算是当之无愧最火的一个方向了&#xff0c;算是新时代的风口。有小伙伴觉得&#xff0c;既然是新领域、新方向&#xff0c;那么&#xff0c;人才需求肯定比较大&#xff0c;相应的人才缺乏&#xff0c;竞争也会更少&#xff0c;那转行去做大模型是不是一个更好的选择呢&a…

Leetcode 2320. 统计放置房子的方式数

原题链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 一条街道上共有 n * 2 个 地块 &#xff0c;街道的两侧各有 n 个地块。每一边的地块都按从 1 到 n 编号。每个地块上都可以放置一所房子。 现要求街道同一侧不能存在两所房子相邻的情况&#xff0c;请你计算并…

高并发内存池(五):ThreadCache、CentralCache和PageCache的内存回收机制 及 释放内存过程的调试

目录 ThreadCache的内存回收机制 补充内容1 补充内容2 补充内容3 新增关键函数ListTooLong CentralCache的内存回收机制 补充内容1 新增关键函数MapObjectToSpan 新增关键函数ReleaseListToSpans PageCache的内存回收机制 补充内容1 补充内容2 新增关键函数Releas…

初试React前端框架

文章目录 一、React概述二、React核心特性1、组件化设计2、虚拟DOM3、生态系统 三、实例操作1、准备工作2、创建项目结构3、启动项目4、编写React组件5、添加React样式6、运行项目&#xff0c;查看效果 四、实战小结 一、React概述 大家好&#xff0c;今天我们将一起探索React…

c语言 memmove模拟和momcpy模拟的比较

1.memcpy&#xff08;两者引用的头文件均是<stdlib.h>) 这个函数适用于开辟了两个空间的字符串数组&#xff0c;无法进行自身与自身的拷贝。eg: char* my_memcpy(void* s1, void* s2,int count) {char* start s1;while (count--) {*(char*)s1 *(char*)s2;(char*)s1 …

windows10使用bat脚本安装前后端环境之nginx注册服务

首先需要搞清楚nginx本地是怎么安装配置的、然后在根据如下步骤编写bat脚本&#xff1a; 思路 1.下载nginx-1.26 zip压缩包安装包 2.调整conf配置 3.借助winsw将nginx应用注册为服务&#xff0c;winsw下载地址 然后重命名nginx_service.exe 4.配置nginx-service.xml 5.注册wi…

【运维资料】系统运维管理方案(Doc原件2024)

1 编制目的 2 系统运行维护 2.1 系统运维内容 2.2 日常运行维护方案 2.2.1 日常巡检 2.2.2 状态监控 2.2.3 系统优化 2.2.4 软件系统问题处理及升级 2.2.5 系统数据库管理维护 2.2.6 灾难恢复 2.3 应急运行维护方案 2.3.1 启动应急流程 2.3.2 成立应急小组 2.3.3 应急处理过程 …

【数据结构】栈和队列(有完整的模拟实现代码!)

1、栈 1.1 栈的概念及结构 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶&#xff0c;另一端称为栈底。栈中的数据元素遵守后进先出LIFO&#xff08;Last In First Out&#xff09;的原则。…