大模型的自我监督

news2024/11/29 4:37:09

大家好啊,我是董董灿。

之前有小伙伴私信我,想了解下大模型比如 chatGPT 是如何进行训练的。

和他们聊了一下,发现有一个点一直困惑着大家,那就是:大模型的训练是无监督学习还是有监督学习?在大模型训练过程中,数据的标签是什么?如何计算损失然后进行反向传播的呢?

今天就和大家简单来聊一下这个问题。

1、是有监督还是无监督

事实上,很多自然语言处理(NLP)的模型,尤其是上文提到的大语言模型(如GPT系列),都是通过无监督学习或自监督学习的方式进行训练的。

也就是说它们不需要人工标注的标签来进行训练。

试想一下,训练 GPT 的数据样本大多来自于互联网,如果需要对这些数据进行标注的话,会花费大量的人力,并且很多长文本是没有办法或者很难去标注的。

因此这类模型的训练采用的基本是自监督学习的模式。

自监督学习可以认为是无监督学习的一种特殊方式。

模型通过从输入数据本身生成的伪标签来进行训练,这些伪标签不是由人工标注的,而是由模型根据一定的规则自动生成的。

常见的自监督学习任务模型有以下两种。

第一种是掩码语言模型(Masked Language Model, MLM),这是 BERT 等模型使用的一种训练方法。

它将其中一部分输入词进行随机掩码(替换为一个特殊的掩码符号),模型的任务就是是预测这些被掩码的词。

这样,模型就能学习到词与上下文之间的关系,有点类似于让模型不断进行完形填空的意思。

第二种是因果语言模型(Causal Language Model, CLM),这是 GPT 系列模型使用的一种训练方法。

在这种训练模式下,模型被训练来预测给定前文的下一个词,这样,模型就能学习到文本的顺序结构和语言的生成过程。

说到这你可能还不完全清楚,看下面的例子就明白了。

2、GPT 的训练过程

以因果语言模型的训练为例,假设给模型的输入数据是:The quick brown fox jumps over the lazy" 这句话。

当然实际训练时,输入给模型的数据还会经过 Tokenization、词嵌入和位置编码这些步骤,但是我们这里先绕过,不影响理解。

在 GPT 等模型的训练时,如果给定上述句子作为模型的输入,是希望模型可以预测出下一个词是什么,这是模型的任务。

因此,每给定一个单词(Token),模型都要预测下一个词,然后将预测出来的词加上原来已有的词作为新的输入,继续预测下一个词,如此反复迭代。

将训练过程写出伪代码是如下形式。

# 假设:# - input_tokens 是输入序列# - target_tokens 是目标序列# - transformer_model 是一个Transformer模型# - optimizer 是用于优化模型参数的优化器# - loss_function 是损失函数,例如交叉熵损失
for epoch in range(num_epochs):  # 迭代多个训练周期  for input_tokens, target_tokens in data_loader:    # 1. 模型输入    # 将输入token转换为嵌入向量,进行词嵌入和位置编码    input_embeddings = embedding_layer(input_tokens)    position_embeddings = get_position_embeddings(input_embeddings)     transformer_input = input_embeddings + position_embeddings
    # 2. Transformer模型    # 通过Transformer模型得到输出    transformer_output = transformer_model(transformer_input)  
    # 3. 模型输出和损失计算    # 将Transformer输出转换为logits    logits = output_layer(transformer_output)    loss = loss_function(logits, target_tokens)  # 计算损失
    # 4. 梯度下降和反向传播    optimizer.zero_grad()  # 清除之前的梯度    loss.backward()  # 反向传播,计算梯度    optimizer.step()  # 更新模型参数

上面的 input_tokens 就可以认为是输入的一句话。

可以看到在计算损失的时候,比较的是模型的输出和 target_tokens 的损失。

模型的输出我们好理解,就是模型预测的下一个词,那么target_tokens 是什么呢?

上面说到自监督学习的时候,说到一句话:“自监督学习中的伪标签是模型通过一定的规则生成的”。

target_tokens 就是伪标签,因为模型需要预测下一个词,因此“一定的规则”就是对输入 token 往后移一位来实现的,如下所示。

图片

input_tokens 是原始句子中的单词序列,而 target_tokens 是这个序列向右移动一个位置的结果。

在训练过程中,模型会试图根据 input_tokens 中的每个词来预测 target_tokens 中的下一个词。

例如,给定输入 "The",模型应该预测输出 "quick";然后将 "The" 和 "quick "合成新的输入 "The quick" 给模型,模型应该预测出 "brown",以此类推。

这样经过大量甚至是海量的文本数据的自监督学习,模型就可以学到很多自然语言的结构和句式了。

大语言模型也就训练完成了。

当然上面的过程说的很粗糙,仅仅是想让大家先搞清楚自监督学习这个概念,以及实际模型训练时,模型是如何自我监督的。

关于 token 的详细理解,可以参考这篇文章:5分钟了解什么是 token。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1599066.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【学习笔记十三】EWM常见上架策略介绍

一、手工维护上架策略 系统不确定Storage type 和 bin,需要在创建仓库任务时或者确认仓库任务时手工输入仓位 1.后台配置-定义存储类型的类型0010 ①存储行为:标准仓位 ②入库规则:空仓未或添加至现有库存/空仓位 ③通用仓库任务&#x…

sky08、09笔记常用组合逻辑电路

本节的目的是为了更好的预估delay。 1.1bit全加器 module fadd_1b( a, b, cin, s, cout ); input wire a,b,cin; output wire s,cout;wire p,g; assign p a|b;//propagate carry assign g a&b;//generate carry assign s a^b^cin; assign cout (p&cin)|g; endmodu…

Vue3实现pdf本地预览功能

一、先直接看看效果吧 放大后 缩小后 也可以分页显示 二、选用vue-pdf-embed和vue3-pdfjs的原因 选用这两个的插件是因为如果实现pdf预览其实使用iframe标签就可以的,但是使用iframe标签实现的比较臭,vue-pdf-embed是能够自定义样式的,更…

本地做好准备上传到Git分支,发现git上已经更新了,上传到dev分支

git add . git commit -m 备注 git pull --rebase origin dev 拉取dev上的代码合并到本地 git push -u origin dev推到远程dev上(注意着可能不是最后一步,先看完) 如果报错,意思是本地没有dev分支,没办法上传到git上…

高风险IP的来源及其影响

随着互联网的发展,网络安全问题越来越引人关注。其中,高风险IP的来源成为了研究和讨论的焦点之一。高风险IP指的是那些经常涉及到网络攻击、恶意软件传播以及其他不良行为的IP地址。它们的存在不仅对个人和组织的网络安全构成威胁,还可能给整…

JIT在汽车行业中的革命性应用:颠覆传统制造模式,引领智能制造新时代

随着科技的飞速发展和市场竞争的日益激烈,汽车行业正面临着前所未有的变革。其中,准时制生产(Just-In-Time,简称JIT)作为一种先进的生产管理方式,已经在汽车行业中得到了广泛应用,成为推动汽车产…

算法刷题应用知识补充---数论

这里写目录标题 快速幂求a^k%p题结 快速幂求逆元题结 扩展欧几里得求逆元题结 排列组合题结二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 快速幂求a^k%p 题 结 主要用到a的k次方,可以用多个a的…

经久耐用特氟龙材质塑料烧杯PFA坩埚耐受强酸强碱耐高温

PFA烧杯在实验过程中可作为储酸容器或涉及强酸强碱类实验的反应容器,用于盛放样品、试剂,可搭配电热板加热、蒸煮、赶酸用。 PFA烧杯规格参考:10ml、30ml、50ml、100ml、250ml、500ml、1000ml、2000ml。 外壁均有凸起刻度,直筒设…

模型剪枝中的预训练权重真的有用么?重新思考模型剪枝的价值

论文地址:https://arxiv.org/pdf/1810.05270.pdf 发表时间:2019年3月5日 相关笔记:https://blog.csdn.net/qq_19784349/article/details/107202447 Liu等人的多项实验结果表面对剪枝模型进行微调只能提供比使用随机初始化权值训练该模型相当…

LeetCode 面试经典150题 202.快乐数

题目: 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。如果这个过程 结…

基于arduino的ESP32上蓝牙midi音乐设备开发教程

目录 简介 开发环境 开发过程 函数介绍 相关文章 简介 首先看几个视频,大佬们做的东西,都是基于esp32。 自制卡林巴电子琴,可通过蓝牙连接手机库乐队 MIDI Boy【理科生的第一件乐器】_哔哩哔哩_bilibili 【Totoro】模仿“埙”的电子吹…

动态规划|01背包理论基础

卡码网 第46题 //二维dp数组实现 #include <bits/stdc.h> using namespace std;int n, bagweight;// bagweight代表行李箱空间 void solve() {vector<int> weight(n, 0); // 存储每件物品所占空间vector<int> value(n, 0); // 存储每件物品价值for(int i …

每帧纵享丝滑——ToDesk云电脑、网易云游戏、无影云评测分析及ComfyUI部署

目录 一、前言二、云电脑性能测评分析2.1、基本配置分析2.1.1、处理器方面2.1.2、显卡方面2.1.3、内存与存储方面2.1.4、软件功能方面 2.2、综合跑分评测 三、软件应用实测分析3.1、云电竞测评3.2、AIGC科研测评——ComfyUI部署3.2.1、下载与激活工作台3.2.2、加载模型与体验3.…

Java(120):使用Java对TiDB数据库批量写入数据

使用Java对TiDB数据库批量写入数据 1、前言&#xff1a; 本次对TiDB数据库测试需要1w条数据&#xff0c;如果MySQL可用存储过程造数&#xff0c;结果发现TiDB用不了。只能想其他办法&#xff0c;一种是Java直接批量插入&#xff0c;一种是Jmeter插入。这里用的Java插入。 如果…

最新常见的图数据库对比,选型,架构,性能对比

图数据库排名 地址&#xff1a;https://db-engines.com/en/ranking/graphdbms 知识图谱查询语言 SPARQL、Cypher、Gremlin、PGQL 和 G-CORE 语法 / 语义 / 特性SPARQLCypherGremlinPGQLG-CORE图模式匹配查询语法CGPCGPCGP(无可选)1CGPCGP语义子图同态、包 2无重复边、包 2子…

appium图像识别之images-plugin插件

在进行App自动化测试的过程中&#xff0c;由于页面的复杂性&#xff0c;需要根据页面的技术实现&#xff0c;通过上下文来切换不同的定位类型&#xff0c;给定位元素的稳定性带来了不小的挑战&#xff1b;图像识别技术则不依赖于页面本身是用什么技术实现的&#xff0c;只要能识…

Dubbo面试回答简单版

一、dubbo特性 超时重试机制地址缓存多版本负载均衡&#xff1a;随机、权重轮询、最少活跃调用、一致性哈希集群容错&#xff1a;失败重试、快速失败、失败安全、失败自动恢复、并行调用、广播服务降级&#xff1a;异常时返回mock 集群容错 FailOver 失败重试&#xff0c;读…

k8s基础入门

前言 开始学习K8S了&#xff0c;下面就是笔记整理 简介 k8s是谷歌开源得容器管理系统&#xff0c;主要功能包括 基于容器得应用部署&#xff0c;维护和滚动升级负载均衡和服务发现跨机器和跨地区得集群调度自动伸缩无状态服务和有状态服务广泛得Volume支持插件保持扩展性 …

【MySQL | 第六篇】数据库三大范式

文章目录 6.数据库设计三大范式6.1第一范式6.2第二范式6.3第三范式6.4反范式设计 6.数据库设计三大范式 6.1第一范式 第一范式&#xff08;1NF&#xff09;&#xff1a;确保每列的原子性(强调的是列的原子性&#xff0c;即列不能够再分成其他几列)。实际上&#xff0c;第一范式…

探索C++:深入了解这门古老而强大的编程语言

&#x1f482; 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】&#x1f91f; 一站式轻松构建小程序、Web网站、移动应用&#xff1a;&#x1f449;注册地址&#x1f91f; 基于Web端打造的&#xff1a;&#x1f449;轻量化工具创作平台&#x1f485; 想寻找共同学习交…