深度学习 Transformer 的标签平滑(Label Smoothing)

news2024/10/2 0:24:08

01

引言

标签平滑(Label Smoothing)是一种正则化技术,用于深度学习中的分类任务,尤其是在Transformer模型中。它的目的是减少模型对于训练数据中硬标签(hard labels,即标准的one-hot编码)的过度自信,从而提高模型的泛化能力并减少过拟合。

在这里插入图片描述

02

理解

标签平滑的原理

在传统的分类任务中,模型的输出通常通过softmax函数转换为概率分布,然后使用交叉熵损失函数与硬标签(one-hot编码)进行比较。硬标签意味着模型完全确定某个类别是正确的,其他所有类别都是错误的。这种方法可能会导致模型在训练数据上过拟合,因为它鼓励模型对正确类别的预测非常自信。

标签平滑通过将硬标签(hard labels)转换为软标签(soft labels)来解决这个问题。在软标签中,正确类别的概率不再是1,而是稍微小一些的值(例如,0.9),同时其他类别的概率也不再是0,而是分配了一个小的正数(例如,0.1 / 类别数)。

这意味着原本标签为1的位置会乘以一个小于1的因子(平滑系数),而原来为0的位置则会被赋予一个非零的值(平滑系数除以类别数K),这样就在标签中引入了一定的噪声。

标签平滑的公式

标签平滑的计算公式如下:

在这里插入图片描述

举例说明

假设我们有一个3分类问题,类别为A、B、C。在没有标签平滑的情况下,如果一个样本属于类别A,那么它的硬标签将是[1, 0, 0]。

在这里插入图片描述

标签平滑的优势在于

提升泛化能力:通过减少模型对硬标签的依赖,增加了模型在训练时的不确定性,使模型在面对未见过的数据时更加鲁棒。

降低过拟合风险:模型不会过分自信于任何一个类别,这有助于减轻过拟合现象。

改善模型校准:有助于提高模型预测值的置信度与实际准确度之间的一致性。

在这里插入图片描述

03

在Transformer中的应用

在Transformer模型中,标签平滑通常与交叉熵损失函数结合使用。这种结合的目的是在训练过程中提高模型的泛化能力,减少过拟合,并提高模型对不确定性的处理能力。下面详细解释这个结合是如何工作的:

交叉熵损失函数

在分类问题中,交叉熵损失函数(Cross-Entropy Loss)是衡量模型输出的概率分布与真实标签的概率分布之间差异的常用方法。对于多分类问题,交叉熵损失可以定义为:

其中:

  • ( p ) 是真实标签的概率分布(在标签平滑的情况下,这是平滑后的软标签)。

  • ( q ) 是模型预测的概率分布。

标签平滑的应用

在标签平滑中,真实标签 ( p ) 不再是硬编码的one-hot向量,而是变成了软标签。例如,对于一个类别为 ( C ) 的正确标签,其one-hot表示为 ( [0, 0, …, 1, …, 0] ) (类别 ( C ) 位置为1),在标签平滑后,它会变成 ( [e/K, e/K, …, 1-e, …, e/K] ) ,其中 ( e ) 是一个小于1的平滑系数(如0.1),( K ) 是类别总数。

标签平滑与交叉熵损失的结合

当使用标签平滑的软标签与交叉熵损失结合时,模型的损失函数变为:

举例说明

假设我们有一个3分类问题,模型预测一个样本属于类别A的概率为0.8,属于类别B和C的概率各为0.1。如果未使用标签平滑,真实标签为[1, 0, 0]。使用标签平滑,假设平滑系数为0.1,则真实标签变为[0.9, 0.05, 0.05]。

交叉熵损失计算如下:

这种计算方式使得模型即使对于非常有信心的预测也不会过于自信,因为其他类别的非零概率增加了模型的不确定性,从而鼓励模型在训练过程中考虑到更多类别的可能性。

标签平滑与交叉熵损失的结合使用,通过引入软标签,提高了模型对于标签噪声的鲁棒性,减少了模型在训练数据上的过拟合,从而在实际应用中提高了模型的泛化能力。这种技术在Transformer模型中尤其有用,因为Transformer模型通常用于复杂的序列建模任务,如机器翻译、文本摘要等,这些任务中标签的不确定性较高。

04

小结

在Transformer模型中,标签平滑通常用于处理语言模型的输出。例如,在机器翻译任务中,模型需要预测下一个单词的概率分布。使用标签平滑可以防止模型对于任何单个预测过于自信,从而提高模型在面对新的、未见过的数据时的鲁棒性。

在Transformer模型中,标签平滑通常与交叉熵损失函数结合使用。通过对标签进行平滑处理,模型的输出不再是绝对的one-hot分布,而是更加平滑的概率分布,这有助于模型在训练过程中学习到更加合理的概率边界。

在实际应用中,标签平滑的平滑系数是一个超参数,需要根据具体任务和数据集进行调整。此外,标签平滑也可以与其他正则化技术(如Dropout、权重衰减等)结合使用,以达到更好的效果。

总之,标签平滑是一种简单而有效的技术,可以在不牺牲太多预测精度的情况下,提高模型的泛化能力和鲁棒性。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2183449.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

期权卖方怎么选择权利金高的品种,期货VIX高低对行情有什么影响

VIX指数——全称为芝加哥期权交易所市场波动率指数,俗称恐慌指数。 是衡量波动性的重要指标。VIX指数上升,预期未来市场波动性会增加。VIX指数下降,预期未来市场波动性会降低。 期货VIX指数最新价格排序 期权卖方尽量选择期货VIX指数在25以…

【亲测】windows快捷键冲突检测(可删除)-OpenArk

官方下载链接:Releases BlackINT3/OpenArk (github.com) CSDN下载链接:【免费】windows快捷键冲突检测:OpenArk-v1.3.6.zip资源-CSDN文库 内核 -> 系统热键 -> 进入内核模式

10.2 Linux_并发_进程相关函数

创建子进程 函数声明如下: pid_t fork(void); 返回值:失败返回-1,成功返回两次,子进程获得0(系统分配),父进程获得子进程的pid 注意:fork创建子进程,实际上就是将父进程复制一遍作为子进程&…

深度学习500问——Chapter17:模型压缩及移动端部署(3)

文章目录 17.7 压缩和加速方法如何选择 17.8 改变网络结构设计为什么会实现模型压缩、加速 17.8.1 Group convolution 17.8.2 Depthwise separable convolution 17.8.3 输入输出的channel相同时,MAC最小 17.8.4 减少组卷积的数量 17.8.5 减少网络碎片化程度&#xf…

【Vue】vue2项目打包后部署刷新404,配置publicPath ./ 不生效问题

Vue Router mode,为 history 无效,建议使用默认值 hash;

C++语言学习(2): name lookup 的概念

何谓 name lookup C 中很重要的一个概念:name lookup。 当编译器在遇到一个 name 的时候, 会做查找(lookup),会把引入这个 name 的声明和它关联起来,具体来说,又包含两种类型的 lookup&#xf…

深蕾半导体Astra™ SL1620详细介绍,嵌入式物联网处理器

一,SL1620是什么 Astra™ SL系列是深蕾半导体推出的高度集成的嵌入式物联网处理器SoC(System on Chip)系列产品,专为多模式消费者、企业和工业物联网工作负载而设计。SL1620是Astra™ SL系列中的一款成本和功耗优化的安全嵌入式So…

数据结构-3.8.栈在括号匹配中的应用

一.括号匹配问题: 1.例一: 把左括号依次压入栈中,越往后压入栈的左括号越先被匹配即被弹出栈->先进后出,后进先出 2.例二: 当遇到左括号就压入栈中,当遇到右括号就把栈顶的左括号弹出,检查…

计算机毕业设计 基于协同过滤算法的个性化音乐推荐系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

Linux系统命令:用于改变用户的登录 Shell 的命令chsh命令详解

目录 一、概述 二、用法 1、基本用法 2、常用选项 3、获取帮助 三、示例 1. 更改当前用户的登录 Shell 2. 更改其他用户的登录 Shell 3、列出所有可用的 shell 四、 注意事项 1、已经安装好 2、权限 3、密码验证 4、shell 路径 5、生效时间 五、示例输出 一、概…

mfc140u.dll缺失?快速解决方法全解析,解决mfc140u.dll错误

当你的电脑出现找不到mfc140u.dll的问题,不少用户在使用电脑时陷入了困扰。这个错误提示就像一道屏障,阻挡了用户正常使用某些软件。无论是办公软件、游戏还是专业的设计工具,一旦出现这个问题,都会导致软件无法正常运行。如果您也…

复数表示的电场

Exm加是复振幅,这是用复数表示电场,并提取只与空间有关的项复振幅就是复数表示电场,且把与空间xyz有关的量提取出来 经过验证实数E0cos(wtδx)对t求导,等于E0e^j(wtδx)对t求导再取实部 实数表示电磁波cos…

Windows11系统下SkyWalking环境搭建教程

目录 前言SkyWalking简介SkyWalking下载Agent监控实现启动配置SkyWalking启动Java应用程序启动Elasticsearch安装总结 前言 本文为博主在项目环境搭建时记录的SkyWalking安装流程,希望对大家能够有所帮助,不足之处欢迎批评指正🤝&#x1f91…

openpnp - 底部相机高级校正的参数设置

文章目录 openpnp - 底部相机高级校正的参数设置概述笔记修改 “Radial Lines Per Calibration Z” 的方法不同 “Radial Lines Per Calibration Z”的校验结果不同 “Radial Lines Per Calibration Z”的设备校验动作的比较总结备注END openpnp - 底部相机高级校正的参数设置 …

5G NR物理信道简介

文章目录 NR 上行物理信道PRACHPUCCHPUSCH NR 下行物理信道PBCHPDCCHPDSCH NR 上行物理信道 PRACH PRACH(Physical Random Access Channel)物理随机接入信道,用于传导preamble 序列。PRACH 由循环前缀CP、前导序列和保护间隔三部分组成。 PUCCH PUCCH…

相互作用的检索增强 3D 分子生成扩散模型 - IRDiff 评测

IRDiff 是一个全新的基于蛋白质-配体相互作用的检索增强 3D 分子扩散模型,可以生成目标感知的分子。IRDiff 利用一组设计好的参考配体分子来引导扩散模型生成满足目标特性的分子。 一、背景介绍 IRDiff 来源于清华大学深圳国际研究生院的杨文明教授和鹏城实验室的王…

通信工程学习:什么是POP3邮局协议版本3

POP3:邮局协议版本3 POP3(Post Office Protocol - Version 3),即邮局协议版本3,是TCP/IP协议族中的一员,由RFC1939定义。它是一种用于电子邮件接收的协议,主要规定了个人计算机如何连接到互联网…

OpenCV C++ 图像处理实战 ——《基于轮廓比对的缺陷检测》

OpenCV C++ 图像处理实战 ——《基于轮廓比对的缺陷检测》 一、结果演示二、图像预处理三、基于轮廓比对的缺陷检测3.1 计算平移分量3.2 计算旋转角度3.3 缺陷检测3.4 缺陷绘制四、源码测试图像下载总结一、结果演示 二、图像预处理 本文主要是基于轮廓匹配进行缺陷识别,最主…

STM32F103C8T6的平衡小车设计(基于FreeRTOS框架)

github主页:https://github.com/snqx-lqh gitee主页:https://gitee.com/snqx-lqh 本项目github地址:https://github.com/snqx-lqh/Stm32BalanceCar 本项目gitee地址:https://gitee.com/snqx-lqh/stm32-balance-car 欢迎交流 项目介…