TrainingArguments 的ignore_data_skip解释

news2024/9/27 9:20:41

文章目录

  • 0. 背景
  • 1. 官方解释
  • 2. 查看源码
  • 3. 验证
  • 4. 总结


0. 背景

在采用 HuggingFace 提供的 Transformers 库来训练模型时,如果出现模型训练中断的情况,此时我们希望断点接训,TraningArguments 有一个参数:resume_from_checkpoint=True,用来将保存的 Checkpoint 重新拉起接着训练,Checkpoint 保存了模型的状态参数信息。

此时有一个疑问,再次恢复训练后,模型状态恢复了,但是之前训练过的数据还会重头再训练一遍吗?会不会跳过这部分数据?

查询了网上对这个问题的讲解,发现有一个参数: ignore_data_skip ,但是解释不清楚,最终发现很多是错误的,下面就这个参数进行详细解释。

1. 官方解释

我们先看一下 HuggingFace 的官方对 ignore_data_skip 参数的解释,详情参考这里:
在这里插入图片描述
翻译一下:

ignore_data_skip (bool, 可选, 默认 False) 恢复训练时,是否跳过epochs和batches,以便在与前一次训练相同的阶段加载数据。如果设置为True,训练将开始得更快(因为跳过步骤可能需要很长时间),但不会产生与中断训练相同的结果。

从上面的解释来看,默认情况下即 False,会跳过已经处理过的数据,即从新的数据开始处理;如果设置为 True,那么不会跳过已经处理过的数据,还会从已训练过的数据再来开始训练。

2. 查看源码

为了进一步验证上面的解释,只能看一下源码关于这个参数的处理了,在 Python 库的 transformers/trainer.py
在这里插入图片描述
在这里插入图片描述
从上图中可以看出几点:

  1. 当设置了 resume_from_checkpoint=True 之后,epochs 都会恢复,ignore_data_skip 并不会影响已经训练过的 epoch。例如,之前模型训练了2个epoch,并且在第3个epoch的1000步中断了,那么恢复后的epoch还是从第3个开始;
  2. 设置 ignore_data_skip=True 会在恢复后的 epochs 从头开始训练。例如,之前模型训练了2个epoch,并且在第3个epoch的1000步中断了,那么设置 ignore_data_skip=True,就会从第3个epoch的0步开始训练。如果设置 ignore_data_skip=False 则接着1000步训练。

3. 验证

例如此次训练,中间断了很多次,重新拉起训练后还是基本上接着后面训练,并未从0开始。
在这里插入图片描述

4. 总结

断点重训,设置了 resume_from_checkpoint=True 后,一般情况下 ignore_data_skip 保持默认 False 即可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1970914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

都从哪里下载量产工具,我给大家推荐一下吧

就推荐量产部落!因为从事固态硬盘维修这行,而且我自己也喜欢DIY,所以我比较关注量产工具下载。 要说量产工具,就得从U盘和固态硬盘的兴衰开始说起,从2016年开始,U盘就在走下坡路了,U盘量产工具…

英特尔裁员、暂停分红和市场挑战

英特尔(INTC)近日宣布了一系列战略调整,以应对其面临的严峻挑战。这家总部位于加利福尼亚州圣克拉拉的芯片制造商计划裁员超过15%,并从第四季度起暂停派息,以重振其盈利能力。 股价暴跌与市值蒸发 英特尔的这一决定导…

找不到的软件资源,试试这个网站

0daydown是一个提供多种资源下载的网站,包括软件、电影、音乐和游戏等。该网站通常会转载其他0day站点或PT站点的内容,并以其丰富的资源和便捷的下载方式而闻名。此外,0daydown还收录了稀缺的0day软件,并提供百度网盘下载链接。 …

双 Token 三验证解决方案

更好的阅读体验 \huge{\color{red}{更好的阅读体验}} 更好的阅读体验 问题分析 以往的项目大部分解决方案为单 token: 用户登录后,服务端颁发 jwt 令牌作为 token 返回每次请求,前端携带 token 访问,服务端解析 token 进行校验和…

serial---- vulnhub打靶

1.新建虚拟机,虚拟硬盘使用vulnhub下载提供的虚拟硬盘文件 2.打开虚拟机,扫描网段,确定IP(或者arp -a) 3.发现没有robots.txt,以及一些常见admin,www.zip目录文件,尝试扫目录 拿另一个工具扫一下看看多了一个 4.发现备…

凸优化学习之旅

目录标题 专业名词MM算法CCP算法:代码说明 SCA算法:连续松弛梯度投影算法 分支定界搜索法凸问题辨别OA算法λ-representationADMM算法代码说明 BCD算法BCD(Block Coordinate Descent)代码示例与ADMM的区别总结 2024年5月6日15:15:…

2024 年 5 款顶级的免费和付费 PDF 编辑器个人评测

PDF 为企业、学校或一般用途提供了一种共享各种信息的便捷方式。您可以在笔记本电脑和智能手机上轻松查看 PDF 文档。但大多数图片查看器和 PDF 阅读器不允许您编辑 PDF。因此,当您想要修改 PDF 文件中的图像或文本时,您需要一个PDF 编辑器。 似乎没有太…

springboot高校勤工俭学平台-计算机毕业设计源码66824

摘 要 本研究基于Spring Boot企业框架,设计并实现了一款高校勤工俭学平台,包括首页、通知公告、新闻通知和岗位信息等功能模块。该平台旨在为高校学生提供便捷的勤工俭学信息发布与查询服务,促进校园内部劳动力资源的充分利用和高效管理。在研…

MSTR:智慧无处不在,可信任 AI 的崛起

|| 前言 商业智能(BI)的力量在于利用数据得出可行的洞察,从而做出更明智的数据驱动决策。从提升内部产品质量、运营和资源利用,到简化公共服务,BI应用非常多样化又具有影响力。 引入人工智能(AI&#xff…

Vue+SpringBoot+SpringSecurity项目对于跨域的深度理解

随记(可跳过):CodeMan在熬夜肝一周SpringSecurity学习的时候,总是报错,于是冥思苦想,选择了询问Ai,但是不论怎么设置权限,接口仍然无法按所设想的权限被调用,于是在今天的…

这“听说啊”的想法很美感

《澎湃新闻》今天在发表的长文《“第二个香港”即将诞生!面积比香港大30倍,或成最大自由港》中称:“听说啊,2024年海南会在合适的时候启动全岛封关运作,这意味着海南要建成更自由、更开放的自由贸易港,咱们…

如何在 Debian 上安装运行极狐GitLab Runner?【二】

极狐GitLab 是 GitLab 在中国的发行版,专门面向中国程序员和企业提供企业级一体化 DevOps 平台,用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规,而且所有的操作都是在一个平台上进行,省事省心省钱。可以一键安装极狐GitL…

亲子游戏 - 华为OD统一考试(D卷)

OD统一考试(D卷) 分值: 200分 题解: Java / Python / C++ 题目描述 宝宝和妈妈参加亲子游戏,在一个二维矩阵(N*N)的格子地图上,宝宝和妈妈抽签决定各自的位置,地图上每个格子有不同的糖果数量,部分格子有障碍物。 游戏规则是妈妈必须在最短的时间(每个单位时间只能走…

PythonPDF操作库之pdfminer使用详解

概要 在现代信息处理领域,PDF 文件是常见的文档格式之一。无论是在企业应用还是个人使用中,能够有效地提取和处理 PDF 文档内容是一项重要技能。pdfminer 是一个强大的 Python 库,专注于从 PDF 文件中提取文本和信息。本文将详细介绍 pdfminer 库,包括其安装方法、主要特性…

【JAVA设计模式】适配器模式——类适配器模式详解与案例分析

前言 在软件设计中,适配器模式(Adapter Pattern)是一种结构型设计模式,旨在使不兼容的接口能够协同工作。它通过引入一个适配器类,帮助两个接口之间进行适配,使得它们能够互相操作。本文将详细介绍适配器模…

2006-2022年中国农村经营管理年报

2006-2022年中国农村经营管理年报 1、时间:2006-2022年 2、格式:2006-2014年为EXCEL,2015-2022年为PDF 3、说明:根据农村经营管理情况统计报表制度调查数据整理、编辑的。本资料系统收录了全国各省、自治区、直辖市农村集体经济…

Gartner发布2024年安全运营成熟度曲线:改变安全运营策略、能力和效果的23项技术发展趋势

安全运营技术和服务通过识别威胁、漏洞和暴露来保护 IT/OT 系统、云工作负载、应用程序和其他数字资产免受攻击。此技术成熟度曲线可帮助安全和风险管理领导者制定战略并提供安全运营能力和功能。 需要知道的 混合和远程工作实践不断发展,安全运营中心 (SOC) 团队支…

云计算 Logstash 配置管理

日志分析系统ELK 项目架构图 Logstash 是一个开源的、服务器端的数据收集引擎,与 Elasticsearch 和 Kibana 一起构成了 Elastic Stack(之前称为 ELK Stack)。Logstash 的主要功能是处理和转发数据,它可以从多种数据源收集数据&a…

Mamba+Transformer完美融合,效果炸裂!

因模型规模的扩展和需要处理的序列不断变长,transformer逐渐出现计算量激增、计算效率下降等问题,研究者们提出了Mamba—— 一种创新的线性时间序列建模方法,它结合了递归神经网络(RNN)和卷积神经网络(CNN)…

十七、Intellij IDEA2022.1.1下载、安装、激活

目录 🌻🌻 一、下载二、 安装三、激活 一、下载 官网下载地址 本地直接下载 目前Intellij IDEA的最新版本已经更新到了 2024.1.4,由于最新版本可能存在不稳定的问题,此处选择其他版本进行下载,此处以2022.1.1为例进行下…