使用hugging face开源库accelerate进行多GPU训练（单机多卡）时，在保存模型结构的时候出现的问题

使用hugging face开源库accelerate进行多GPU训练（单机多卡）时，在保存模型结构的时候出现的问题

news2025/12/29 5:19:56

目录

问题描述
问题分析
问题解决

问题描述

我在保存模型结构的时候，先获取模型参数，然后再保存，代码如下：

在这里插入图片描述
图示代码是在训练主循环中的：

这种情况下会出现报错：

nboundLocalError: UnboundLocalErrorlocal variable 'epoch checkpoint’referenced before assignment:

完整报错：
请添加图片描述

请添加图片描述

简单来说就是我用于存储模型的函数有一个输入参数是epoch_checkpoint，但是python认为我在引用这个变量前没有定义（分配）这个变量。

这就很奇怪，因为我的代码明明在我使用这个变量前是幅值定义了的。

问题分析

我经过思考，认为在单GPU训练的时候是不会出现这种问题的，因为我确实先定义了变量再引用的变量，那么应该是多GPU训练出现的问题。

在accelerate库中进行多GPU训练的时候，通过开启多个进程来控制多个GPU，可能是多个进程中，主进程还在获取模型参数那一步，其他进程就已经到了保存模型这一步，导致出现这个报错。

（当然我这个分析也不一定对，毕竟我再保存模型前用了self.accelerator.wait_for_everyone()，理论上不应该出现这个报错的）

问题解决

虽然不知道问题到底是为啥出现，但是我们也有解决方法：
即先在主循环中获取模型参数，不进行模型保存，在最后再保存模型

在这里插入图片描述

这样做需要事先定义一个list，存储检查点

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1091170.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

解锁学习电路设计的正确姿势！

解锁学习电路设计的正确姿势！

阅读更多...

计算机毕业设计选什么题目好？springboot 医院门诊在线预约挂号系统

计算机毕业设计选什么题目好？springboot 医院门诊在线预约挂号系统

✍✍计算机编程指导师 ⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！ ⚡⚡ Java实战 |…

阅读更多...

《C++ Primer》练习9.52：使用栈实现四则运算

《C++ Primer》练习9.52：使用栈实现四则运算

栈可以用来使用四则运算，是一个稍微有点复杂的题目，去学习了一下用栈实现四则运算的原理，用C实现了一下。首先要把常见的中缀表达式改成后缀表达式，然后通过后缀表达式计算，具体的原理可以参考这位博主的文章&#xff…

阅读更多...

本、硕、博区别真的辣么大吗？

本、硕、博区别真的辣么大吗？

61： 发际线已经说明了一切…… Super Mario： 小学，老师告诉学生：“森林里有只老虎，已经被我关在笼子里，我会带你去那个地方，然后给你一把猎枪，告诉你猎枪怎么用，并开枪…

阅读更多...

RFID拓展的相关问答

基于： Research Reading: Smart Parking Applications Using RFID Technology-CSDN博客这篇文章总结了无线射频识别（RFID）技术在自动化中的应用及其在停车场管理系统中的解决方案。文章提到，RFID技术在自动化中可以降低交易成本&…

阅读更多...

4. redis排名系统之C++实战操作对比MySQL

4. redis排名系统之C++实战操作对比MySQL

一、MySQL实现方法假设我们要设计一款排名系统，那必然要涉及到两大类数据：武器数据和非武器的通用数据，它他通常有一个共用的属性：那就是主键唯一的，例如玩家的数字编号，通常在MySQL中是自增的无符号整数…

阅读更多...

【牛客面试必刷TOP101】Day9.BM37 二叉搜索树的最近公共祖先和BM42 用两个栈实现队列

【牛客面试必刷TOP101】Day9.BM37 二叉搜索树的最近公共祖先和BM42 用两个栈实现队列

作者简介：大家好，我是未央； 博客首页：未央.303 系列专栏：牛客面试必刷TOP101 每日一句：人的一生，可以有所作为的时机只有一次，那就是现在！！！&…

阅读更多...

pycharm安装汉化包失败解决方法

pycharm安装汉化包失败解决方法

在pycharm -setting-plugins-搜索“Chinese”进入此界面： 点击install，在安装时出现：Plugin "Chinese (Simplified) Language Pack / 中文语言包" was not installed: Invalid filename returned by a server 解决方法&#xff1a…

阅读更多...

boot分页

boot分页

List<ElectricDispatchTodoPO> todoList electricDispatchTodoService.queryTodlList(vo, sysStaffVO);// 计算总记录数int total todoList.size();// 如果总记录数大于0PageInfo<ElectricDispatchTodoPO> pageInfo new PageInfo<>();if (total > 0) {…

阅读更多...

手把手教你分析IIS日志——IP访问次数,URI访问统计等

手把手教你分析IIS日志——IP访问次数,URI访问统计等

配置IIS网站的日志下载日志分析工具 https://gitee.com/tangdd369098655/open-network-disk 解压打开选择文件指定分析规则（还可以自己写规则哦~~） 运行规则进行分析今天就写到这里啦~ 小伙伴们，(￣ω￣(&#x…

阅读更多...

Win10 环境下 VS2022 暴力编译PP-OCRv4

Win10 环境下 VS2022 暴力编译PP-OCRv4

1 环境准备下载PaddleOCR PaddleOCR C 部署代码位于 PaddleOCR\deploy\cpp_infer目录下复制cpp_infer目录下include和src到项目目录下paddle_inference paddle_inference opencv 这里使用已经安装好的opencv4.5.5下载dirent-master.zip 下载dirent-master.zip, 解压并复制d…

阅读更多...

MyLife - Docker安装Consul

MyLife - Docker安装Consul

Docker安装Consul 个人觉得像consul之类的基础设施在线上环境直接物理机安装使用可能会好些。但是在开发测试环境用docker容器还是比较方便的。这里学习下docker安装consul使用。 1. Consul 镜像库地址 Consul 镜像库地址：https://hub.docker.com/r/hashicorp/consu…

阅读更多...

CleanMyMacX4.12.3最新免费版mac电脑管家

CleanMyMacX4.12.3最新免费版mac电脑管家

当我们收到一台崭新的mac电脑，第一步肯定是找到一款帮助我们管理电脑运行的“电脑管家”，监控内存运行、智能清理系统垃圾、清理Mac大文件旧文件、消除恶意软件、快速卸载更新软件、隐私保护、监控系统运行状况等。基本在上mac电脑防护一款CleanMyMac就够…

阅读更多...

C/C++陷阱——变量名和函数名的冲突问题

C/C++陷阱——变量名和函数名的冲突问题

C语言/C陷阱——变量名和函数名的冲突问题先来看这两串代码： 代码一： #include <stdio.h> #include <stdlib.h>int rand 1;int main() {printf("%d\n", rand);return 0; }代码二： #include <stdio.h> #inc…

阅读更多...

芯片设计：一颗芯片到底是如何诞生的（上）

芯片设计：一颗芯片到底是如何诞生的（上）

目录芯片设计整体流程小故事：苹果的芯片设计路需求分析架构设计逻辑设计前端设计与验证逻辑综合 DFT（可测试性设计） 物理实现小结芯片设计整体流程一颗芯片，是如何诞生的呢？其实一颗芯片项目就是…

阅读更多...

vue引入jQuery

vue引入jQuery

配置下载 npm install jquery --save在build的webpack.base.conf中 var webpackrequire("webpack")在module.exports中: plugins: [ // 　　new webpack.optimize.CommonsChunkPlugin(common.js),new webpack.ProvidePlugin({jQuery: "jquery",$: &quo…

阅读更多...

三十五、【进阶】MySQL性能查看

三十五、【进阶】MySQL性能查看

1、基础语法 show global status like Com_______; 2、实际操作 （1）查看当前数据库sql语句的执行频率 show global status like Com_______; （2） 执行依次select语句 （3） 再次查看当前数据库sql语句的执…

阅读更多...

GBJ2510-ASEMI电源控制柜专用GBJ2510

GBJ2510-ASEMI电源控制柜专用GBJ2510

编辑：ll GBJ2510-ASEMI电源控制柜专用GBJ2510 型号：GBJ2510 品牌：ASEMI 封装：GBJ-4 恢复时间：＞50ns 正向电流：25A 反向耐压：1000V 芯片个数：4 引脚数量&#xf…

阅读更多...

springboot 智能学习平台系统

springboot 智能学习平台系统

liu1113625581

阅读更多...

python每日一练(7)

python每日一练(7)

🌈write in front🌈 🧸大家好，我是Aileen🧸.希望你看完之后，能对你有所帮助，不足请指正！共同学习交流. 🆔本文由Aileen_0v0🧸 原创 CSDN首发🐒 如…

阅读更多...

推荐文章

最新文章