在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法

news2024/9/22 7:34:54

下班前使用终端通过SSH登陆服务器,用nohup命令后台训练了一个pytorch模型。第二天来公司上班发现模型训练终止,报如下问题。

WARNING:torch.distributed.elastic.agent.server.api:Received 1 death signal, shutting down workers
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478002 closing signal SIGHUP
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478003 closing signal SIGHUP

一查原来是因为SSH终端与服务器之间建立的是临时的交互会话,如果一段时间没有交互,或者关闭窗口,会话就结束,那么会话内部的进程也终止,所以训练任务就结束了。

知识点补充:

1、 会话与进程

命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。

会话的一个重要特点是,窗口与其中启动的进程是连在一起的。打开窗口,会话开始;关闭窗口,会话结束,会话内部的进程也会随之终止,不管有没有运行完。

一个典型的例子就是,SSH 登录远程计算机,打开一个远程窗口执行命令。这时,网络突然断线,再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。

为了解决这个问题,会话与窗口可以"解绑":窗口关闭时,会话并不终止,而是继续运行,等到以后需要的时候,再让会话"绑定"其他窗口。

2、如何保持SSH会话不结束

How to Keep SSH Session Alive

如何保持 SSH 会话不中断? - 知乎

我们使用Linux终端的方法来让SSH会话保持足够长的时间,足够保证我们的训练任务进程完成。

2.1 Linux client 配置

对于 Linux client ,我们在home目录下修改 ~/.ssh/config 文件(如果没有就创建)

vim  ~/.ssh/config

下面是配置

Host *
ServerAliveInterval 120
ServerAliveCountMax 720
  • Host:配置仅对 “Host” 关键字后面列出的主机生效。由于使用了通配符 (*),因此它们适用于所有主机
  • ServerAliveInterval:设置超时间隔(以秒为单位),如果没有从 server 接收到数据,SSH 将通过加密通道发送消息,请求 server 响应。默认值为 0,表示不会将这些消息发送到 server
  • ServerAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 server 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 server 的连接,终止会话(默认值为 3)

表示 client 每 120s 向 server 发送 keepalive 消息,一共发送 720 次,也就是 120 * 720 = 86400 s(24小时),在这24小时内 SSH 会话会一直保持。

2.2 Linux server 配置

上面介绍的是 client 端的配置,我们接下来介绍 server 端的配置

修改 /etc/ssh/sshd_config 文件

sudo vi /etc/ssh/sshd_config
TCPKeepAlive yes
ClientAliveInterval 120 
ClientAliveCountMax 720

  • TCPKeepAlive:是否应该向 client 发送 TCP keepalive 信息
  • ClientAliveInterval:设置超时间隔(以秒为单位),如果没有从 client 接收到数据,SSH 将通过加密通道发送消息,请求 client 响应。默认值为 0,表示不会将这些消息发送到 client
  • ClientAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 client 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 client 的连接,终止会话(默认值为 3)

与前面讲到的 Linux client 配置一样,server 将保持 SSH 会话24小时(120 * 720 = 86400s)

配置之后重启 SSH 服务

systemctl restart sshd

2.3 使用Tmux

https://www.cnblogs.com/gy77/p/16746769.html

https://www.ruanyifeng.com/blog/2019/10/tmux.html

# Mac安装 tmux
$ brew install tmux

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1080349.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年陕西省安全员B证证考试题库及陕西省安全员B证试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2023年陕西省安全员B证证考试题库及陕西省安全员B证试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特种设备作业人员上岗证考试大…

2023年危险化学品经营单位主要负责人证考试题库及危险化学品经营单位主要负责人试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2023年危险化学品经营单位主要负责人证考试题库及危险化学品经营单位主要负责人试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特…

联想携中国移动打造车路协同方案 助力重庆实现32类车联网场景

10月11日,联想集团在中国移动全球合作伙伴大会上首次分享了与中国移动等合作伙伴共同打造的5G车路协同案例——重庆两江协同创新区车路协同应用。联想利用基于5G智能算力技术,在总里程55公里路段实现了32类车联网场景。 据了解,重庆两江协同创…

Spark任务优化分析

一、背景 首先需要掌握 Spark DAG、stage、task的相关概念 Spark的job、stage和task的机制论述 - 知乎 task数量和rdd 分区数相关 二、任务慢的原因分析 找到运行时间比较长的stage 再进去看里面的task 可以看到某个task 读取的数据量明显比其他task 较大。 如果是sql 任…

Python爬虫提高排名

在如今竞争激烈的互联网时代,网站的SEO优化变得尤为重要。而Python爬虫作为一种强大的工具,可以帮助网站主们提升搜索排名,吸引更多的流量和用户。本文将为您揭秘如何利用Python爬虫来改善您的SEO优化,并帮助您提升搜索排名。无论…

线性代数 --- 矩阵的QR分解,A=QR

矩阵的QR分解,格拉姆施密特过程的矩阵表示 首先先简单的回顾一下Gram-Schmidt正交化过程的核心思想,如何把一组线性无关的向量构造成一组标准正交向量,即,如何把矩阵A变成矩阵Q的过程。 给定一组线性无关的向量a,b,c,我…

2023年【危险化学品经营单位主要负责人】模拟考试及危险化学品经营单位主要负责人作业考试题库

题库来源:安全生产模拟考试一点通公众号小程序 危险化学品经营单位主要负责人模拟考试是安全生产模拟考试一点通总题库中生成的一套危险化学品经营单位主要负责人作业考试题库,安全生产模拟考试一点通上危险化学品经营单位主要负责人作业手机同步练习。…

支持在线状态检查的仪表板miniboard

什么是 miniboard ? miniboard 是带有选项卡和在线状态检查的轻量级仪表板。可以通过 GUI 或 yaml 文件进行配置。 采用 shoutrrr 通知。 什么是 Shoutrrr ? Shoutrrr 是一个类似 caronc/apprise 的通知库,支持多种通知服务。 安装 在群晖上…

矿物鉴定VR实践教学平台:打造全新的沉浸式学习体验

在科技的帮助下,我们的学习和培训方式正在发生着深刻的变化。其中,虚拟现实(VR)技术带来的沉浸式学习体验,为我们提供了一种全新的学习和实践方式。本文将详细介绍一款使用VR技术的教学工具——矿物鉴定VR实践教学平台…

国外无人机蜂群作战样式进展及反蜂群策略研究

源自:现代防御技术 作者:王瑞杰, 王得朝, 丰璐, 赵正党, 陈浙梁 摘 要 科技进步和军事需求的联合推动下,无人机蜂群作战成为一种新兴的并能够改变战争规则的颠覆性作战样式,各军事强国围绕“蜂群技术和战术”展开了激烈的竞争…

[GWCTF 2019]你的名字 - SSTI注入(waf绕过)

[GWCTF 2019]你的名字 1 解题流程1.1 分析1.2 解题 2 思考总结 1 解题流程 1.1 分析 1、页面只有一个输入框,输入什么回显什么 2、根据特性应该是SSTI注入 1.2 解题 fuzz:过滤则长度1512 过滤:{{}}、class、mro、builtins、file、func_gl…

Android Studio展示Activty生命周期

前言 本文章以及之后文章的程序版本使用Android Studio 2022.3.1 Patch 1 版本编辑,使用语言为java,最低支持API 27 Android 8.1,构建工具版本如下: 本文章主要是介绍Activty跳转和删除,以备后续使用,所以就…

百度SEO优化的特点(方式及排名诀窍详解)

百度SEO优化的特点介绍: 百度SEO优化是指对网站进行优化,使其在百度搜索引擎中获得更好的排名,进而获取更多的流量和用户。百度SEO优化的特点是综合性强、效果持久、成本低廉、投资回报高。百度的搜索算法不断更新,所以长期稳定的…

酷开会员 | 探索火星奥秘,跟着酷开系统揭开火星神秘面纱!

酷开会员 | 探索火星奥秘,跟着酷开系统揭开火星神秘面纱! 地球,是我们的母星。人类脚踏这颗星球坚实的大地,倚靠她的供给繁衍生息。然而从整个太阳系中看去,这个人类唯一的家园,也不过只是一粒悬浮在阳光中…

3.3 使用广播信道的数据链路层

思维导图: 3.3.1 局域网的数据链路层 ### 3.3 使用广播信道的数据链路层 #### 简介 - 广播信道支持一对多通信。 - 局域网技术在20世纪70年代末兴起,现在在计算机网络中占有主导地位。 #### 3.3.1 局域网的数据链路层 **局域网的特点:** 1…

RFID技术在锂电池生产线自动化应用

随着电动汽车和能源储存系统市场的不断扩大,锂离子电池作为其核心部件,以其高能量密度、长寿命等优点成为了主流选择。而对于锂电池智能化、高效化生产有着更高的要求,RFID技术的使用,将大幅度提高锂电池的生产产能,从…

高防CDN之所以强大的原因

高防CDN,这不仅仅是一个网络安全解决方案,它是您的在线堡垒,守护您的网站免受网络不法分子的侵袭。它究竟有何神奇之处,使它如此引人瞩目呢? 网络安全铠甲: 高防CDN是您的磅礴网络安全铠甲。它能够抵御多种…

MYSQL的日志管理

MySQL中有几种类型的日志记录,分别用于记录不同的操作和事件。以下是MySQL中常见的日志类型 错误日志 错误日志是 MySQL 中最重要的日志之一,它记录了当 mysqld 启动和停止时,以及服务器在运行过程中发生任何严重错误时的相关信息。当数据…

Unity头发飘动效果

Unity头发飘动 介绍动作做头发飘动头发骨骼绑定模拟物理组件 UnityChan插件下载UnityChan具体用法确定人物是否绑定好骨骼节点(要做的部位比如头发等)给人物添加SpringManager骨骼管理器给骨骼节点添加SpringBone这里给每个头发骨骼都添加上SpringBone。…

LCD12864驱动开发

目录 一、概述 二、方框图 三、模块接口说明 1、串口接口管脚信号 2、并行接口 四、模块主要硬件构成说明 1、RS,R/W配4种模式: 2、E信号 五、指令说明 六、读写时序图 6.1 数据传输过程 6.2、时序图 6.3、串口读写时序 七、交流参数 八、软件…