Server - WandB 统计运行 Epoch 以及 手动上传日志

news2025/2/24 20:39:18

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/132227253

WandB

WandB (Weights & Biases) 是在线的模型训练可视化工具,可以帮助跟踪机器学习项目,记录运行中的超参数和输出指标,可视化结果并共享结果,支持多种深度学习框架,如 PyTorch、TensorFlow、Keras 等,也可以与 AWS、GCP、Kubernetes、Azure等云平台配合使用。

WandB:https://wandb.ai/,注册即可使用。

统计已运行 epoch 数量,预估训练时间,查看 WandB,支持选择 epoch 或 step 或 trainer/global_step 等维度进行查看。

Img

1. 时间计算

例如,运行时间 26h:

kubectl get pods

train-20230808-worker-0   1/1     Running   0          26h
train-20230808-worker-1   1/1     Running   0          26h

单步 step 运行时间,10 个 step,耗时1 min 20 s80s / 10 = 8s,即 8 s/step 计算:

[1,1]<stderr>:2023-08-10 03:30:58,157 INFO 40 [train_openfold.py:206] step=11450
[1,0]<stderr>:2023-08-10 03:30:58,191 INFO 40 [train_openfold.py:206] step=11450
[1,0]<stderr>:2023-08-10 03:32:18,548 INFO 40 [train_openfold.py:206] step=11460
[1,1]<stderr>:2023-08-10 03:32:18,708 INFO 40 [train_openfold.py:206] step=11460

每个 epoch 需要训练 train_epoch_len=5000 个 step,2 个并行,即每个 epoch 耗时:

(5000 / 2) * 8 = 20000s
20000s / 3600s = 5.5h

那么累计运行,约 26h / 5.5h = 4.7 epoch,约 4~5 个 epoch 点,符合预期,即:

epoch

2. 步数计算

累计运行 step 是 11460 步,2卡并行合计,即:

11460 * 2 = 22920

每 5000 步是 1个 epoch,则绘制的点数是 4 个点,即:

22920 / 5000 = 4.5

3. WandB 配置

在日志中,查看 WandB 配置:

cat train_20230808.log | grep wandb

配置 WandB 在线,命令如下:

wandb online
# key 来自于官网注册
wandb login --relogin --cloud [your key]

信息中包括 2 个日志,同时进行缓存,1个是机器信息,1个是训练信息,即:

[1,0]<stderr>:wandb: Tracking run with wandb version 0.12.21
[1,0]<stderr>:wandb: Run data is saved locally in wandb/run-20230809_012556-2007pb1b
[1,0]<stderr>:wandb: Run `wandb offline` to turn off syncing.
[1,0]<stderr>:wandb: Syncing run dandy-pine-11
[1,0]<stderr>:wandb: ⭐️ View project at https://wandb.ai/[project]
[1,0]<stderr>:wandb: 🚀 View run at https://wandb.ai/[project]/runs/2007pb1b

4. 手动上传日志

遇到网络异常,即显示:

[1,0]<stderr>:wandb: Network error (ConnectTimeout), entering retry loop.
[1,1]<stderr>:wandb: Network error (ReadTimeout), entering retry loop.

则需要手动上传日志,找到日志中的 saved 地址,使用 sync 命令,同步日志,即:

[1,0]<stderr>:wandb: Run data is saved locally in wandb/run-20230809_012556-2007pb1b

wandb sync wandb/run-20230809_012556-2007pb1b

日志访问路径,即:

[1,0]<stderr>:wandb: 🚀 View run at https://wandb.ai/[project]/runs/2007pb1b

再刷新网页,即可显示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/863267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

yum仓库简介

yum仓库网络服务 一.yum仓库简介二.yum配置文件2.1yum主配置文件2.2仓库设置2.3日志文件 三.yum命令详解3.1查询软件包命令3.2查询软件包组命令3.3yum安装升级3.4软件卸载 四.搭建yum仓库4.1 http方式搭建仓库 一.yum仓库简介 yum是基于RPM包构建的软件更新机制&#xff0c;能够…

从初学者到专家:Java运算符的完整指南

目录 1.算数运算符 2.增量运算符 2.1自增/自减运算符 4. 逻辑运算符 5.位运算符 6.移位运算符 7. 条件运算符 导言&#xff1a; Java作为一门广泛使用的编程语言&#xff0c;其运算符是编写代码时必不可少的一部分。本篇博客将为你详细介绍Java中的各种运算符&#xf…

【AndV】ant-design-vue中select使用mode=“combobox“无效:

文章目录 一、问题:二、解决: 一、问题: Warning: [antdv: Select] The combobox mode of Select is deprecated,it will be removed in next major version,please use AutoComplete instead 二、解决: 将mode"combobox"改为mode"SECRET_COMBOBOX_MODE_DO_NOT_…

Docker启动一个Centos镜像

搜索可用的centos的docker镜像 docker search <image>&#xff1a;在docker index中搜索imagedocker search centos 下载centos镜像&#xff08;拉取镜像&#xff09; docker pull centos:latest查看镜像docker images&#xff1a;列出imagesdocker images -a&#xff…

Paddle OCR V4 测试Demo

效果 项目 VS2022.net4.8OCRV4 代码 using OpenCvSharp; using Sdcb.PaddleInference; using Sdcb.PaddleOCR; using Sdcb.PaddleOCR.Models; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; usin…

java连接sqlserver细节处理

这个文章记录一下java连接sqlserver细节处理 &#xff0c;有其他的细节可以评论。 首先是 驱动 driverClassName: com.microsoft.sqlserver.jdbc.SQLServerDriverpom文件 将mysql的改成这个 <!-- 数据库驱动 --><dependency><groupId>com.microsoft.sqlserve…

iOS字体像素与磅的对应关系

注意&#xff1a;低于iOS10的系统&#xff0c;显示的字宽和字高比高于iOS10的系统小。 这就是iOS10系统发布时&#xff0c;很多app显示的内容后面出现…&#xff0c;因而出现很多app为了适配iOS10系统而重新发布新版本。 用PS设计的iOS效果图中&#xff0c;字体是以像素&#x…

2023年大数据与计算国际会议 (WBDC 2023)| EI、Scoups检索

会议简介 Brief Introduction 2023年大数据与计算国际会议&#xff08;WBDC 2023&#xff09; 会议时间&#xff1a;2023年11月17 -19日 召开地点&#xff1a;中国西安 大会官网&#xff1a;www.iwbdc.org 2023年大数据与计算国际会议&#xff08;WBDC 2023&#xff09;将围绕“…

PostgreSQL中根据时间段范围查询数据,如19:29:10到20:29:10范围内的数据,排除年月日

数据格式如下 问题描述 我的SQL语句条件是 WHERE (TO_CHAR(cti.binder_gen_time, YYYY-MM-DD HH:mm:ss) > 19:29:10 AND TO_CHAR(cti.binder_gen_time, YYYY-MM-DD HH:mm:ss) < 20:29:10)为什么我数据的时间是2023-07-20 17:58:29也能被查出来&#xff1f; 问题解决…

Centos7.9系统_亲测成功_磁盘满了_分区和挂载新盘_创建文件夹并挂载分区---Linux工作笔记057

由于在某些部署环境下,运维管理员,仅仅是给分配一些硬盘容量,但是并没有进行分区和挂载到对应的合适的目录下,因此这个时候就需要我们自己去处理了. 这个是自己亲测成功的:由于是后面记录的,尽量记录详细 free -h 查看一下内存情况 df -h查看 硬盘的使用情况,还有是否有没挂载…

Drools用户手册翻译——第四章 Drools规则引擎(十五)复杂事件处理(CEP)查询、事件监听、调试日志和性能调优

甩锅声明&#xff1a;本人英语一般&#xff0c;翻译只是为了做个笔记&#xff0c;所以有翻译错误的地方&#xff0c;错就错了&#xff0c;如果你想给我纠正&#xff0c;就给我留言&#xff0c;我会改过来&#xff0c;如果懒得理我&#xff0c;就直接划过即可。 Drools查询和实时…

瑞数信息《2023 API安全趋势报告》重磅发布: API攻击持续走高,Bots武器更聪明

如今API作为连接服务和传输数据的重要通道&#xff0c;已成为数字时代的新型基础设施&#xff0c;但随之而来的安全问题也日益凸显。为了让各个行业更好地应对API安全威胁挑战&#xff0c;瑞数信息作为国内首批具备“云原生API安全能力”认证的专业厂商&#xff0c;近年来持续输…

pve7.2虚拟机 lvm磁盘扩容,增加硬盘操作

之前安装pve时候只有256的ssd,最近安装的虚拟机较多&#xff0c;给加块闲置硬盘&#xff0c;顺便学习一下&#xff0c;像pve这种虚拟机系统&#xff0c;硬盘应该可以像nas你这样随时增加&#xff0c;而不影响上层应用&#xff0c;我自己也是摸索着做。 一、安装好硬盘后打开pv…

对于企业:数字化的趋势不可阻挡.以无代码开发实现敏捷交付

在科技日新月异的今天&#xff0c;我们正处在一个由数据驱动的时代。为了在这个时代中占据一席之地&#xff0c;我们需要不断探索新的开发模式&#xff0c;以适应不断变化的市场需求。其中&#xff0c;无代码开发模式正逐渐成为引领未来科技的关键。 一、什么是无代码开发 无代…

2023年市面上最受欢迎的工程项目管理软件推荐

随着科技的发展和工程项目的复杂性增加&#xff0c;工程项目管理软件成为了现代项目管理中不可或缺的工具。这些软件可以帮助团队更好地协调、组织和执行工程项目&#xff0c;并提高项目的效率和成功率。本文结合了不同的产品测评网站&#xff0c;总结了以下四款备受好评的工程…

LabVIEW控制通用工作台

LabVIEW控制通用工作台 用于教育目的的计算机化实验室显着增长&#xff0c;特别是用于运动控制的实验室。它们代表了各种工业应用中不断扩大的领域&#xff0c;并成为以安全的方式使用通常昂贵或独特的实验室设备进行实时实验的宝贵工具。NI LabVIEW等软件应用程序的开发和不断…

甘特图:项目管理软件的应用,让项目团队提高工作效率

项目管理软件可以帮助项目团队更有效地分配资源、监控进度、降低风险&#xff0c;提高工作效率。 通过利用项目管理软件的强大功能&#xff0c;团队可以更好地应对项目中的各种挑战&#xff0c;确保项目按计划推进并实现项目目标。 任务分解&#xff1a;通过项目管理软件进…

uni-app项目运行在安卓真机调试

uni-app项目运行在安卓真机调试 手机开启开发者模式 在系统设置——关于手机——连续点击系统版本号5-7次&#xff0c;直到提示“您已处于开发者模式”。具体如下图&#xff1a; 手机开启USB调试 在系统和更新——开发人员选项——打开USB调试。具体如下图所示&#xff1a…

【HCIP】重发布实验2

题目 拓扑图 配置&#xff1a; R1 //ip配置 [r1]int l0 [r1-LoopBack0]ip add 1.1.1.1 24 [r1-LoopBack0]int g0/0/0 [r1-GigabitEthernet0/0/0]ip add 12.1.1.1 24 [r1-GigabitEthernet0/0/0]int g0/0/1 [r1-GigabitEthernet0/0/1]ip add 14.1.1.1 24 //配置RIP和OSPF并且实现…

学习笔记|printf函数的实现|不同操作系统中的换行|数的进制:2进制、10进制、16进制转换|STC32G单片机视频开发教程(冲哥)|第五集:C语言基础

文章目录 1.C语言 printf函数的实现Tips&#xff1a;ASCII码表Tips&#xff1a;找不到头文件怎么办&#xff1f;主函数添加程序:常规用法:Tips&#xff1a;不同操作系统中的换行 ⒉数的进制:2进制、10进制、16进制.常见的对应&#xff1a; 1.C语言 printf函数的实现 printf 是…