deepspeed huggingface传入参数 optimizer和lr_scheduler测试

deepspeed huggingface传入参数 optimizer和lr_scheduler测试

news2025/4/27 15:11:47

Trainer中

首先：
WarmupDecayLR= --lr_scheduler_type linear
WarmupLR= --lr_scheduler_type constant_with_warmup

1

TrainArgument不传lr_scheduler_type、optim，warmup_steps=15
ds config文件中定义如下：
在这里插入图片描述
注意：如果不在TrainArgument传入warmup_steps，直接在ds config指定的话会报错，故需要结合使用。

学习率如下：
在这里插入图片描述

2

TrainArgument不传lr_scheduler_type、optim，warmup_steps=15
ds config文件中定义如下：
在这里插入图片描述
学习率如下：

3

TrainArgument不传optim，warmup_steps=15
lr_scheduler_type=constant_with_warmup
ds config文件中定义如下：
在这里插入图片描述
学习率如下：

可以得出：deepspeed中的优化器和学习率策略确实是有优先级的，两个都定义的情况下会用deepspeed中的。

推荐用法：optim用deepspeed， lr_scheduler用huggingface的 cosine
cosine学习率图如下：
在这里插入图片描述

PPOTrainer、RLOOTrainer

trl中的相关trainer是不支持deepspeed配置optimizer 和 lr_scheduler的，需要使用huggingface提供的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1906646.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

java-spring boot光速入门教程（超详细！！）

java-spring boot光速入门教程（超详细！！）

目录一、引言 1.1 初始化配置 1.2 整合第三方框架 1.3 后期维护 1.4 部署工程 1.5 敏捷式开发二、SpringBoot介绍 spring boot 2.1 搭建一个spring boot工程 2.2 使用idea创建项目 2.3 在线创建姿势 2.4 项目的目录结构 2.5 项目的运行方式 2.6 yml文件格式 2…

阅读更多...

无线麦克风哪个品牌音质最好，揭秘手机收音麦克风哪个牌子好！

无线麦克风哪个品牌音质最好，揭秘手机收音麦克风哪个牌子好！

随着全球直播和短视频行业的蓬勃发展，领夹麦克风因其便携性和出色的录音质量而备受青睐。用户在各种场合下追求清晰、真实的录音效果，领夹麦克风无疑是一个理想的选择。然而，面对市场上琳琅满目的品牌和型号，想要挑选一款性能优…

阅读更多...

计算机网络之无线局域网

计算机网络之无线局域网

1.无线局域网工作方式工作方式：每台PC机上有一个无线收发机（无线网卡）， 它能够向网络上的其他PC机发送和接受无线电信号。与有线以太网相似，无线局域网也是打包方式发送数据的。每块网卡都有一个永久的、唯一的ID号…

阅读更多...

【原理+使用】DeepCache: Accelerating Diffusion Models for Free

【原理+使用】DeepCache: Accelerating Diffusion Models for Free

论文：arxiv.org/pdf/2312.00858 代码：horseee/DeepCache: [CVPR 2024] DeepCache: Accelerating Diffusion Models for Free (github.com) 介绍 DeepCache是一种新颖的无训练且几乎无损的范式，从模型架构的角度加速了扩散模型。DeepCache利…

阅读更多...

小白·使用Tesseract-OCR工具读取图片

小白·使用Tesseract-OCR工具读取图片

1、直接pip安装工具使用vscode和pycharm都可以。这里介绍使用vscode的方法。 (1)、调出终端 (2)、安装依赖 (3)、编写代码 import pyocr import pyocr.builders from PIL import Image import re# 获取Tesseract-OCR工具 tools pyocr.get_available_tools() tool tools[…

阅读更多...

使用 MFA 保护对企业应用程序的访问

使用 MFA 保护对企业应用程序的访问

多因素身份验证（MFA）是在授予用户访问特定资源的权限之前，使用多重身份验证来验证用户身份的过程，仅使用单一因素（传统上是用户名和密码）来保护资源，使它们容易受到破坏，添加其他身份…

阅读更多...

C# 实现基于exe内嵌HTTPS监听服务、从HTTP升级到HTTPS 后端windows服务

C# 实现基于exe内嵌HTTPS监听服务、从HTTP升级到HTTPS 后端windows服务

由于客户需要把原有HTTP后端服务升级为支持https的服务，因为原有的HTTP服务是一个基于WINDOWS服务内嵌HTTP监听服务实现的，并不支持https, 也不像其他IIS中部署的WebAPI服务那样直接加载HTTPS证书，所以这里需要修改原服务支持https和服务器环…

阅读更多...

Java基础-Java中的常用类（上）

Java基础-Java中的常用类（上）

(创作不易，感谢有你，你的支持，就是我前行的最大动力，如果看完对你有帮助，请留下您的足迹） 目录 String类创建字符串字符串长度连接字符串创建格式化字符串 String 方法 System类常用方法方…

阅读更多...

谨慎投稿！这本EI期刊正在被“劫持”！

谨慎投稿！这本EI期刊正在被“劫持”！

Journsl ofTisniin lniversity Seience and Technology《天津大学学报（自然科学与工程技术版）》创刊于l955年，月刊，全国核心期刊，天津市一级期刊。该刊是由天津大学主办的综合性学术刊物，主要刊登自然科学和…

阅读更多...

【第三版系统集成项目管理工程师】第4章信息系统架构

【第三版系统集成项目管理工程师】第4章信息系统架构

持续更新。。。。。。。。。。。。。。。【第三版】系统集成项目管理工程师考情分析4.1架构基础4.1.1指导思想（非重点） P1364.1.2设计原则（非重点） P1364.1.3建设目标（非重点） P1374.1.4总体框架 P138练习…

阅读更多...

SaaS产品和独立部署型产品有什么区别，该怎么选择？

SaaS产品和独立部署型产品有什么区别，该怎么选择？

随着云计算和软件服务的多样化，产品形式主要划分SaaS型（开通即用）和独立部署（完整交付）两种模式，那么SaaS产品和独立部署产品有哪些区别，我们在选择产品的时候应该如何去抉择？本文我…

阅读更多...

Java的Thread类中的常用方法解析

Java的Thread类中的常用方法解析

Java可以通过Thread类实现多线程，下面来介绍几个Thread类中常用的方法 void start() 开启线程，jvm自动调用run方法 void run() 设置线程任务，这个run方法是Thread重写的接口Runnable中的run方法 String getName() 获取线程名字 void s…

阅读更多...

linux 安装Openjdk1.8

linux 安装Openjdk1.8

一、在线安装 1、更新软件包 sudo apt-get update 2、安装openjdk sudo apt-get install openjdk-8-jdk 3、配置openjdk1.8 openjdk默认会安装在/usr/lib/jvm/java-8-openjdk-amd64 vim ~/.bashrc export JAVA_HOME/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME${J…

阅读更多...

【Linux】文件和目录管理命令——ls，cp，rm，mv

【Linux】文件和目录管理命令——ls，cp，rm，mv

1.文件与目录的查看：Is ls [-aAdfFhilnrRst] 文件名或目录名称ls [ --color{never，auto，always} ]文件名或目录名称ls [ --full-time ]文件名或目录名称选项与参数： -a：全部的文件，连同隐藏文件&am…

阅读更多...

电子产品分销商 DigiKey 在新视频系列中探索智能城市中的AI

电子产品分销商 DigiKey 在新视频系列中探索智能城市中的AI

电子产品分销商DigiKey推出了一系列新视频，深入探讨了AI在智能城市中的集成应用。这个名为“智能世界中的AI”的系列是其“城市数字”视频系列的第四季，它审视了城市环境中从基础设施到公共服务的多种AI硬件和软件的部署情况。该系列由电子制造商莫仕&…

阅读更多...

Java的垃圾回收机制解说

Java的垃圾回收机制解说

Java 内存运行时区域中的程序计数器、虚拟机栈、本地方法栈随线程而生灭；栈中的栈帧随着方法的进入和退出而有条不紊地执行着出栈和入栈操作。每一个栈帧中分配多少内存基本上是在类结构确定下来时就已知的（尽管在运行期会由 JIT 编译器进行一些优化&…

阅读更多...

苹果电脑视频压缩工具，苹果电脑视频压缩软件

苹果电脑视频压缩工具，苹果电脑视频压缩软件

随着数字媒体内容的爆炸性增长，视频文件的体积越来越大，如何在保证画质的前提下，有效地压缩视频文件，成为许多创作者和普通用户的一大需求。本文将为您详细介绍视频压缩界的佼佼者，让您轻松应对视频文件体积过大的难题…

阅读更多...

vue3中使用 tilwindcss报错 Unknown at rule @tailwindcss

vue3中使用 tilwindcss报错 Unknown at rule @tailwindcss

解决方法： vscode中安装插件 Tailwind CSS IntelliSense 在项目中的 .vscode中 settings.json添加 "files.associations": {"*.css": "tailwindcss"}

阅读更多...

网络连接线相关问题

网络连接线相关问题

问题1； 直通线为什么两头都是T568B？是否可以两台T5568A？或者任意线序，只需两头一致？ 不行，施工规范规定。（原因；网线最长距离100m，实际用起来要把网线包管，走…

阅读更多...

Mapboxgl 根据 AWS 地形的高程值制作等高线

Mapboxgl 根据 AWS 地形的高程值制作等高线

更多精彩内容尽在dt.sim3d.cn，关注公众号【sky的数孪技术】，技术交流、源码下载请添加VX：digital_twin123 使用mapboxgl 3.0版本，根据 AWS 地形图块的高程值制作等高线，源码如下： <!DOCTYPE html> &…

阅读更多...

推荐文章

最新文章