首发Yolov8优化：Adam该换了！斯坦福最新Sophia优化器，比Adam快2倍 | 2023.5月斯坦福最新成果

news2026/2/10 8:12:55

1.Sophia优化器介绍

斯坦福2023.5月发表的最新研究成果，他们提出了「一种叫Sophia的优化器，相比Adam，它在LLM上能够快2倍，可以大幅降低训练成本」。

论文：https://arxiv.org/pdf/2305.14342.pdf

本文介绍了一种新的模型预训练优化器：Sophia（Second-order Clipped Stochastic Optimization），这是一种轻量级二阶优化器，它使用Hessian对角线的廉价随机估计作为预调节器，并通过限幅机制来控制最坏情况下的更新大小。在GPT-2等预训练语言模型上，Sophia以比Adam少了50%的步骤，且实现了相同的预训练损失。

作者表示 Adam 对于异构曲率（heterogeneous curvatures）的适应性不足。另一方面，vanilla Newton 方法在凸函数中具有最优的 pre-conditioner&#

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/579752.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

低资源方面级情感分析研究综述

低资源方面级情感分析研究综述

文章目录前言1. 引言2. 问题定义、数据集和评价指标2.1 问题定义2.2 任务定义2.3 常用数据集 3. 方面级情感分析的方法3.1 **方面词抽取**3.1.1 基于无监督学习的方法3.1.1.1 基于规则的方面词抽取3.1.1.2 基于统计的方面词抽取 3.1.2 基于有监督浅层模型的方法3.1.3 基于有监…

阅读更多...

【C++初阶】类和对象（下）之友元 + 内部类 + 匿名对象

【C++初阶】类和对象（下）之友元 + 内部类 + 匿名对象

👦个人主页：Weraphael ✍🏻作者简介：目前学习C和算法 ✈️专栏：C航路 🐋 希望大家多多支持，咱一起进步！😁 如果文章对你有帮助的话欢迎评论💬 点赞&#x1…

阅读更多...

一台服务器通过nginx安装多个web应用

一台服务器通过nginx安装多个web应用

1.首先安装nginx网站服务器 yum install nginx 2.nginx 的主配置文件：/etc/nginx/nginx.conf (一台服务器有两个域名部署) 我们在/etc/nginx/nginx.d/下创建一个conf文件，这个文件会被嵌套到主配置文件当中 server { listen 80; …

阅读更多...

《数据库应用系统实践》------ 个人作品管理系统

《数据库应用系统实践》------ 个人作品管理系统

系列文章《数据库应用系统实践》------ 个人作品管理系统文章目录系列文章一、需求分析1、系统背景2、系统功能结构（需包含功能结构框图和模块说明）3．系统功能简介二、概念模型设计1．基本要素（符号介绍说明&…

阅读更多...

Netty客户端与服务器端闲暇检测与心跳检测(三)

Netty客户端与服务器端闲暇检测与心跳检测(三)

网络应用程序中普遍存在一个问题：连接假死，连接假死现象是:在某一端(服务器端|客户端)看来,底层的TCP连接已经断开,但是应用程序没有捕获到,因此会认为这个连接还存在。从TCP层面来说,只有收到四次握手数据包,或者一个RST数据包,才表示连接状态已断开; 连…

阅读更多...

Spring练习二ssm框架整合应用

Spring练习二ssm框架整合应用

导入教程的项目，通过查看源码对aop面向切面编程进行理解分析 aop面向编程就像是我们给程序某些位置丢下锚点（切入点）以及当走到锚点时需要调用的方法（切面）。在程序运行的过程中， 一旦到达锚点，…

阅读更多...

f-stack的源码编译安装

f-stack的源码编译安装

DPDK虽然能提供高性能的报文转发（安装使用方法见DPDK的源码编译安装），但是它并没有提供对应的IP/TCP协议栈，所以在网络产品的某些功能场景下（特别是涉及到需要使用TCP协议栈的情况），比如BGP邻居…

阅读更多...

Ansible原理简介与安装篇

Ansible原理简介与安装篇

工作原理 1、在Ansible管理体系中，存在“管理节点”和“被管理节点” 2、被管理节点通常被称为”资产“ 3、在管理节点上，Ansible将AdHoc或PlayBook转换为python脚本。并通过SSH将这些python脚本传递到被管理服务器上。在被管理服务器上依次执行&#xf…

阅读更多...

遥感云大数据在灾害、水体与湿地领域及GPT模型应用

遥感云大数据在灾害、水体与湿地领域及GPT模型应用

近年来遥感技术得到了突飞猛进的发展，航天、航空、临近空间等多遥感平台不断增加，数据的空间、时间、光谱分辨率不断提高，数据量猛增，遥感数据已经越来越具有大数据特征。遥感大数据的出现为相关研究提供了前所未有的机遇&#xf…

阅读更多...

基础篇010.2 STM32驱动RC522 RFID模块之二：STM32硬件SPI驱动RC522

基础篇010.2 STM32驱动RC522 RFID模块之二：STM32硬件SPI驱动RC522

目录基础篇010.1 STM32驱动RC522 RFID模块之一：基础知识 1. 实验硬件及原理图 1.1 RFID硬件 1.2 硬件原理图 2. 单片机与RFID硬件模块分析 3. 利用STM32CubeMX创建MDK工程 3.1 STM32CubeMX工程创建 3.2 配置调试方式 3.3 配置时钟电路 3.4 配置时钟 3.5 配…

阅读更多...

【C++】Map、Set 模拟实现

【C++】Map、Set 模拟实现

文章目录 📕 概念📕 实现框架Find()★ 迭代器 ★反向迭代器map 的 operator[ ] 📕 源代码rb_tree.hset.hmap.h 📕 概念 map、set 是 C 中的关联式容器，由于 map 和set所开放的各种操作接口，RB-tree 也都提…

阅读更多...

2023.05.28 学习周报

2023.05.28 学习周报

文章目录摘要文献阅读1.题目2.现有方法存在的局限性3.SR-GNN模型4.模型的组成部分4.1 构图4.2 item向量表示4.3 session向量表示4.4 预测模块 5.实验与分析5.1 数据集5.2 比较方法5.3 评估指标5.4 实验结果 6.结论有限元法1.一个例子2.进一步深度学习1.张量场2.对流-扩散方程…

阅读更多...

Linux（基础IO详解）

Linux（基础IO详解）

在基础IO这篇博客中，我们将了解到文件系统的构成，以及缓冲区究竟是个什么东东，我们都知道缓冲区，有时也谈论缓冲区，但不一定真的去深入了解过缓冲区。为什么内存和磁盘交互速度如此之慢？为什么都说Linux中一…

阅读更多...

Dom解析与Sax解析的区别

Dom解析与Sax解析的区别

1.Dom解析： Dom解析的时候，首先要把整个文件读取完毕，装载到内存中。然后进行解析，在解析的过程中，你可以直接获取某个节点，进行操作，也可以获取根节点然后进行遍历操作，得到所有的…

阅读更多...

一台服务器通过apache安装多个web应用

一台服务器通过apache安装多个web应用

当我们只有一台linux服务器资源但有创建多个网站的需求时，我们可以通过安装一个网站服务器Apache进行搭建，此次服务器使用Centos 7 下面分别介绍一个域名多个端口和多个域名用Apache来搭建多个网站的操作过程。一、使用apache 服务器 （一…

阅读更多...

HCIA-MSTP替代技术之链路捆绑（LACP模式）

HCIA-MSTP替代技术之链路捆绑（LACP模式）

目录手工链路聚合的不足： LACP链路聚合的原理 LACP模式： LACPDU： 1，设备优先级： 设备优先级的比较是：先比较优先级大小，0到32768，越小优先级越高，如果优先级相同&a…

阅读更多...

华为FinalMLP

华为FinalMLP

FinalMLP:An Enhanced Two-Stream MLP model for CTR Prediction 摘要 Two-Stream model：因为一个普通的MLP网络不足以学到丰富的特征交叉信息，因此大家提出了很多实用MLP和其他专用网络结合来学习。 MLP是隐式地学习特征交叉，当前很多工作…

阅读更多...

分布式网络通信框架（二）——RPC通信原理和技术选型

分布式网络通信框架（二）——RPC通信原理和技术选型

项目实现功能技术选型黄色部分：设计rpc方法参数的打包和解析，也就是数据的序列化和反序列化，用protobuf做RPC方法调用的序列化和反序列化。使用protobuf的好处: protobuf是二进制存储，xml和json是文本存储； pro…

阅读更多...

哈希应用: 位图 + 布隆过滤器

哈希应用: 位图 + 布隆过滤器

文章目录哈希应用: 位图布隆过滤器1. 位图1.1 提出问题1.2 位图概念1.3 位图实现1.4 位图应用1.4.1 变形题1代码 1.4.2 变形题21.4.3 找文件交集思路1思路2 1.4.4 总结 1.5 位图优缺点 2. 哈希切割3. 布隆过滤器3.1 提出问题3.2 布隆过滤器概念3.3 布隆过滤器的各个接口3.3.…

阅读更多...

MySQL---优化（insert、order by 、group by 、limit、子查询）

MySQL---优化（insert、order by 、group by 、limit、子查询）

1. insert语句优化当进行数据的insert操作的时候，可以考虑采用以下几种优化方案: -- 如果需要同时对一张表插入很多行数据时，应该尽量使用多个值表的insert语句，这种方式将大大的缩减 -- 客户端与数据库之间的连接、关闭等消耗。使得效率比…

阅读更多...

推荐文章

最新文章