神经网络的工程基础（三）——更优化的最优化算法

神经网络的工程基础（三）——更优化的最优化算法

news2026/2/14 15:48:24

相关说明

这篇文章的大部分内容参考自我的新书《解构大语言模型：从线性回归到通用人工智能》，欢迎有兴趣的读者多多支持。

本文将讨论更优化的最优化问题算法。

关于大语言模型的内容，推荐参考这个专栏。

内容大纲

相关说明
一、概述
二、算法细节

一、概述

回顾一下随机梯度下降法的设计思路。虽然这个方法放弃了严格的数学严谨性，只采用小批量数据的平均梯度来近似数学上严格定义的梯度，但在实际应用中取得了显著的效果。在学术界，这种算法被称为标准随机梯度下降法（Vanilla SGD）。事实上，我们可以延续这一思路，在标准随机梯度下降法的基础上对梯度进行更深入的处理，以进一步提升算法的性能，如图1所示。

图1

二、算法细节

图1展示了3种不同的梯度深加工的思路，分别是直接使用、动量因素和梯度“归一化”。

直接使用：它代表了标准随机梯度下降法的基本形式，即直接使用小批量数据的平均梯度来更新模型参数。
动量因素：在物理世界中，动量是指物体在运动方向上保持运动的趋势。类比到优化中，动量随机梯度下降法引入了动量项，允许模型参数在更新时累积之前的梯度信息（具体的公式如图2所示）。这种方法有助于跳出局部最小值，加速收敛到全局最小值，代表性算法包括Momentum SGD和Nesterov Momentum。
梯度“归一化”：之前的方法都是全局地使用相同的学习速率，这可能导致不同参数的收敛速度不一致。为了解决这个问题，可以在算法中直接对梯度做类似归一化的处理，从而更好地平衡各个参数的更新效率。这类算法的代表有Adagrad和RMSprop。

图2

将动量因素和梯度归一化这两种优化思路相结合，就得到了一种强大的优化算法——Adam（Adaptive Moment Estimation）。Adam优化算法在实际应用中十分常见，尤其在深度学习领域广泛应用。它的独特之处在于综合了动量因素和梯度归一化的思想，以及自适应地调整学习速率和动量参数，从而在模型训练过程中更高效地更新模型参数。然而，该算法的细节相当烦琐，在此不深入讨论。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1686795.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【你眼中的IT行业现状与未来趋势展望】

【你眼中的IT行业现状与未来趋势展望】

随着技术的不断进步，IT行业已成为推动全球经济和社会发展的关键力量。从云计算、大数据、人工智能到物联网、5G通信和区块链，这些技术正在重塑我们的生活和工作方式。你眼中IT行业的现状及未来发展趋势是怎么样的？无论您是行业领袖、技术专家…

阅读更多...

K8S中Prometheus+Grafana监控

K8S中Prometheus+Grafana监控

1.介绍 phometheus:当前一套非常流行的开源监控和报警系统。运行原理：通过HTTP协议周期性抓取被监控组件的状态。输出被监控组件信息的HTTP接口称为exporter。常用组件大部分都有exporter可以直接使用，比如haproxy,nginx，Mysql,Linux系统信…

阅读更多...

论文精读：UFO: A UI-Focused Agent for Windows OS Interaction

论文精读：UFO: A UI-Focused Agent for Windows OS Interaction

UFO : A UI-Focused Agent for Windows OS Interaction Status: Reading Author: Bo Qiao, Chaoyun Zhang, Dongmei Zhang, Liqun Li, Minghua Ma, Qinglong Zhang, Qingwei Lin, Saravan Rajmohan, Shilin He, Si Qin, Xiangyu Zhang, Yu Kang Institution: 微软（…

阅读更多...

Xline 0.7重构性能分析总述

Xline 0.7重构性能分析总述

1、重构概述在Xline 0.7.0中，我们完成了对Xline代码库中进行了一次较大的重构。这次重构在某些性能测试中甚至使得Xline获得了近20倍的性能提升。在本文中我会讲解Xline中重构后命令执行流程的新设计，以及我们是如何优化Xline的性能的。 2、etcd的性能…

阅读更多...

Map遍历、反射、GC

Map遍历、反射、GC

map的遍历用foreach遍历 HashMap<Character,Integer> map new HashMap<>();map.put(A,2);map.put(B,3);map.put(C,3);for (Map.Entry<Character,Integer> entry: map.entrySet()) {char key entry.getKey();int value entry.getValue();System.out.prin…

阅读更多...

Nacos 进阶篇---服务发现：服务之间请求调用链路分析（六）

Nacos 进阶篇---服务发现：服务之间请求调用链路分析（六）

一、引言前面几个章节把Nacos服务注册从客户端到服务端，整个流程源码都分析了一遍。本章节我们来分析，order-service、stock-service 完成Nacos注册后，可以通过Feign的方式，来完成服务之间的调用。那它的底层是如何实现的&am…

阅读更多...

linux下的docker使用

linux下的docker使用

docker是什么，docker翻译过来的意思就是码头工人，顾名思义，docker本质上就是一个搬运工，只不过从搬运货物改成了搬运程序，使搬运的不同的程序能够独立的运行在码头上的不同容器内，互不干扰，而他…

阅读更多...

不使用ScrollRect 和 HorizontalLayoutGroup做的横向循环列表

不使用ScrollRect 和 HorizontalLayoutGroup做的横向循环列表

一、版本一 1.前情提要因为需要展示300多个相同的物体，但是如果全部放在场景内，运行起来会很卡，所以想到了用无限循环，然后动态填充不同的数据。做的这个没有用HorizontalLayoutGroup 和 ScrollRect 。 1.没有使用Horizontal…

阅读更多...

Git原理及常用命令小结——实用版（ing......）、Git设置用户名邮箱

Git原理及常用命令小结——实用版（ing......）、Git设置用户名邮箱

Git基本认识 Git把数据看作是对小型文件系统的一组快照，每次提交更新，或在Git中保存项目状态时，Git主要对当时的全部文件制作一个快照并保存这个快照的索引。同时，为了提高效率，如果文件没有被修改，Git不再…

阅读更多...

JSON的序列化与反序列化以及VSCode执行Run Code 报错

JSON的序列化与反序列化以及VSCode执行Run Code 报错

JSON JSON: JavaScript Object Notation JS对象简谱 , 是一种轻量级的数据交换格式。 JSON格式 { "name":"金苹果", "info":"种苹果" } 一个对象：由一个大括号表示.括号中通过键值对来描述对象的属性 (可以理解为, 大…

阅读更多...

操作系统总结（2）

操作系统总结（2）

目录 2.1 进程的概念、组成、特征 （1）知识总览 （2）进程的概念 （3）进程的组成—PCB （4）进程的组成---程序段和数据段 （5）程序是如何运行的呢&#xff1f…

阅读更多...

Android和flutter交互，maven库的形式导入aar包

Android和flutter交互，maven库的形式导入aar包

记录遇到的问题，在网上找了很多资料，都是太泛泛了，使用后，还不能生效，缺少详细的说明，或者关键代码缺失，我遇到的问题用红色的标注了导入aar包有两种模式 1.比较繁琐的，手动将aar…

阅读更多...

Java8-HashMap实现原理

Java8-HashMap实现原理

目录 HashMap原理 hashmap的put流程： HashMap扩容机制： HashMap的寻址算法： HashMap原理 HashMap的底层数据结构是由，数组，链表和红黑树组成的。当我们往HashMap中put元素的时候，利用key的hashCode重…

阅读更多...

HC32F103BCB使用SPI获取AS5040编码器数据

HC32F103BCB使用SPI获取AS5040编码器数据

1.AS5040介绍 2.硬件电路硬件上使用SSI通信方式连接。 3.配置硬件SPI 查看手册，AS5040时序可以看到在空闲阶段不发生数据传输的时候时钟(CLK)和数据(DO)都保持高电位(tCLKFE阶段)，在第一个脉冲的下降沿触发编码器载入发送数据，然后每一个…

阅读更多...

【Unity Shader入门精要第9章】更复杂的光照（四）

【Unity Shader入门精要第9章】更复杂的光照（四）

1. 透明度测试物体的阴影对于物体有片元丢弃的情况，比如透明度测试或者后边会讲到的消融效果，使用默认的 ShadowCaster Pass 会产生问题，这是因为该Pass在生成阴影映射纹理时，没有考虑被丢弃的片元，而是使用完整的模…

阅读更多...

FTP文件传输议

FTP文件传输议

FTP是一种文件传输协议：用来上传和下载，实现远程共享文件，和统一管理文件工作原理：用于互联网上的控制文件的双向传输是一个应用程序。工作在TCP/IP协议簇的，其传输协议是TCP协议提高文件传输的共享性和可靠性&#…

阅读更多...

阅读笔记——《AFLNeTrans：状态间关系感知的网络协议模糊测试》

阅读笔记——《AFLNeTrans：状态间关系感知的网络协议模糊测试》

【参考文献】洪玄泉,贾鹏,刘嘉勇.AFLNeTrans：状态间关系感知的网络协议模糊测试[J].信息网络安全,2024,24(01):121-132.【注】本文仅为作者个人学习笔记，如有冒犯，请联系作者删除。目录摘要 1、引言 2、背景及动机 2.1、网络协议实现程…

阅读更多...

正点原子LWIP学习笔记（二）MAC简介

正点原子LWIP学习笔记（二）MAC简介

MAC简介一、MAC简介（了解）二级目录三级目录二、ST的ETH框架（了解）三、SMI站管理接口（熟悉）四、介质接口MII、RMII（熟悉） 一、MAC简介（了解） STM32 的 MAC …

阅读更多...

Ubuntu24.04设置静态IP地址

Ubuntu24.04设置静态IP地址

Ubuntu24.04设置静态IP地址前言：vm17.5的动态IP问题第一个是设置的静态IP我们可以看到是forever，第二个则是动态IP则是一天的时间。如果我们不设置静态IP的话，那么可能在本地测试项目的时候，第二天发现一些服务不能用了&#…

阅读更多...

13.js对象

13.js对象

定义一种复杂数据类型，是无序的（不保留键的插入顺序），以键值对（{key:value})形式存放的数据集合对象的创建 （1）字面量创建 var 对象名{ } （2）内部构造函数创建 v…

阅读更多...

推荐文章

最新文章