【机器学习300问】79、Mini-Batch梯度下降法的原理是什么?

news2024/12/23 19:55:38

       Mini-Batch梯度下降法是一种将训练数据集分成小批次进行学习的优化方法,通过这种方式,可以有效地解决内存限制问题并加速学习过程。

一、为什么要使用Mini-Batch?

        在机器学习尤其是深度学习中,我们常常面临海量数据处理的问题。如果我们一次性将所有的数据加载进内存做训练,很可能会遇到内存不足的情况。此外,处理如此大批量的数据也会导致训练速度变慢。为了解决这个问题,Mini-Batch技术应运而生。

二、什么是批量梯度下降?

        让我们理解一下批量梯度下降(Batch Gradient Descent, BGD)的概念。这种方法在每次迭代时使用全部样本来进行梯度的更新。这样做的优点是可以确保梯度估计的无偏性,并且当目标函数为凸函数时,可以保证收敛到全局最小值。然而,当数据集非常大时,遍历所有样本需要大量的时间,这就是BGD的主要缺点。

        为了解决大数据集带来的问题,Mini-Batch梯度下降(Mini-Batch Gradient Descent, MBGD)就应运而生了。它是BGD的一种改良方法,通过将整个数据集分成若干个小批次,每次只使用一个小批次的数据来更新梯度。这样既保留了BGD的一些优点,比如更准确地朝向极值所在的方向,又显著减少了每次迭代所需的计算量。

三、Mini-Batch举例说明

        假设我们有一个包含1000个样本的训练集,我们可以选择每个批次包含64个样本,那么我们将有16个这样的批次(因为1000除以64得到15余数为40,所以还有一个批次包含剩余的40个样本)。然后我们会对这16个批次分别执行一步梯度下降法,更新我们的模型参数。

四、Mini-Batch的大小设置

(1)大小设置的三种情况 

随机梯度下降(SGD)Mini-Batch梯度下降(MBGD)批量梯度下降(BGD)
Mini-Batch Size = 1Mini-Batch Size = kMini-Batch Size = m
失去向量化的加速训练效果。

使用向量化技术加速训练;

无须等待所有数据被处理即可进行后续工作。

耗时长、迭代次数多。

         如果Mini-Batch的大小设置为1,那么Mini-Batch梯度下降实际上就变成了随机梯度下降(Stochastic Gradient Descent,SGD)。在SGD中,每次迭代只使用一个样本来计算梯度并更新模型参数。由于只用到了一个样本,所以SGD的计算速度非常快,并且可以支持在线学习,即模型可以在新数据到来时实时更新。然而,SGD的缺点在于因为每个样本都会产生一个梯度估计,这些估计值可能会有很大的变异性,导致优化过程出现很多震荡,收敛路径不够平滑。

        如果Mini-Batch的大小设置为训练集的大小m,那么Mini-Batch梯度下降实际上就变成了批量梯度下降(Batch Gradient Descent,BGD)。在BGD中,每次迭代使用整个训练集来计算梯度并更新模型参数。由于使用了全部的训练样本,所以BGD可以得到最准确的梯度估计,从而使得优化过程更加稳定。然而,BGD的缺点在于计算速度非常慢,因为需要遍历整个训练集。此外,当数据集非常大时,可能会导致内存不足的问题。

        上图是梯度下降空间。 蓝色的部分是BGD、紫色部分是SGD、绿色部分是Mini-Batch。 Mini-Batch不是每次迭代损失函数都会减少,所以看上去好像走了很多弯路。 不过整体还是朝着最优解迭代的。 而且由于Mini-Batch一个epoch就走了\frac{m}{MiniBacth_{size}}步,而BGD一个epoch只有一步。所以虽然Mini-Batch走了弯路但还是会快很多。

(2)训练速度与稳定性的权衡

mini-Batch的大小是权衡速度与稳定性的一种方式。所以Batch Size是一个超参数。

  • 当大小为1时,我们获得了最快的训练速度,但可能牺牲了一定的稳定性。而当我们增加mini-Batch的大小时,虽然单次迭代所需的时间会增加,但梯度估计会变得更加稳定,从而使得整个优化过程更加平滑。
  • 当大小为m时,我们获得了最快的训练速度和最稳定的优化过程,但可能会面临内存不足的问题。而当我们减小mini-Batch的大小时,虽然单次迭代所需的时间会增加,但可以解决内存不足的问题,并且梯度估计也会变得更加稳定,从而使得整个优化过程更加平滑。

 (3)常见的Batch Size选择

        Batch Size超参数其选择大多取决于具体的计算资源、数据集大小、模型复杂度和训练目标他并不是一个固定的数字,而是需要根据具体情况来调整。以下是一些选择Batch Size时需要考虑的因素:

  • 一般设置:2的n次方。 例如64,128,512,1024. 一般不会超过这个范围。不能太大,因为太大了会无限接近BGD的行为,速度会慢。 也不能太小,太小了以后可能算法永远不会收敛。 
  • 计算资源:较大的Batch Size需要更多的内存和计算资源。如果计算资源有限,可以选择较小的Batch Size,例如32或64。
  • 数据集大小:对于较小的数据集,选择较小的Batch Size通常更合适,以避免模型过度拟合训练数据。
  • 模型复杂度:简单模型可以使用较大的Batch Size,因为计算量相对较小。复杂模型则建议使用较小的Batch Size,以充分训练模型。
  • 训练目标:如果追求最大化训练速度,可以选择较大的Batch Size。若目标是获得更好的模型性能,则建议使用较小的Batch Size。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1658588.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

内网穿透速度慢

内网穿透速度慢原因及优化策略 在计算机网络应用中,内网穿透是一个常见的需求,它允许外部网络访问位于内部网络(如企业局域网或家庭网络)中的设备或服务。然而,有时用户在进行内网穿透时会遇到速度慢的问题&#xff0…

10大排序方法,其中这里只介绍前7种(第4种C语言,其它C++语言)

排序方法有十种,分别是:一、冒泡排序;二、选择排序;三、插入排序;四、希尔排序;五、归并排序;六、快速排序;七、堆排序;八、计数排序;九、桶排序;…

1011: 二叉排序树的实现和查找

解法: 二叉排序树(Binary Search Tree,简称BST)也被称为二叉搜索树或二叉查找树,是一种重要的二叉树结构,它具有以下性质: 左子树上所有节点的值都小于根节点的值;右子树上所有节点的…

2024粤港澳青少年信息学创新大赛C++知识点汇总和真题训练

2024粤港澳青少年信息学创新大赛C知识点汇总和真题训练 知识汇总 真题训练 程序设计语言C是一种解释性语言。 A.正确 B.错误 Python是一种编译型语言。 A.正确 B.错误 误 RAM(随机存取存储器)是一种易失性存储设备。 A.正确 B.错误 Java…

单节锂电池充电芯片H4054无需外接检测电阻500mA电流7V输入

锂电池充电芯片的主要功能如下: 充电管理功能:充电芯片能够对锂电池进行智能化管理,根据电池的状态和需求,调节充电电流和电压,以实现快速充电、恒流充电、恒压充电等不同的充电模式。通过合理控制充电过程&#xff0…

Selenium定位方法汇总及举例

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

头歌实践教学平台:CG1-v2.0-直线绘制

第1关&#xff1a;直线光栅化-DDA画线算法 一.任务描述 1.本关任务 (1)根据直线DDA算法补全line函数&#xff0c;其中直线斜率0<k<1&#xff1b; (2)当直线方程恰好经过P(x,y)和T(x,y1)的中点M时&#xff0c;统一选取直线上方的T点为显示的像素点。 2.输入 (1)直线两…

接口用例设计方法

一、单接口测试 例如&#xff1a;登录、获取天气等等 1、正向测试&#xff08;也就是正确测试&#xff0c;比如&#xff1a;登录成功&#xff09; 1.必填参数组合 P0 (正确用户名和正确的密码) 2.必填非必填组合 1)全部参数组合 P1 2)其他参数组合 P2/P3 2、…

16【PS Aseprite 作图】图像从Aseprite传输到PS

【内容背景】Aseprite很适合做像素图&#xff0c;有一个“完美像素”的选项&#xff0c;就不用在PS里面慢慢修线&#xff0c;能够省事很多 【具体操作】 勾选完美像素 Aseprite里面的“完美像素”能够减少修线的步骤&#xff0c;在“作图”的时候一定要注意勾选 导出 选择…

Java17 --- SpringCloud之Zipkin链路追踪

目录 一、下载zipkin及运行 二、在父工程中引入pom依赖 三、在子工程8001引入相关pom依赖 3.1、修改yml配置文件 3.2、测试代码 四、在子工程80引入相关pom依赖 4.1、修改yml配置文件 4.2、测试代码 五、测试结果 一、下载zipkin及运行 运行控制台访问地址&#xff1…

LLM大语言模型(十四):LangChain中Tool的不同定义方式,对prompt的影响

背景 ChatGLM3-6B的函数调用功能&#xff0c;和LangChain的Tool调用&#xff0c;在prompt上并没有对齐。 参考&#xff1a;LLM大语言模型&#xff08;十二&#xff09;&#xff1a;关于ChatGLM3-6B不兼容Langchain 的Function Call_error: valueerror: caught exception: unk…

AI编码工具-通义灵码功能实测(二)

AI编码工具-通义灵码功能实测&#xff08;二&#xff09; 通义灵码智能问答 在上一篇文章中&#xff1a;https://blog.csdn.net/csdn565973850/article/details/138563670?spm1001.2014.3001.5501 讲述了通义灵码的7大应用场景&#xff0c;这里在使用过程中遇到了一些问题&…

如何向Linux内核提交开源补丁?

2021年&#xff0c;我曾经在openEuler社区上看到一项改进Linux内核工具的需求&#xff0c;因此参与过Linux内核社区的开源贡献。贡献开源社区的流程都可以在内核社区文档中找到&#xff0c;但是&#xff0c;单独学习需要一个较长的过程&#xff0c;新手难以入门&#xff0c;因此…

springboot+vue+mybatis警情高发智能灯箱+PPT+论文+讲解+售后

时代在飞速进步&#xff0c;每个行业都在努力发展现在先进技术&#xff0c;通过这些先进的技术来提高自己的水平和优势&#xff0c;警情高发智能灯箱当然不能排除在外。警情高发智能灯箱是在实际应用和软件工程的开发原理之上&#xff0c;运用微信开发者、java语言以及SpringBo…

超标量处理器设计:寄存器重命名(1)介绍

★继续学习体系结构的知识。 指令之间的相关性 1.数据相关性 具体分为三类&#xff1a; (1) Output Dependence (WAW)&#xff1a;当两条指令尝试向同一个寄存器写入数据时发生。后面的写操作必须等待前面的写操作完成&#xff0c;因为它们争夺同一资源。 (2) Anti-Depende…

大厂面试sql手撕题目总结

文章目录 1. 常用函数1. 日期函数 2. 行转列&#xff08;转置&#xff09;1. 行转列 连续N天登录1. 查询出连续三天登录的人员姓名 N日留存率1. 求用户当天&#xff0c;次日&#xff0c;七日留存率 分组内topN1. 求出每个部门工资最高的前三名员工&#xff0c;并计算这些员工的…

AWS Cli Windows安装配置

1. 安装 下载地址&#xff1a;AWS 命令行界面(CLI)_管理AWS服务的统一工具-AWS云服务 检验安装&#xff1a; > aws --version aws-cli/2.15.44 Python/3.11.8 Windows/10 exe/AMD64 prompt/off 2. 创建IAM用户 1) 创建组 选择IAM 点击创建组 填写用户组名&#xff0c;…

YOLOv5改进 | 独家创新篇 | 利用MobileNetV4的UIB模块二次创新C3(全网独家首发)

一、本文介绍 本文给大家带来的改进机制是利用MobileNetV4的UIB模块二次创新C3&#xff0c;其中UIB模块来自2024.5月发布的MobileNetV4网络&#xff0c;其是一种高度优化的神经网络架构&#xff0c;专为移动设备设计。它最新的改动总结主要有两点&#xff0c;采用了通用反向瓶…

synchronized关键字和ReentrantLock锁区别

synchronized关键字和ReentrantLock锁是Java中用于同步的两个重要机制&#xff0c;它们在很多方面有所不同&#xff1a; 1. **锁定范围**: synchronized关键字只能在方法的执行过程中提供锁定&#xff0c;而ReentrantLock可以锁定任何对象&#xff0c;包括方法、代码块和对象。…

django项目结构介绍

小白的django学习笔记 五一前的某天 文章目录 django项目结构介绍项目的基本配置templates项目模块manage.pyExternal Libraries django项目结构介绍 项目的基本配置 在这里配置&#xff0c;跟工程名是一样的 templates 放网页、js、css的地方 django 项目模块 项目开发时&…