14.处理大数据集

news2025/4/26 19:55:13

14.1 随机梯度下降

假设你正在使用梯度下降来训练一个线性回归模型

当m个样本的m很大时，求和计算量太大了。这种梯度下降算法有另外一个名字叫做批量梯度下降（batch gradient desent）。这种算法每次迭代需要使用全量训练集，直到算法收敛。

随机梯度下降：

随机打乱所有数据
在i=1...m中进行循环，也就是对所有的训练样本进行遍历，然后更新 $\theta$

随机梯度下降算法对每个数据分开处理，对一个数据更新所有的参数。梯度下降算法是在每次更新参数的时候，需要计算所有数据。对比下来SGD（随机梯度下降）的速度要快一些，不过收敛性可能没GD（梯度下降）好。

如何判断SGD的收敛以及如何选择合适的学习率 $\alpha$ ？

首先定义cost函数，然后每隔1000次迭代画出cost的图像，根据均值来判断；如果噪声太多图像上下震荡，可以选择更多的迭代次数；如果随着迭代次数cost增加，那么选择更小的 $\alpha$ 。

SGD一般不能得到全局最优，他会一直在最优值附近徘徊。学习率的大小一般保持不变，一个思路是可以动态的改变学习率 $\alpha$ 的大小来提高准确度，比如随着迭代次数的增加慢慢减小 $\alpha$ 的值。

14.2 Mini-Batch梯度下降

批量梯度下降：每次迭代都要用到所有的m个样本；

随机梯度下降：每次迭代只需要一个样本；

Mini-Batch梯度下降：每次迭代会使用b个样本，这里的b是一个成为Mini-Batch大小的参数。（将数据分为多份，对每一份执行GD，相当于GD和SGD的综合）

Mini-Batch梯度下降比随机梯度下降更快应该是因为取b个样本更能保证更新是沿着代价函数减小的方向。

14.3 在线学习机制

在线学习机制让我们可以模型化一些问题：有连续一波数据或连续的数据流想要用算法从中学习的这类问题。（大数据杀熟算法hhhh）

14.4 减少映射和数据并行

假设我们要训练一个线性回归模型或者是逻辑回归模型亦或其他模型。

Map-reduce利用了线性回归求和运算的特性，将GD对整个数据的求和处理，分摊到多个服务器上执行，最后各个服务器把结果汇总到一起进行合并。

它和mini-batch应该是不一样的。mini-batch是对每b个样本迭代一次后更新参数，这个数据并行只是将数据切割成4份而已，更像是批量梯度下降的细分。

逻辑回归也可以这样

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/668331.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【代码阅读软件】Source Insight 4 使用教程 | 很详细——适合新手

【代码阅读软件】Source Insight 4 使用教程 | 很详细——适合新手

目录一、概述二、常用的几个窗口👉2.1 符号窗口（Symbol Window）👉2.2 项目文件窗口（Project Window）👉2.3 关系窗口（Relation Window）👉2.4 上下文窗口&…

阅读更多...

STM32--基于固件库（Library Faction）的led灯点亮

STM32--基于固件库（Library Faction）的led灯点亮

目录一、STM32芯片的简单介绍二、基于固件库（Library Faction）的led灯点亮这是一个学习stm32的开端，我们由简入难，之前学过C51/52或是其他型号的一般都是从led开始，也就是简单的输入输出端口的应用。（想…

阅读更多...

SpringBoot整合模板引擎Thymeleaf（1）

SpringBoot整合模板引擎Thymeleaf（1）

版权声明本文原创作者：谷哥的小弟作者博客地址：http://blog.csdn.net/lfdfhl Thymeleaf概述 Thymeleaf是一种用于Web和独立环境的现代服务器端的Java模板引擎，主要目标是将优雅的自然模板带到开发工作流程中，并将HTML在浏览器中…

阅读更多...

【kubernetes】Etcd集群部署与验证

【kubernetes】Etcd集群部署与验证

前言：二进制部署kubernetes集群在企业应用中扮演着非常重要的角色。无论是集群升级，还是证书设置有效期都非常方便，也是从事云原生相关工作从入门到精通不得不迈过的坎。通过本系列文章，你将从虚拟机准备开始，到使用二进制方式从零到一搭建起安全稳定的高可用kubernetes集…

阅读更多...

吐血整理，性能测试Jmeter分布式压测遇坑总结+解决

吐血整理，性能测试Jmeter分布式压测遇坑总结+解决

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言为什么要使用分布…

阅读更多...

JSON.parse() 全面用法介绍

JSON.parse() 全面用法介绍

JSON 通常用于与服务端交换数据。在接收服务器数据时一般是字符串。我们可以使用 JSON.parse() 方法将数据转换为 JavaScript 对象。语法 JSON.parse(text[, reviver]) text:必需， 一个有效的 JSON 字符串。 reviver: 可选，一个转换结果的函数&#xf…

阅读更多...

SPI协议解析

SPI协议解析

SPI协议介绍引言介绍SPI简介物理层协议层通讯的起始和停止信号SPI 模式优缺点优点缺点使用例程基于STM32的SPI通信准备硬件连接软件实现总结引言 SPI是串行外设接口的缩写，是一种高速的，全双工，同步的通信总线。由于SPI高速和同步的特…

阅读更多...

vite环境变量与模式

vite环境变量与模式

环境变量 Vite 在一个特殊的 import.meta.env 对象上暴露环境变量。这里有一些在所有情况下都可以使用的内建变量： import.meta.env.MODE: {string} 应用运行的模式。 import.meta.env.BASE_URL: {string} 部署应用时的基本 URL。他由base 配置项决定。 import.m…

阅读更多...

【ESP8266】使用MQTT协议连接华为云iotDA，实现设备属性上报

【ESP8266】使用MQTT协议连接华为云iotDA，实现设备属性上报

相关资料：https://github.com/CQUPTLei/ESP8266 往期文章：【ESP8266】基础AT指令和常用WIF指令【MQTT 5.0】协议 ——发布订阅模式、Qos、keepalive、连接认证、消息结构一、华为云iotDA1.1 什么是iotDA1.2 创建 iotDA 产品二、使用ESP8266上报设备…

阅读更多...

【杂谈理解】STM32F10X标准库工程模板

【杂谈理解】STM32F10X标准库工程模板

前言基于STM官网的STM32F10x标准外设库V3.6.0版本，文件的操作流程是参考江科大的。记录下此文方便学习和回忆。文章后也会放置完整的工程文件和意法官网下载STM32F10x标准外设库的压缩包。流程到意法官网下载STM32F10x标准外设库的压缩包。先找到压缩包的地址&a…

阅读更多...

CMake详解

CMake详解

file文件操作 cmake的file命令_cmake file_物随心转的博客-CSDN博客 set指令 CMake中的set指令详解_cmake set_guanguanboy的博客-CSDN博客 include_directories指令 Cmake命令之include_directories介绍 - 简书 add_subdirectory Cmake命令之add_subdirectory介绍 - 简书…

阅读更多...

两台电脑用网线传输文件的一些问题解决

两台电脑用网线传输文件的一些问题解决

两台电脑用网线传输文件步骤如下： 一、两台电脑插上网线网线568A和568B可能没什么影响二、 ipv4地址配置两个网线插上电脑会自动生成一个ipv4地址 cmd里使用ipconfig查看用这个就行了如果不想用自动生成的ip地址也可以自己配置ipv4地址和网关&#xff08…

阅读更多...

升级Nginx

升级Nginx

目录前言一、升级Nginx 1）首先在官网下载一个新版本的Nginx 2）首先将下载的压缩包进行解包 3）进入已解包的目录中 4）配置安装路径 5）make 6）备份原来Nginx的资源 7）重启Nginx服务 8&#…

阅读更多...

面向对象程序设计|运算符重载

面向对象程序设计|运算符重载

题目一：分数的加减乘除（运算符重载） 题目描述： Fraction类的基本形式如下： 要求如下： 1.实现Fraction类；common_divisor()和contracted()函数体可为空，不实现具体功能。 2.编写m…

阅读更多...

Qt QPainterPath

Qt QPainterPath

作用为painter设置好绘画路径成员函数 painter.drawPath() 1,使用当前笔画轮廓; 2,填充path指定的路径绘画出来的图形。 xxx.to() lineTo() moveTo() 使用path作画，一定要先将path的启动移动到需要开始绘画的点，否则默认从 （0&…

阅读更多...

【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数

【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数

Hive内置函数：单行函数、聚合函数、炸裂函数、窗口函数。 --查看系统内置函数： show functions;--查看内置函数用法： desc function 函数名;--查看内置函数详细信息： desc function extended 函数名；一、单行函数单行…

阅读更多...

GDB调试大全

GDB调试大全

嵌入式开发必备工具！！！学就完事了！！！ 目录 GDB初使用准备条件：Makefile，section1.cpp 初步使用命令启动调试启动调试别传入参数附加到进程逐过程执行逐语句执行退出函…

阅读更多...

apm装机教程（二）：四旋翼

apm装机教程（二）：四旋翼

文章目录前言一、接线二、刷固件三、设置机架四、校准遥控器五、设置遥控开关六、校准传感器七、设置参数前言硬件： pix2.4.8 250穿越机云卓T10遥控软件： APM4.3.7 QGC MP 一、接线 GPS接gps和i2c口，接收机的p/s口接飞控RCIN 二、刷…

阅读更多...

SAP从入门到放弃系列之BOM行项目类别-R类别-Part3

SAP从入门到放弃系列之BOM行项目类别-R类别-Part3

文章目录一、BOM行项目类别设置二、BOM主数据维护三、参数详解3.1、尺寸大小3.2、尺寸大小单位3.3、公式3.4、所需数量3.5、可变尺寸数量3.6、可变尺寸数量单位四、测试示例演示：小结一、BOM行项目类别设置创建或者更改BOM时，BOM行项目类别选择R&am…

阅读更多...

SSM超市库存商品管理系统+jsp【附万字文档(Lun文)】

SSM超市库存商品管理系统+jsp【附万字文档(Lun文)】

主要功能管理员权限登录： ①主页、个人中心：修改密码、个人信息 ②员工管理：可以根据员工姓名、手机号、身份证查询，以及增删改查操作 ③会员管理：可以根据会员姓名、手机号、身份证查询，以及增删改查操作…

阅读更多...

推荐文章

最新文章