7.关于线性回归模型的QA

7.关于线性回归模型的QA

news2025/4/12 8:12:12

为什么使用平方损失而不是绝对差值呢？

答：二者区别不大，但是绝对差值是一个不可导的函数，在零点的时候，绝对差值的导数会有点难求。

损失为什么要求平均？

答：求平均的话，梯度是在一个样本的scale上，不求平均的话，得到的损失是batch_size个样本或者整个样本，那相应的得到梯度会比较大。在损失上除以n其实就等价于梯度也除以了n。学习率就是为了（学习率*梯度）这一块不要太大也不要太小。除以n的好处就是，不论样本多大或者批量batch_szie多大，梯度的值都是差不多的，因为都是在一个样本的scale上，这样比较好调学习率

线性回归损失函数是不是通常都是mse？

答：是的。一般都是。
在这里插入图片描述

不管是梯度下降gd 还是随机梯度下降 sgd怎么找到合适的学习率？有什么好的方法吗？

答：一是可以找到一个对学习率不那么敏感的算法，比如说adam。二是可以进行合理的参数初始化使得学习率很容易取得。

batch_size 是否会最终影响模型结果？

答：batch_size过小会有利于梯度计算的精确。在丢弃法dropout，batch_size在同样的计算，例如扫数据扫多少遍，epoch=3，batch_size越小，对收敛越好。随机梯度下降理论上是带来了噪音（跟真实的数据的差距），采样样本越小，噪音越多。

例如有一百万个样本，每次采样两张图片，那么噪音会比较大，跟真实的方向会差很远。

但是噪音对神经网络是件好事，因为现在深度神经网络都太复杂了，一定的噪音，使得你不会走偏。噪声可以防止过拟合，使得整个模型的泛化性更好。

训练过程中，过拟合和欠拟合情况下，学习率和批量大小该如何进行调整呢？有什么常见的策略吗？

答：理论上，学习率和批量大小不太会影响到最后的收敛结果。

针对batch_size大小的数据集进行网络训练的时候，网络中每个参数更新时减去的梯度是batch_size中每个样本对应参数梯度求和后取得平均值吗？

答：是的。

detach（）有什么作用？

答：希望将某些计算移动到记录的计算图之外，那就使用detach（）。此外，想转numpy，也需要先做一下detach（）

本质上要用SGD，是因为大部分的实际loss太复杂，推导不出导数为0的解，只能逐个batch去逼近。（只有线性回归有显示解）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/58101.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

原语科技宣布完成千万级天使+轮融资，致力于打造隐私计算标准化产品

原语科技宣布完成千万级天使+轮融资，致力于打造隐私计算标准化产品

原语科技开放隐私计算开放隐私计算开放隐私计算OpenMPC是国内第一个且影响力最大的隐私计算开放社区。社区秉承开放共享的精神，专注于隐私计算行业的研究与布道。社区致力于隐私计算技术的传播，愿成为中国 “隐私计算最后一公里的服务区”。 180篇…

阅读更多...

【基础算法】多项式三大运算 C++实现

【基础算法】多项式三大运算 C++实现

●多项式计算一维多项式就是包含一个变量的多项式，一个一维多项式示例如下： 一维多项式求值就是对于上述多项式，计算在指定的x处的函数值。一个通用的计算多项式值的算法可以采用递推的方式，可以将上述多项式变为如下的等价形式…

阅读更多...

位运算离散化区间和算法

位运算离散化区间和算法

目录一、位运算1.1 思路1.1 例题：二进制中1的个数二、离散化2.1 概念2.2 例题：区间和三、合并区间3.1 概念3.2 例题：合并区间一、位运算 1.1 思路首先知道一个概念：一个正整数的负数等于其按位取反后1 -x ~x 1 举个例子&…

阅读更多...

干货——生产型企业的供应商管理系统模板

干货——生产型企业的供应商管理系统模板

供应商管理主要是是通过提高供货产品和服务质量及交付能力，缩短企业采购周期和生产成本，从而提升产品核心竞争力。随着如今信息技术的发展，采用先进的信息化手段更能够提升供应商管控能力，实现资源的有效整合，从而加强…

阅读更多...

[附源码]计算机毕业设计疫苗药品批量扫码识别追溯系统Springboot程序

[附源码]计算机毕业设计疫苗药品批量扫码识别追溯系统Springboot程序

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

测试服务器的udping值

测试服务器的udping值

测试服务器的udping值参考下载工具步骤一：在服务器上启动UDP Echo服务(必须)启动**UDP Echo服务**步骤二：在客户端下载UDPing工具步骤三：在客户端测试UDPing值参考 https://help.aliyun.com/document_detail/158771.html UDPing项目地址: h…

阅读更多...

阿里资深架构师整理分享的分布式系统架构：技术栈详解与进阶文档

阿里资深架构师整理分享的分布式系统架构：技术栈详解与进阶文档

前言有人调侃我们说： 程序员不如送外卖。送外卖是搬运食物，自己是搬运代码，都不产出新的东西……透支体力，又消耗健康，可替代性极强，30岁之后就要面临被优化的危险……想跳槽，但是更高的平台…

阅读更多...

PyTorch 2.0 重磅发布：一行代码提速 30%

PyTorch 2.0 重磅发布：一行代码提速 30%

在今天的 PyTorch 2022 开发者大会上，PyTorch 团队发布了一个新特性torch.compile，这个新特性将 PyTorch 的性能推向了新高度，并开始将 PyTorch 的部分实现从 C 中迁移到 Python 中。他们相信这是 PyTorch 一个实质性的新方向--因此称之为 **…

阅读更多...

（最优化理论与方法）第六章无约束优化算法-第一节：线搜索方法

（最优化理论与方法）第六章无约束优化算法-第一节：线搜索方法

文章目录一：无约束优化问题概述二：线搜索方法（1）概述（2）线搜索准则A：Armijo准则①：概述②：Armjio准则缺陷③：回退法④：代码B：Goldstei…

阅读更多...

从固定管线到可编程管线：十段代码入门OpenGL

从固定管线到可编程管线：十段代码入门OpenGL

文章目录1. 最简单的OpenGL应用程序2. 视点系统和投影矩阵3. 深度缓冲区和深度测试4. 模型的旋转和平移5. VBO和顶点混合数组6. 纹理映射和纹理坐标7. 光照和法向量计算8. 最简单的着色器程序9. 着色器中的MVP矩阵10. 着色器中的漫反射、镜面反射和高光计算1. 最简单的OpenGL应…

阅读更多...

【什么是区块链】

【什么是区块链】

区块链技术简介前言一、区块链技术简介二、区块链的特点1.去中心化2.去信任3.不可篡改和伪造4.可溯源5.匿名性三、区块链用到的技术1.非对称密码算法2.哈希函数3.P2P网络4.安全多方计算前言比特币与区块链的关系： 2008年中本聪（Satoshi Nakamoto&…

阅读更多...

Python中logging日志模块详解

Python中logging日志模块详解

用Python写代码的时候，在想看的地方写个print xx 就能在控制台上显示打印信息，这样子就能知道它是什么了，但是当我需要看大量的地方或者在一个文件中查看的时候，这时候print就不大方便了，所以Python引入了logging模块来…

阅读更多...

104.二叉树的最大深度 | 111.二叉树的最小深度

104.二叉树的最大深度 | 111.二叉树的最小深度

文章目录二叉树的深度104.二叉树的最大深度题目题解111.二叉树的最小深度题目题解二叉树的深度 104.二叉树的最大深度题目给定一个二叉树，找出其最大深度。二叉树的深度为根节点到最远叶子节点的最长路径上的节点数。说明: 叶子节点是指没有子节点的节点。…

阅读更多...

Mac终端常用命令

Mac终端常用命令

1、打开窗口命令快速打开：command空格（打开查询），输入ter回车打开多个窗口：commandN（光标在终端执行此操作） 2、目录操作命令名命令功能备注 cd 打开当前目录 cd dirname pwd 显示…

阅读更多...

Java 调用 Cpp 代码简单示例

Java 调用 Cpp 代码简单示例

Java 调用 Cpp 代码前言：首先说明一下，本篇文章是干嘛的，简单来说就是在 Java 代码里调用 C 代码。但是呢，这里只做一个简单的示例，调用最简单的 C 代码，起到一个抛砖引玉的作用。如有不对之处&#xff0…

阅读更多...

选择编码节点的最佳数量和位置研究（Matlab代码实现）

选择编码节点的最佳数量和位置研究（Matlab代码实现）

👨‍🎓个人主页：研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜…

阅读更多...

[附源码]计算机毕业设计校园招聘微信小程序Springboot程序

[附源码]计算机毕业设计校园招聘微信小程序Springboot程序

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

代码随想录训练营第39天|LeetCode 62.不同路径、63. 不同路径 II

代码随想录训练营第39天|LeetCode 62.不同路径、63. 不同路径 II

参考代码随想录题目一：LeetCode 62.不同路径相比于之前的爬楼梯，这题变成了二维，对于某个位置[i,j]，可以从[i-1,j]或者[i,j-1]走到[i,j]，因此在求解思想上其实是类似于爬楼梯的。确定dp数组及其下标的含义 dp[…

阅读更多...

Android Camera性能分析 - 第26讲 DequeueBuffer Latency

Android Camera性能分析 - 第26讲 DequeueBuffer Latency

本讲是Android Camera性能分析专题的第26讲 ，我们介绍DequeueBuffer Latency，包括如下内容： DequeueBuffer Latency是什么DequeueBuffer Latency配置DequeeuBuffer Latency实战视频在线观看： 极客笔记：极客笔记在…

阅读更多...

JavaScript正则表达式：正则表达式中的特殊字符

JavaScript正则表达式：正则表达式中的特殊字符

正则表达式的组成一个正则表达式可以由简单的字符构成，比如 /abc/，也可以是简单和特殊字符的组合，比如 /ab*c/ 。其中特殊字符也被称为元字符，在正则表达式中是具有特殊意义的专用符号，如 ^ 、$ 、等。特殊字符非…

阅读更多...

推荐文章

最新文章