7.关于线性回归模型的QA

news2024/11/11 8:39:42
  1. 为什么使用平方损失而不是绝对差值呢?

答: 二者区别不大,但是绝对差值是一个不可导的函数,在零点的时候,绝对差值的导数会有点难求。

  1. 损失为什么要求平均?

答:求平均的话,梯度是在一个样本的scale上,不求平均的话,得到的损失是batch_size个样本或者整个样本,那相应的得到梯度会比较大。在损失上除以n其实就等价于梯度也除以了n。学习率就是为了(学习率*梯度)这一块 不要太大也不要太小。除以n的好处就是,不论样本多大或者批量batch_szie多大,梯度的值都是差不多的,因为都是在一个样本的scale上,这样比较好调学习率

  1. 线性回归损失函数是不是通常都是mse?

答:是的。一般都是。
在这里插入图片描述

  1. 不管是 梯度下降gd 还是随机梯度下降 sgd怎么找到合适的学习率?有什么好的方法吗?

答:一是可以找到一个对学习率不那么敏感的算法,比如说adam。二是可以进行合理的参数初始化使得学习率很容易取得。

  1. batch_size 是否会最终影响模型结果?

答:batch_size过小会有利于梯度计算的精确。在丢弃法dropout,batch_size在同样的计算,例如扫数据扫多少遍,epoch=3,batch_size越小,对收敛越好。随机梯度下降理论上是带来了噪音(跟真实的数据的差距),采样样本越小,噪音越多。

例如有一百万个样本,每次采样两张图片,那么噪音会比较大,跟真实的方向会差很远。

但是噪音对神经网络是件好事,因为现在深度神经网络都太复杂了,一定的噪音,使得你不会走偏。噪声可以防止过拟合,使得整个模型的泛化性更好。

  1. 训练过程中,过拟合和欠拟合情况下,学习率和批量大小该如何进行调整呢?有什么常见的策略吗?

答:理论上,学习率和批量大小不太会影响到最后的收敛结果。

  1. 针对batch_size大小的数据集进行网络训练的时候,网络中每个参数更新时减去的梯度是batch_size中每个样本对应参数梯度求和后取得平均值吗?

答:是的。

  1. detach()有什么作用?

答:希望将某些计算移动到记录的计算图之外,那就使用detach()。此外,想转numpy,也需要先做一下detach()

  1. 本质上要用SGD,是因为大部分的实际loss太复杂,推导不出导数为0的解,只能逐个batch去逼近。(只有线性回归有显示解)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/58101.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

原语科技宣布完成千万级天使+轮融资,致力于打造隐私计算标准化产品

原语科技 开放隐私计算 开放隐私计算 开放隐私计算OpenMPC是国内第一个且影响力最大的隐私计算开放社区。社区秉承开放共享的精神,专注于隐私计算行业的研究与布道。社区致力于隐私计算技术的传播,愿成为中国 “隐私计算最后一公里的服务区”。 180篇…

【基础算法】多项式三大运算 C++实现

●多项式计算 一维多项式就是包含一个变量的多项式,一个一维多项式示例如下: 一维多项式求值就是对于上述多项式,计算在指定的x处的函数值。一个通用的计算多项式值的算法可以采用递推的方式,可以将上述多项式变为如下的等价形式…

位运算 离散化 区间和算法

目录一、位运算1.1 思路1.1 例题:二进制中1的个数二、离散化2.1 概念2.2 例题:区间和三、合并区间3.1 概念3.2 例题:合并区间一、位运算 1.1 思路 首先知道一个概念:一个正整数的负数等于其按位取反后1 -x ~x 1 举个例子&…

干货——生产型企业的供应商管理系统模板

供应商管理主要是是通过提高供货产品和服务质量及交付能力,缩短企业采购周期和生产成本,从而提升产品核心竞争力。随着如今信息技术的发展,采用先进的信息化手段更能够提升供应商管控能力,实现资源的有效整合,从而加强…

[附源码]计算机毕业设计疫苗药品批量扫码识别追溯系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

测试服务器的udping值

测试服务器的udping值参考下载工具步骤一:在服务器上启动UDP Echo服务(必须)启动**UDP Echo服务**步骤二:在客户端下载UDPing工具步骤三:在客户端测试UDPing值参考 https://help.aliyun.com/document_detail/158771.html UDPing项目地址: h…

阿里资深架构师整理分享的分布式系统架构:技术栈详解与进阶文档

前言 有人调侃我们说: 程序员不如送外卖。送外卖是搬运食物,自己是搬运代码,都不产出新的东西……透支体力,又消耗健康,可替代性极强,30岁之后就要面临被优化的危险……想跳槽,但是更高的平台…

PyTorch 2.0 重磅发布:一行代码提速 30%

在今天的 PyTorch 2022 开发者大会上,PyTorch 团队发布了一个新特性torch.compile,这个新特性将 PyTorch 的性能推向了新高度,并开始将 PyTorch 的部分实现从 C 中迁移到 Python 中。他们相信这是 PyTorch 一个实质性的新方向--因此称之为 **…

(最优化理论与方法)第六章无约束优化算法-第一节:线搜索方法

文章目录一:无约束优化问题概述二:线搜索方法(1)概述(2)线搜索准则A:Armijo准则①:概述②:Armjio准则缺陷③:回退法④:代码B:Goldstei…

从固定管线到可编程管线:十段代码入门OpenGL

文章目录1. 最简单的OpenGL应用程序2. 视点系统和投影矩阵3. 深度缓冲区和深度测试4. 模型的旋转和平移5. VBO和顶点混合数组6. 纹理映射和纹理坐标7. 光照和法向量计算8. 最简单的着色器程序9. 着色器中的MVP矩阵10. 着色器中的漫反射、镜面反射和高光计算1. 最简单的OpenGL应…

【什么是区块链】

区块链技术简介前言一、区块链技术简介二、区块链的特点1.去中心化2.去信任3.不可篡改和伪造4.可溯源5.匿名性三、区块链用到的技术1.非对称密码算法2.哈希函数3.P2P网络4.安全多方计算前言 比特币与区块链的关系: 2008年中本聪(Satoshi Nakamoto&…

Python中logging日志模块详解

用Python写代码的时候,在想看的地方写个print xx 就能在控制台上显示打印信息,这样子就能知道它是什么了,但是当我需要看大量的地方或者在一个文件中查看的时候,这时候print就不大方便了,所以Python引入了logging模块来…

104.二叉树的最大深度 | 111.二叉树的最小深度

文章目录二叉树的深度104.二叉树的最大深度题目题解111.二叉树的最小深度题目题解二叉树的深度 104.二叉树的最大深度 题目 给定一个二叉树,找出其最大深度。 二叉树的深度为根节点到最远叶子节点的最长路径上的节点数。 说明: 叶子节点是指没有子节点的节点。…

Mac终端常用命令

1、打开窗口命令 快速打开:command空格(打开查询),输入ter回车 打开多个窗口:commandN(光标在终端执行此操作) 2、目录操作 命令名 命令功能 备注 cd 打开当前目录 cd dirname pwd 显示…

Java 调用 Cpp 代码简单示例

Java 调用 Cpp 代码 前言:首先说明一下,本篇文章是干嘛的,简单来说就是在 Java 代码里调用 C 代码。但是呢,这里只做一个简单的示例,调用最简单的 C 代码,起到一个抛砖引玉的作用。如有不对之处&#xff0…

选择编码节点的最佳数量和位置研究(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

[附源码]计算机毕业设计校园招聘微信小程序Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

代码随想录训练营第39天|LeetCode 62.不同路径、63. 不同路径 II

参考 代码随想录 题目一:LeetCode 62.不同路径 相比于之前的爬楼梯,这题变成了二维,对于某个位置[i,j],可以从[i-1,j]或者[i,j-1]走到[i,j],因此在求解思想上其实是类似于爬楼梯的。 确定dp数组及其下标的含义 dp[…

Android Camera性能分析 - 第26讲 DequeueBuffer Latency

本讲是Android Camera性能分析专题的第26讲 ​,我们介绍DequeueBuffer Latency,包括如下内容: DequeueBuffer Latency是什么DequeueBuffer Latency配置DequeeuBuffer Latency实战 视频在线观看: 极客笔记:极客笔记在…

JavaScript正则表达式:正则表达式中的特殊字符

正则表达式的组成 一个正则表达式可以由简单的字符构成,比如 /abc/,也可以是简单和特殊字符的组合,比如 /ab*c/ 。其中特殊字符也被称为元字符,在正则表达式中是具有特殊意义的专用符号,如 ^ 、$ 、 等。 特殊字符非…