算法金 | 统计学的回归和机器学习中的回归有什么差别?

news2024/11/27 16:53:40


大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」

统计学中的回归

  1. 目标:
  • 主要用于解释和推断自变量(independent variables)和因变量(dependent variables)之间的关系。
  • 强调模型的解释性,了解各个自变量对因变量的影响。
  • 假设:
  • 假设数据符合特定统计假设,如正态分布、独立性和同方差性。
  • 需要满足严格的模型假设。
  • 模型复杂性:
  • 通常使用简单模型,如线性回归。
  • 模型形式固定,主要是线性或加性模型。
  • 数据量:
  • 通常处理较小的数据集。
  • 评估方法:
  • 强调参数的显著性检验(significance tests)。
  • 使用 R 平方((R^2))和 P 值(P-value)等统计指标。

机器学习中的回归

  1. 目标:
  • 主要用于预测,关注模型的预测性能。
  • 更关注模型的泛化能力(generalization ability),即在新数据上的表现。
  • 假设:
  • 对数据分布和模型形式的假设较少。
  • 灵活性更大,不需要满足严格的统计假设。
  • 模型复杂性:
  • 使用复杂模型,如决策树回归(decision tree regression)、随机森林回归(random forest regression)、支持向量回归(support vector regression)和神经网络(neural networks)等。
  • 模型可以是非线性的,适应复杂数据模式。
  • 数据量:
  • 通常处理大规模的数据集。
  • 评估方法:
  • 使用交叉验证(cross-validation)等方法评估模型性能。
  • 强调预测误差,如均方误差(Mean Squared Error, MSE)和均绝对误差(Mean Absolute Error, MAE)。

总结

  • 统计学中的回归:用于解释和推断变量之间的关系,假设严格,模型简单,适用于小数据集。重点在于理解数据和变量关系,模型解释性强。
  • 机器学习中的回归:用于预测和优化,假设少,模型复杂,适用于大数据集。重点在于提高模型的预测性能,模型灵活性高。

图示解释

  1. 统计学中的线性回归:
  • 图示:数据点分布在图上,一条直线(回归线)穿过数据点,显示自变量与因变量之间的线性关系。
  • 解读:这条直线表示最小二乘法(Least Squares Method)拟合出的最佳线性关系,用于解释 (X) 和 (Y) 之间的关系。
  • 机器学习中的非线性回归:
  • 图示:数据点分布在图上,一条曲线穿过数据点,显示自变量与因变量之间的复杂非线性关系。
  • 解读:这条曲线可能是通过复杂模型(如决策树、神经网络)拟合出的,显示出自变量和因变量之间更复杂的模式和关系。

这两者的差别主要体现在模型的目标、假设、复杂性、数据量和评估方法上,各有其应用场景和优势。

统计学中的回归主要强调模型的解释性和简洁性,因此通常采用简单的线性模型。下面是一些具体原因:

假设和解释性

  1. 解释性:
  • 统计学中的回归模型强调解释变量对因变量的影响。
  • 线性回归模型的系数具有明确的解释意义,可以直接说明每个自变量对因变量的线性贡献。
  • 简洁性:
  • 线性模型较为简单,易于理解和解释。
  • 在变量关系相对简单的情况下,线性模型能有效地捕捉主要趋势。
  • 假设检验:
  • 统计学中的回归依赖于一定的假设,如正态分布、独立性和同方差性。
  • 这些假设在简单的线性模型中更容易满足和检验。

数据量和计算复杂度

  1. 数据量:
  • 统计学方法通常用于较小的数据集。
  • 简单模型在小数据集上表现更好,因为复杂模型容易过拟合。
  • 计算复杂度:
  • 线性回归计算简单,适用于快速分析和建模。
  • 非线性模型(如决策树)计算复杂度较高,训练和预测时间更长。

过拟合和泛化能力

  1. 过拟合:
  • 复杂模型(如右图的决策树回归)容易过拟合,即在训练数据上表现很好,但在新数据上表现不佳。
  • 线性模型的简单性有助于避免过拟合,提升模型的泛化能力。

应用场景

  1. 应用场景:
  • 统计学中的回归主要用于变量关系的探索和解释,如社会科学和经济学研究。
  • 在这些领域,理解变量间的关系和影响是主要目标,而不是追求复杂模型的预测性能。

图示解读

  1. 统计学中的线性回归(左图):
  • 适用于数据关系较简单、主要目标是解释和推断的场景。
  • 线性回归线展示了自变量和因变量之间的线性关系,便于解释。
  • 机器学习中的决策树回归(右图):
  • 适用于数据关系复杂、主要目标是预测和优化的场景。
  • 决策树回归曲线展示了自变量和因变量之间的复杂非线性关系,但解释性较差。

[ 抱个拳,总个结 ]

统计学中的回归更关注模型的简洁性和解释性,适用于变量关系较为简单、数据量较小的场景。因此,通常采用线性回归模型。而机器学习中的回归更多用于预测复杂关系,模型复杂性更高,适用于大数据集和需要高预测性能的应用。- 科研为国分忧,创新与民造福 -

日更时间紧任务急,难免有疏漏之处,还请大侠海涵 内容仅供学习交流之用,部分素材来自网络,侵联删

[ 算法金,碎碎念 ]

全网同名,日更万日,让更多人享受智能乐趣

如果觉得内容有价值,烦请大侠多多 分享、在看、点赞,助力算法金又猛又持久、很黄很 BL 的日更下去;

同时邀请大侠 关注、星标 算法金,围观日更万日,助你功力大增、笑傲江湖

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1851745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

免杀笔记 ---> C语言

这次的更新可能有点慢,因为这段时间也比较忙,加上C语言还得和汇编结合,导致小编一个知识点总是得反复揣摩(太菜了),所以免杀的更新篇幅长度可能会达到两个月和三个月,但是小编能保证&#xff0c…

中国科学院西北生态环境资源研究院联合多单位在《PNAS》发文:气候变暖对多年冻土区地上与地下生物量分布的影响

文章简介 论文名称:Changes in above-versus belowground biomass distribution in permafrost regions in response to climate warming(气候变暖对多年冻土区地上与地下生物量分布的影响) 第一作者及单位:贠汉伯(研…

Hadoop archive

Index of /dist/hadoop/commonhttps://archive.apache.org/dist/hadoop/common/

【Git】--Part3--远程操作 配置 标签管理

1. 远程仓库 Git 是分布式版本控制系统,同⼀个 Git 仓库,可以分布到不同的机器上。怎么分布呢? 最早,肯定只有⼀台机器有⼀个原始版本库,此后,别的机器可以 “克隆” 这个原始版本库,⽽且每台机…

css grid实现九宫格布局

常见的九宫格布局可以使用flex布局实现,但是flex布局有个致命的缺陷,比如3行3列的布局,当第不足3个元素的时候,元素依然是平局平铺的,这样就不满足九宫格的效果,这种情况,使用grid布局可以轻松搞…

web中间件漏洞-Jenkins漏洞-弱口令、反弹shell

web中间件漏洞-Jenkins漏洞-弱口令、反弹shell Jenkins弱口令 默认用户一般为jenkins/jenkins 使用admin/admin123登陆成功 Jenkins反弹shell 格式为 println"命令".execute().text 在/tmp目录中生成shell.sh文件,并向其中写入反弹shell的语句 new…

猫头虎分享已解决Bug || Null Pointer Exception: `java.lang.NullPointerException`

猫头虎分享已解决Bug || Null Pointer Exception: java.lang.NullPointerException 😺🐯 关于猫头虎 大家好,我是猫头虎,别名猫头虎博主,擅长的技术领域包括云原生、前端、后端、运维和AI。我的博客主要分享技术教程…

10分钟入门Vue3

前言:你的阅读速度够快,10 分钟能看完这篇文章。文章整体比较粗浅(入门级),如需深入了解细枝末节,请移步官网。 1. Vue3 和 Vue2 的区别 双向数据绑定原理: Vue2使用的是Object.definePropert…

6/22 第四周 python操作word

学习到了word有四个段落,都可以通过python来操作。 并且课程的体系,只是一个启蒙,需要在公司的项目中熟悉,从而具备专项测试的能力。 后续每天的学习笔记也需要侧重于理解的部分。

java—类反射机制

简述 反射机制允许程序在执行期间借助于Reflection API取得任何类的内部信息(如成员变量,构造器,成员方法等),并能操作对象的属性及方法。反射机制在设计模式和框架底层都能用到。 类一旦加载,在堆中会产生…

扫码称重上位机

目录 一 设计原型 二 后台代码 一 设计原型 模拟工具: 二 后台代码 主程序: using System.IO.Ports; using System.Net; using System.Net.Sockets; using System.Text;namespace 扫码称重上位机 {public partial class Form1 : Form{public Form1(){Initialize…

人脸特征标注——OpenCV

特征标注 导入必要的库创建窗口显示原始图片和标注后的图片存储用户选择的图片路径字体样式和大小定义了select_image函数定义了annotate_landmarks()函数设置按钮调整图片标签的位置设置图片位置主事件循环运行显示:全部代码 导入必要的库 import tkinter as tk: 导…

docker 环境部署

1.Redis部署 用docker拉取redis镜像 docker pull redis 用docker查看拉取的镜像版本号,这里查到的是 6.2.6 版本 docker inspect redis 通过wget指令下载对应版本的tar包,下载完成后解压 wget https://download.redis.io/releases/redis-6.2.6.tar.gz …

多客陪玩系统源码支持二次开发陪玩预约系统搭建,打造专业游戏陪玩平台

简述 随着电竞行业的快速发展,电竞陪玩APP正在逐渐成为用户在休闲娱乐时的首选。为了吸引用户和提高用户体验,电竞陪玩APP开发需要定制一些特色功能,并通过合适的盈利模式来获得收益。本文将为您介绍电竞陪玩APP开发需要定制的特色功能以及常…

算法05 模拟算法之二维数组相关内容详解【C++实现】

大家好,我是bigbigli,前面一节我们一节讲过一维数组的模拟了,如果还没看的话,可以👉点击此处。模拟算法还有很多内容需要讲,比如图像、日期相关的模拟算法,后续将继续更新,今天先来讲…

遗传算法求解时间窗车辆路径规划问题(附python代码)

摘要 本研究提出了一种基于遗传算法的车辆路径规划(VRP)问题求解框架,它能够有效地处理一系列复杂约束,包括软时间窗、硬时间窗、行驶距离限制、车辆最大载重量、多个配送中心的协调、特定的配送顺序,以及多种车型的选…

MyBatis-Plus 查询不到数据,但使用 SQL 可以查询到数据的问题排查

目录 前言 一、问题描述 示例代码 二、排查步骤 1. 检查数据源配置 2. 检查实体类与数据库表结构 3. 检查 Mapper 接口 4. 检查 MyBatis-Plus 配置 5. 排查查询条件 6. 检查日志输出 7. 检查数据库连接问题 8. 检查全局配置和插件 三、解决方案 前言 在开发过程中&…

【docker入门】

在软件开发过程中,环境配置是一个至关重要的步骤,它不仅影响开发效率,也直接关联到软件的最终质量。正确的环境配置可以极大地减少开发中的潜在问题,提升软件发布的流畅度和稳定性。以下是几个关键方面,以及如何优化环…

《窄门》读后感

《窄门》这本书是端午节期间在地铁和高铁上看完的,书的故事很简单,描绘的是一段爱而不得的感情。但是,这本书写的爱而不得和其他地方的爱而不得完全不是一码事,其他地方的爱而不得要么是“落花有意随流水,流水无意恋落…

EasyX 文本输出(自定义)函数报错

EasyX 文本输出(自定义)函数报错记录 原因:EasyX与字符串相关的函数,都有字符集问题 UNICODE 多字节字符集