机器学习的复习笔记2-回归

news2025/1/10 10:19:44

一、什么是回归

机器学习中的回归是一种预测性分析任务,旨在找出因变量(目标变量)和自变量(预测变量)之间的关系。与分类问题不同,回归问题关注的是预测连续型或数值型数据,如温度、年龄、薪水、价格等。回归分析可以帮助我们理解当其他变量保持不变时,因变量的值如何随着自变量的变化而变化。

回归分析可以分为线性回归和非线性回归:

  1. 线性回归:线性回归是一种统计学方法,用于建立响应变量(通常称为y或目标)和一个或多个预测变量(称为x或特征)之间的线性关系。简单线性回归只涉及一个特征,而多元线性回归涉及多个特征。线性回归的模型可以用一次函数表示,如y = a * x + b,其中a是斜率,b是截距。

  2. 非线性回归:非线性回归是一种涉及非线性方程的回归分析方法,用于描述因变量和自变量之间的关系。非线性回归可以处理更复杂的关系,如指数、对数、多项式等。非线性回归模型通常通过迭代优化算法(如梯度下降)来训练。

在机器学习中,回归问题通常采用监督学习方法,即利用已标记的数据集(包含输入和目标输出)来训练模型。训练完成后,模型可以对新数据进行预测。回归分析的应用广泛,包括广告投放效果评估、房价预测、股票价格预测等。

二、什么是拟合?

拟合是一种数学方法,用于描述一组数据之间的关系。它通过在平面上的点之间绘制一条曲线来实现。拟合的方法有很多,如最小二乘法、多项式拟合等。拟合程度可以通过决定系数(也称为R²)来衡量。决定系数越接近1,表示拟合程度越好。

在机器学习和数据挖掘领域,拟合通常用于建立自变量和因变量之间的函数关系。例如,线性回归、多项式回归和非线性回归等方法都是用来拟合数据以便进行预测和分析。

 三、过拟合

    过拟合(overfitting)是机器学习中常见的问题,指的是模型在训练集上表现非常好,但在新样本上的泛化能力较差的现象。当模型过度拟合训练数据时,它会学习到训练数据中的噪声和细节,而无法捕捉到真正的模式和规律,导致在未见过的数据上预测性能下降。

过拟合通常是由于模型的复杂度过高或训练数据量较少造成的。以下是一些常见导致过拟合的因素:

1. 模型复杂度过高:如果模型具有过多的参数或层数,它可以过度记忆训练数据中的噪声和特殊情况,而忽略了真正的模式。过于复杂的模型可能不适合数据量较少的情况。

2. 缺乏正则化:正则化是一种用来控制模型复杂度的技术。如果在训练过程中未使用正则化方法,模型可能过度拟合训练数据。

3. 训练数据不足:当可用的训练数据较少时,模型可能难以学习到足够多的样本,并且容易过拟合已有的数据。

为了应对过拟合问题,可以采取以下策略:

1. 增加训练数据量:通过增加更多的样本,可以提供更多的信息给模型,减少过拟合的可能性。

2. 使用正则化技术:正则化方法如L1正则化、L2正则化、dropout等可以限制模型的复杂度,防止过度拟合。这些技术通过在损失函数中引入惩罚项,使得模型倾向于选择简单的解。

3. 交叉验证:使用交叉验证可以更好地评估模型的性能。通过将训练数据分成训练集和验证集,可以及时发现模型是否过拟合,并进行相应调整。

4. 特征选择:选择最具代表性的特征可以减少模型的复杂度,避免过拟合现象。可以使用特征选择算法来选择对目标变量具有最大影响力的特征。

5. 提前停止训练:在训练过程中,可以通过监控验证集上的性能指标,当性能不再提升时,提前停止训练,防止过拟合。

总之,解决过拟合问题需要综合考虑模型复杂度、数据量和正则化等因素,以找到合适的平衡点,从而提高模型在未知数据上的泛化能力。

【说人话就是,一味追求低误差,很可能导致机器为了减少误差而减少误差,即使用更加复杂的关系来拟合曲线,与实际情况脱钩。原则上解决过拟合要取得低误差与模型复杂度的平衡。】【例,本来一条直线就能解决的,一味追求最低误差,能可能变成奇形怪状的曲线】

四、欠拟合

欠拟合(underfitting)是机器学习中另一个常见的问题,指的是模型无法很好地拟合训练数据,导致在训练数据和新样本上的性能都较差。当模型过于简单或不足够强大时,往往无法捕捉到数据中的复杂模式和规律,从而导致欠拟合现象。

以下是一些常见导致欠拟合的因素:

  1. 模型复杂度过低:如果模型的容量不足以表示数据中的关键特征和模式,模型会很难适应训练数据,并且无法提供准确的预测结果。

  2. 特征选择不足:选择的特征可能不足以描述数据的复杂性,或者特征之间的关系没有充分考虑。这会导致模型无法捕捉到数据中潜在的规律。

  3. 训练数据噪声过多:如果训练数据中存在较多的噪声或异常值,模型可能过于敏感地学习到这些不相关的信息,从而影响了其泛化能力。

为了解决欠拟合问题,可以采取以下策略:

  1. 增加模型复杂度:通过增加模型的参数或层数,可以提高模型的拟合能力。但需要注意避免过拟合,可以使用正则化等方法进行控制。

  2. 增加特征数量和多样性:添加更多合适的特征,并考虑不同特征之间的组合关系,可以提供更多信息给模型,提高其表达能力。

  3. 数据预处理:对训练数据进行必要的预处理,如去除异常值、平衡样本分布、缩放特征等,可以减少噪声对模型的影响,帮助模型更好地拟合数据。

  4. 调整超参数:通过调整模型的超参数,如学习率、正则化项的权重等,可以寻找到更适合数据的模型配置,提高拟合能力。

  5. 使用更复杂的模型:如果简单模型无法很好地拟合数据,可以尝试更复杂的模型,如深度神经网络、支持向量机等,以提高模型的非线性拟合能力。

五、回归的准确性判断

1.平均绝对误差(Mean Absolute Error,MAE):所有数据点绝对误差的平均值。

计算公式如下:

MAE = (1/n) * ∑(|y_i - ŷ_i|)

其中,n为样本数量,y_i为实际值,ŷ_i为预测值。

平均绝对误差越小,表示预测值与实际值之间的差异越小,模型的准确性越高。MAE常用于回归分析、时间序列预测等领域。与均方误差(MSE)和均方根误差(RMSE)相比,MAE对异常值的影响较小,因此在评估模型准确性时具有更好的稳定性。

2.均方误差(Mean Squared Error,简称MSE)是一种衡量预测值与实际值之间差异的指标。它是指预测值与实际值之差的平方值的平均值。MSE可以用于评估模型或预测方法的准确性。

计算公式如下:

MSE = (1/n) * ∑(y_i - ŷ_i)^2

其中,n为样本数量,y_i为实际值,ŷ_i为预测值。

均方误差越小,表示预测值与实际值之间的差异越小,模型的准确性越高。MSE广泛应用于回归分析、时间序列预测等领域。然而,MSE对异常值的影响较大,因此在评估模型准确性时可能不够稳定。与平均绝对误差(MAE)和均方根误差(RMSE)相比,MSE在评价模型准确性时可能不够敏感。

3.中位数绝对误差(Median Absolute Error,简称MAE)是一种衡量预测值与实际值之间差异的指标。它是指预测值与实际值之差的绝对值的 median(中位数)。MAE可以用于评估模型或预测方法的准确性。

计算公式如下:

MAE = median(|y_i - ŷ_i|)

其中,y_i为实际值,ŷ_i为预测值。

与均方误差(MSE)和均方根误差(RMSE)相比,中位数绝对误差具有以下优点:

  1. 对异常值不敏感,稳定性较高。
  2. 更容易理解和解释。

4.解释方差分

方差分(Variance Fraction,简称VF)是一种用于评估数据集内在结构特征的统计量。它反映了数据集中不同方差等级(或称不同频率)的信息含量。方差分可用于分析信号、图像等数据的特性,并为信号处理、数据压缩等领域提供依据。

方差分的计算公式如下:

VF = (var(X) - var(Y)) / var(X)

其中,X表示原始数据集,Y表示经过滤波处理后的数据集。var(X)和var(Y)分别表示X和Y的方差。

方差分(VF)的取值范围为[0, 1]。当VF接近1时,说明数据集的高频成分较多,噪声较大;当VF接近0时,说明数据集的低频成分较多,噪声较小。通过分析方差分,可以了解数据的内在结构特征以及滤波效果的好坏。

在实际应用中,方差分(VF)常用于评估滤波器性能、信号处理算法等方面的性能。通过比较不同算法的方差分,可以优选滤波器参数,提高信号处理效果。此外,方差分还可以应用于医学影像处理、语音信号处理等领域,以提取有效信息、消除噪声干扰。

5.相关系数(Correlation  Coefficient)是一种用于衡量两个变量之间线性关系强度的统计量。它的值介于-1和1之间,表示两个变量之间的线性相关程度。相关系数的计算公式如下:

ρ(X,Y)=  cov(X,Y)/  (σX  *  σY)

其中,X和Y是两个随机变量,cov(X,Y)表示它们的协方差,σX和σY分别表示它们的标准差。

相关系数具有以下性质:

1.  当ρ(X,Y)=  1时,表示X和Y完全正相关;
2.  当ρ(X,Y)=  -1时,表示X和Y完全负相关;
3.  当ρ(X,Y)=  0时,表示X和Y之间不存在线性关系,但可能存在其他类型的关系(如非线性关系);
4.  当0  <  ρ(X,Y)<  1时,表示X和Y存在正线性关系,但相关程度较低;
5.  当-1  <  ρ(X,Y)<  0时,表示X和Y存在负线性关系,但相关程度较低。

相关系数在实际应用中广泛应用于经济学、金融学、统计学、社会科学等领域。通过计算相关系数,可以分析变量之间的关联性,为建模、预测和决策提供依据。然而,需要注意的是,相关系数仅能反映线性关系,对于非线性关系,相关系数可能会产生误导。因此,在实际分析中,还需结合其他方法(如回归分析、协方差分析等)以获得更全面的结果。

6.决定系数(R²)在统计学中是一个重要概念,用于衡量自变量对因变量的解释程度。决定系数 ranges 从 0 到 1,其中:

  • R² =  0:表示自变量对因变量没有解释力度,即两个变量之间不存在线性关系;
    
  • R² =  1:表示自变量完全解释了因变量的变异,即两个变量之间存在完美的线性关系。
    

在实际应用中,决定系数 R² 可以用于评估回归模型(如线性回归、逻辑回归等)的拟合效果。较高的 R² 值表示模型能够较好地解释因变量的变异,较低的 R² 值则表示模型拟合效果不佳,需要进一步优化。

计算决定系数 R² 的公式如下:

R² = 1 - (SSR² / SSE²)

其中:

  • SSR:回归平方和,表示自变量对因变量的贡献;
    
  • SSE:残差平方和,表示自变量无法解释的因变量变异。
    

【即:1-∑(预测值-实际值)^2/预测值^2,本质是利用了最小二乘法实现】

R^{2}=1-\sum \frac{({y_{i}}-{\hat{y}_{i}})^{2}}{y_{i}^{2}}

决定系数 R² 越高,表明自变量对因变量的解释力度越强,模型拟合效果越好。在实际分析中,我们可以根据 R² 值来选择最优的模型,提高预测精度。同时,R² 值还可以用于比较不同模型之间的拟合效果,选取最佳模型。

需要注意的是,决定系数 R² 仅衡量自变量对因变量的线性关系,未能考虑非线性关系。在实际应用中,我们还可以使用其他指标(如均方根误差、决定系数等)来评估模型的拟合效果,以选取最优模型。

最小二乘法(Least Squares Method)是一种数学优化技术,用于通过最小化误差的平方和来寻找最佳拟合函数。它在各个领域有广泛的应用,如线性回归、曲线拟合、信号处理等。最小二乘法的基本原理是寻找一条直线或曲线,使得所有数据点到这条直线的垂直距离之和最小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1258432.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何通过内网穿透实现远程访问Linux SVN服务

文章目录 前言1. Ubuntu安装SVN服务2. 修改配置文件2.1 修改svnserve.conf文件2.2 修改passwd文件2.3 修改authz文件 3. 启动svn服务4. 内网穿透4.1 安装cpolar内网穿透4.2 创建隧道映射本地端口 5. 测试公网访问6. 配置固定公网TCP端口地址6.1 保留一个固定的公网TCP端口地址6…

mysql文本类型的最大长度限制

mysql支持很多类型&#xff0c;不同的文本有不同的长度限制。可以根据实际需要进行选择。 TINYBLOB, TINYTEXT L 1 bytes, where L < 2^8 (255 Bytes) BLOB, TEXT L 2 bytes, where L < 2^16 (64 Kilobytes) MEDIUMBLOB, MEDIUMTEXT L 3 b…

怎样禁止邮件发送附件

入侵电子邮件并获取其承载信息成为网络攻击的主要目标之一&#xff0c;因此&#xff0c;掌握基本的电子邮件安全常识显得尤为重要。 “涉密不上网&#xff0c;上网不涉密”是国家秘密安全底线&#xff0c;电子邮件作为互联网应用之一&#xff0c;绝不能存储、传输涉密信息和敏感…

Docker-简介、基本操作

目录 Docker理解 1、Docker本质 2、Docker与虚拟机的区别 3、Docker和JVM虚拟化的区别 4、容器、镜像的理解 5、Docker架构 Docker客户端 Docker服务器 Docker镜像 Docker容器 镜像仓库 Docker基本操作 1、Docker镜像仓库 镜像仓库分类 镜像仓库命令 docker lo…

骑行三家村赏红杉之旅:挑战与汗水共存,美景和惊喜同行的路线

2023年11月25日&#xff0c;一个冬日里阳光明媚的周末&#xff0c;校长骑行队的骑友们相约&#xff0c;共同踏上了骑行三家村赏红杉林的旅程。这次骑行路线从大观公园门口开始&#xff0c;途径大观湿地公园、干勾尾、碧鸡关加油站、太平、水沟盖板路、明朗、绝望坡、山顶、三家…

SWT技巧

实现控件的刷新 问题可以简化如下&#xff0c;点击上方按钮&#xff0c;使下方按钮移动&#xff0c;但要求在监听事件里新建按钮对象&#xff0c;而不是使用原来的按钮&#xff08;原来的按钮被移除了&#xff09;。 解决代码如下&#xff1a; public class TestUI {protecte…

阻塞队列及简单实现,生产者消费者模型

文章目录 阻塞队列阻塞队列是什么生产者消费者模型阻塞队列的实现 阻塞队列 阻塞队列是什么 阻塞队列是一种特殊的队列. 也遵守 “先进先出” 的原则. 当队列满的时候, 继续入队列就会阻塞, 直到有其他线程从队列中取走元素当队列空的时候, 继续出队列也会阻塞, 直到有其他线…

B 树和 B+树 的区别

文章目录 B 树和 B树 的区别 B 树和 B树 的区别 了解二叉树、AVL 树、B 树的概念 B 树和 B树的应用场景 B 树是一种多路平衡查找树&#xff0c;为了更形象的理解。 二叉树&#xff0c;每个节点支持两个分支的树结构&#xff0c;相比于单向链表&#xff0c;多了一个分支。 …

边缘计算网关:智能制造的“智慧大脑”

一、智能制造的崛起 随着科技的飞速发展&#xff0c;智能制造已经成为了制造业的新趋势。智能制造不仅能够提高生产效率&#xff0c;降低生产成本&#xff0c;还能够实现个性化定制&#xff0c;满足消费者多样化的需求。然而&#xff0c;智能制造的实现离不开大量的数据处理和分…

警惕!AI正在“吞食”你的数据

视觉中国供图 □ 科普时报记者 陈 杰 AI大模型的热度&#xff0c;已然开始从产业向日常生活渗透&#xff0c;并引起不小的舆论旋涡。近日&#xff0c;网友指出国内某智能办软件有拿用户数据“投喂”AI之嫌&#xff0c;引发口水的同时&#xff0c;再度把公众对AI的关注转移到数…

AWR294x收发器的干扰抑制(TI文档)

摘要&#xff1a; AWR294x收发器是一种集成的片上雷达设备&#xff0c;不仅具有RF&#xff0c;模拟和ADC电路&#xff0c;而且在芯片上还有许多处理器核。它有一个专门的雷达信号处理加速器(称为硬件加速器或HWA)&#xff0c;具有能够探测和减缓雷达-雷达干扰的特点。本文档介绍…

MySQL死锁,死锁产生的4个必要条件,死锁案例, 如何避免死锁

文章目录 MySQL死锁了怎么办&#xff08;死锁的产生及解决方案&#xff09;&#xff1f;1、 死锁与产生死锁的四个必要条件1.1 什么是死锁1.2 死锁产生的4个必要条件 2、死锁案例2.1 表锁死锁2.2 行锁死锁2.3 共享锁转换为排他锁 3、死锁排查4、 如何避免死锁5、死锁的排查6、 …

抖音餐饮门店点餐外卖小程序作用是什么

餐饮从业商家、各种餐品饮料线下门店众多&#xff0c;随着线上订餐、团购、预约、点餐等方式发展&#xff0c;线下门店经营痛点明显&#xff0c;不少商家选择搭建餐饮门店小程序一方面是品牌传播拓客及提升服务效率&#xff0c;另一方面则是赋能客户完善消费及覆盖进店前后路径…

教师如何高质量备课

备课是教学工作中不可或缺的一部分。高质量的备课不仅可以提高课堂效率&#xff0c;还可以更好地激发学生的学习兴趣和积极性。那么&#xff0c;如何高质量备课呢&#xff1f; 深入了解学生 备课的目的是教授知识&#xff0c;让学生掌握知识。因此&#xff0c;了解学生的需求和…

使用脚手架创建Vue3项目

✅作者简介&#xff1a;大家好&#xff0c;我是Leo&#xff0c;热爱Java后端开发者&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;Leo的博客 &#x1f49e;当前专栏&#xff1a; Vue ✨特色专栏&#xff1a; MySQL学习…

【MySQL | TCP】宝塔面板结合内网穿透实现公网远程访问

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.2 创建HTTP隧道4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性&#xff0c;使得运维难度降低&#xff0c;简化了Linux命令行进行繁琐的配置&#x…

多头注意力机制基本概念

文章目录 基本概念模型小结 基本概念 我们可以用独立学习得到的h组不同的 线性投影来变换查询、键和值。 然后&#xff0c;这h组变换后的查询、键和值将并行地送到注意力汇聚中。 最后&#xff0c;将这h个注意力汇聚的输出拼接在一起&#xff0c; 并且通过另一个可以学习的线性…

外汇天眼:嘿!他们说这个比赛有手就能赢,你敢不敢来试试?

在外汇市场的波涛汹涌中&#xff0c;一场引人注目的模拟交易比赛正在悄然展开&#xff0c;参与者们纷纷聚焦&#xff0c;听所有获奖的参赛投资者们说&#xff1a;这个比赛有手就能赢&#xff0c;你敢不敢来试试&#xff1f; 比赛规则简单而富有挑战性。你只需在外汇天眼APP开通…

【虹科干货】什么是软件成分分析(SCA)?

大家或许都发现了&#xff0c;开发人员愈发依赖开源代码来快速为其专有软件添加功能。据估计&#xff0c;开源代码占专有应用程序代码库的 60-80%。相伴而来的&#xff0c;除了更高的效率&#xff0c;还有更高的风险。因此&#xff0c;管理开源代码对于降低组织的安全风险至关重…

力扣:182. 查找重复的电子邮箱(Python3)

题目&#xff1a; 表: Person ---------------------- | Column Name | Type | ---------------------- | id | int | | email | varchar | ---------------------- id 是该表的主键&#xff08;具有唯一值的列&#xff09;。 此表的每一行都包含一封电子…