机器学习-Basic Concept

news2025/1/17 1:14:01

机器学习(Basic Concept)

videopptblog

Where does the error come from?

在前面我们讨论误差的时候,我们提到了Average Error On Testing Data是最重要的
A more complex model does not lead to better performance on test data

Bias And Variance

Bias And Variance

Bias(偏差)

偏差指的是模型在训练过程中对于真实关系的错误假设或简化程度。当模型具有较高的偏差时,它倾向于对问题进行过于简单的建模,从而忽略数据中的一些复杂特征或模式。这可能导致模型在训练数据上表现较差,并且很可能在测试数据上也表现不佳,即出现欠拟合的现象。通常,高偏差的模型过于刚硬,难以适应数据的变化和复杂性.
偏差:整体预测值与真实值之间的误差,具体表现为预测的整体与正确预测的偏离程度。

Variance(方差)

方差指的是模型在不同训练集上预测结果的变化程度。当模型具有较高的方差时,它对于训练数据中的噪声和随机性非常敏感,从而导致在不同的训练集上表现差异较大。这可能表现为在训练数据上表现很好,但在测试数据上表现较差的现象,即出现过拟合。过拟合意味着模型过于复杂,过于适应训练数据的细节,而无法很好地泛化到新数据。
方差:预测值离期望值的距离,具体表现为数据的分散程度。

Bias And Variance
简介
来源

多项式拟合次数模型复杂度方差偏差过/欠拟合
欠拟合
适度
过拟合

在这里插入图片描述

区别:

  • 偏差关注的是模型对问题的刻画能力,即是否能够捕捉到数据的真实规律,过高的偏差导致欠拟合。
  • 方差关注的是模型对训练数据的敏感性,即是否过度适应了训练数据,导致在新数据上泛化能力差,过高的方差导致过拟合。
  • 偏差和方差都是希望降低的,因为它们都可能导致模型在不同情况下表现不佳。优化模型的目标是在偏差和方差之间找到一个平衡点,从而提高模型的泛化能力。

Picture

Noise(噪声)

噪声指的是数据中的随机性和不可预测性,它来源于许多现实世界的因素,比如测量误差、数据收集的不完美等。噪声是不可避免的,并且可能会对模型的性能产生影响。机器学习的目标是找到真实关系,并尽可能减少噪声的影响。模型的偏差和方差会影响其对噪声的敏感性。

在模型优化过程中,通常通过调整模型的复杂度(例如,增加或减少特征、调整模型的深度和宽度等)来平衡偏差和方差。较复杂的模型可能会降低偏差但增加方差,而简单的模型则相反。同时,采用交叉验证等技术来评估模型的性能,以便更好地理解模型的泛化能力。

在这里插入图片描述

The Balence Between Bia And Variance

Balence

Underfitting

Due To Large Bias
欠拟合是指模型在训练数据上表现不佳,无法很好地捕捉数据中的模式和关系。
一般原因:模型过于简单,数据集中,与真实值误差较大

  • redesign your model:
  • Add more features as input
  • A more complex model

Overfitting

Due To Large Variance
过拟合是指模型在训练数据上表现优秀,但在未见过的新数据上表现不佳。
一般原因:模型过于复杂,整体数据偏差较小,预测值较为分散

  • More data(Very effective,but not always practical)
  • Regularization(Make your function more smooth)

Cross Validation

交叉验证(Cross-validation)是机器学习中一种常用的技术,用于评估模型的性能和泛化能力。它帮助我们检验模型在未见过的数据上的表现,并提供比单一训练集和测试集划分更可靠的性能评估。
基本思想:将数据集进行划分,如何使用这些数据集多次进行模型训练和测试。
步骤:

  1. 数据划分:将整个数据集随机分成K个子集(折叠),每个子集的大小大致相等。
  2. 训练与验证:对于每个折叠,使用K-1个子集作为训练集,剩余的一个子集作为验证集。
  3. 性能指标:用选定的评估指标(如准确率、均方误差等)在验证集上评估模型的性能。
  4. 平均性能:将K次验证得到的性能指标取平均,得到模型的整体性能评估结果。
N-fold Cross Validation

在N折交叉验证中,将数据集划分为N个子集,每个子集只包含一个样本。然后,依次将每个子集作为验证集,其他N-1个子集作为训练集进行模型训练和验证。这样,每个样本都将作为单独的验证集,并且模型将在所有样本上进行N次训练和验证。
步骤:

  1. 将数据集划分为N个子集,每个子集只包含一个样本。
  2. 对于每个子集,将其作为验证集,其他N-1个子集作为训练集。
  3. 在训练集上训练模型,并在验证集上进行性能评估。
  4. 重复步骤2和3,直到所有子集都被用作验证集。
  5. 计算N次验证的性能指标的平均值,得到模型的性能评估结果。

Cross Validation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/814403.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

四通道本地互联网络(LIN)收发器SIT1024Q

特点: ➢ 兼容“LIN 2.x/ISO 17987-4:2016 (12V)/SAE J2602” 标准; ➢ 兼容 K 线; ➢ 内置过温保护功能(热关断); ➢ 内置显性超时功能; ➢ 内置 30kΩ 总线上拉从机电阻; ➢…

微软开测“Moment4”启动包:Win11 23H2要来了

近日, 有用户在Win11最新的7月累积更新中发现,更新文件中已经开始出现了对“Moment4”的引用。 具体来说,在7月累积更新中,微软加入了“Microsoft-Windows-UpdateTargeting-ClientOS-SV2Moment4-EKB”“Microsoft-Windows-23H2Ena…

0101日志-运维-mysql

1 错误日志 错误日志(Error Log):错误日志记录了MySQL引擎在运行过程中出现的错误和异常情况。这些错误可能包括启动和关闭问题、数据库崩溃、权限问题等。错误日志对于排查和解决MySQL引擎问题非常有帮助。 改日志默认开启,默认存…

python在不同坐标系中绘制曲线

文章目录 平面直角坐标系空间直角坐标系极坐标地理坐标 平面直角坐标系 回顾我们的数据可视化的学习历程,其实始于笛卡尔坐标系的创建,并由此建立了数与形的对应关系。在笛卡尔坐标系中随便点上一点,这个点天生具备坐标,从而与数…

基于LSTM神经网络的电力负荷预测(Python代码实现)

目录 💥1 概述 📚2 运行结果 🌈3 Python代码及数据 🎉4 参考文献 💥1 概述 前馈神经网络的输出只依赖当前输入,但是在文本、视频、语音等时序数据中,时序数据长度并不固定,前馈神经…

我对排序算法的理解

排序算法一直是一个很困惑我的问题,早在刚开始接触 数据结构的时候,这个地方就很让我不解。就是那种,总是感觉少了些什么的感觉。一开始,重新来过,认真来学习这一部分,也总是学着学着就把概念记住了。过了一…

词典项目练习

思维导图 客户端 #include "head.h" //用户提示界面 void help_info1() {printf("\t-----------------------------------------------\n");printf("\t| HENRY 在线辞典 |\n");printf("\t|版本:0.0.1 …

官方实锤!AMD真的已经有了大小核:不搞Intel那一套

Intel 12代酷睿开始引入大小核混合架构,多核跑分提升立竿见影,在游戏、渲染等场景中也有很好的辅助作用,但因为大核心、小核心基于完全不同的架构,需要复杂的系统、软件调度配合,也直接导致失去了AVX-512指令集。 AMD也…

解决多线程环境下单例模式同时访问生成多个实例

如何满足单例:1.构造方法是private、static方法、if语句判断 ①、单线程 Single类 //Single类,定义一个GetInstance操作,允许客户访问它的唯一实例。GetInstance是一个静态方法,主要负责创建自己的唯一实例 public class LazySi…

浅析hooks,复杂前端业务解题之道

hooks 大势所趋 2019年年初,react 在 16.8.x 版本正式具备了 hooks 能力,同年6月;尤雨溪在 vue/github-issues 里提出了关于 vue3 Component API 的提案(vue hooks的基础)。在Vue3的组合式API出现后,githu…

VS2017配置Qt开发环境

VS2017配置Qt开发环境 安装Qt5.12.11安装Qt插件在VS2017中进行设置参考教程 安装Qt5.12.11 安装Qt插件 在VS2017中进行设置 参考教程 # Qt下载地址 https://download.qt.io/ # Qt安装 https://blog.csdn.net/jjxcsdn/article/details/125432165?spm1001.2014.3001.5506 # VS2…

【LeetCode】解码方法(动态规划)

解码方法 题目描述算法流程编程代码代码优化 链接: 解码方法 题目描述 算法流程 编程代码 class Solution { public:int numDecodings(string s) {int n s.size();vector<int> dp(n);dp[0] s[0] ! 0;if(n 1) return dp[0];if(s[1] < 9 && s[1] > 1) d…

Packet Tracer – 使用 TFTP 服务器升级思科 IOS 映像。

Packet Tracer – 使用 TFTP 服务器升级思科 IOS 映像。 地址分配表 设备 接口 IP 地址 子网掩码 默认网关 R1 F0/0 192.168.2.1 255.255.255.0 不适用 R2 G0/0 192.168.2.2 255.255.255.0 不适用 S1 VLAN 1 192.168.2.3 255.255.255.0 192.168.2.1 TFTP …

Neo4j文档阅读笔记-Installation and Launch Guide

安装&#xff08;Windows&#xff09; ①找到下载好的Neo4j Desktop文件&#xff0c;然后双击进行安装&#xff1b; ②安装Neo4j Desktop根据下一步进行安装。 启动 ①激活 打开Neo4j Desktop应用程序后&#xff0c;将激活码输入到“Activation Key”窗口中。 ②创建数据库…

牛客网Verilog刷题——VL44

牛客网Verilog刷题——VL44 题目题目解析答案 题目 如图所示为两种状态机中的一种&#xff0c;请根据状态转移图写出代码&#xff0c;状态转移线上的0/0等表示的意思是过程中data/flag的值。 要求&#xff1a; 1、 必须使用对应类型的状态机 2、 使用二段式描述方法 注意rs…

远程医疗技术的变革

目录 1.远程医疗的概念 2.远程医疗的发展历史 3.远程医疗的靠谱性 4.远程医疗的潜在危害 1.远程医疗的概念 远程医疗是一种通过通信技术&#xff0c;使医生和患者能够在不同地点进行医疗咨询和治疗的形式。它利用视频通话、电话、在线聊天和其他远程通信工具来实现远程诊断…

自定义一个仿拼多多地址选择器

前言 做了一个仿拼多多的地址选择器&#xff0c;但是与拼多多实现方法有些出入&#xff0c;大体效果是差不多的。废话不多说&#xff0c;先上一张效果动图&#xff1a; 开始 先说说本文的一些概念。地区级别&#xff1a;就是比如省级&#xff0c;市级&#xff0c;县级&#x…

理解复杂系统的关键:耐心

理解复杂系统的关键&#xff1a;耐心 复杂系统本质上是多面的、复杂的。它们通常并非被设计成一瞬间就能理解的。这对于自然发生的系统&#xff0c;如生态系统&#xff0c;和人类设计的系统&#xff0c;如高级软件或机械&#xff0c;都是适用的。这些系统是由多个组件混合而成…

【腾讯云Cloud Studio实战训练营】使用Cloud Studio迅捷开发一个3D家具个性化定制应用

目录 前言&#xff1a; 一、腾讯云 Cloud Studio介绍&#xff1a; 1、接近本地 IDE 的开发体验 2、多环境可选&#xff0c;或连接到云主机 3、随时分享预览效果 4、兼容 VSCode 插件 5、 AI代码助手 二、腾讯云Cloud Studio项目实践&#xff08;3D家具个性化定制应用&…

牛客网Verilog刷题——VL42

牛客网Verilog刷题——VL42 题目答案 题目 请设计一个可以实现任意小数分频的时钟分频器&#xff0c;比如说8.7分频的时钟信号&#xff0c;注意rst为低电平复位。提示&#xff1a;其实本质上是一个简单的数学问题&#xff0c;即如何使用最小公倍数得到时钟周期的分别频比。设小…