机器学习-模型评估与选择(待更新)

news2025/1/16 20:12:59

本章主要讲解机器学习的基础知识,有关一些专业术语的定义与解释。

文章目录

  • 2.1 经验误差与过拟合
  • 2.2 评估方法
    • 2.2.1 留出法
    • 2.2.2 交叉验证法
    • 2.2.3 自助法
    • 2.2.4 调参与最终模型
  • 2.3 性能度量
    • 2.3.1 错误率与精度
    • 2.3.2 查准率、查全率与F1
    • 2.3.3 ROC与AUC

2.1 经验误差与过拟合

错误率:分类错误的样本数占样本总数。

精度:1-错误率

误差:学习器的实际预测输出与样本的真实输出之间的差异成为“误差”。
学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”

过拟合:学习器把训练样本学的太好,从而把训练样本本身的一些性质特点当作了所有泛化样本都会存在的一般性质,则会产生过拟合,导致泛化性能下降。
过拟合是机器学习面临的关键障碍。

欠拟合:与过拟合相对的是欠拟合,指对样本的一般性质都没学好。

多 项 式 时 间 ( 英 语 : P o l y n o m i a l t i m e ) 在 计 算 复 杂 度 理 论 中 , 指 的 是 一 个 问 题 的 计 算 时 间 m ( n ) 不 大 于 问 题 大 小 n 的 多 项 式 倍 数 。 任 何 抽 象 机 器 都 拥 有 一 复 杂 度 类 , 此 类 包 括 可 于 此 机 器 以 多 项 式 时 间 求 解 的 问 题 。 多项式时间(英语:Polynomial time)在计算复杂度理论中,\newline指的是一个问题的计算时间{\displaystyle m(n)}不大于问题大小{\displaystyle n}的多项式倍数。\newline任何抽象机器都拥有一复杂度类,\newline此类包括可于此机器以多项式时间求解的问题。 Polynomialtimem(n)n

(1)P( Polynomial )问题:如果一个问题可以找到一个能在多项式时间里解决它的算法,那么这个问题就属于P问题。
(2)NP( Non-Deterministic Polynomial )问题: NP问题不是非P类问题,是多项式复杂程度的非确定性问题。是指可以在多项式的时间里验证一个解的问题。NP问题的另一个定义是,可以在多项式的时间里猜出一个解的问题。

我们假设可以彻底避免过拟合现象,则经验误差最小化就能取得最优解,这就意味着我们构造性地证明了“P=NP”;因此,只要相信 “ P ≠ N P ” “P \ne NP” P=NP,过拟合就不可避免。

2.2 评估方法

2.2.1 留出法

将数据集划分为两个互斥的集合,其中一个集合作为训练集,另一个集合作为测试集,训练集用于训练,测试集用于评估测试误差,作为对泛化误差的估计。

2.2.2 交叉验证法

将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即通过分层采样得到。
然后,每次用k-1个子集作为训练集,用余下的1个子集作为测试集,这样可以重复k次遍历k个不同的方案,最终返回k个测试结果的均值。这个验证法也称为“k折交叉验证”。

若共有m个样本,并另k=m,则得到了交叉验证法的一个特例:留一法。

2.2.3 自助法

我们希望评估D训练出的模型,但在留出法和交叉验证法中保留了一部分样本进行测试,因此实际评估模型所使用的训练集比D小,这必然会引入一些因训练样本规模不同而导致估计偏差。
给定m个样本的数据集,采样产生数据集D’:每次随机产从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,是的该样本再下次采样时仍有可能被采到;这个过程重复m次后,就得到了包含m个样本的数据集D’,显然,D中有一部分样本会在D’中多次出现,而另一部分样本不出现。
样本在m次采样中始终不被采到的概率是 ( 1 − 1 m ) m (1-\frac{1}{m})^m (1m1)m,取极限得到
lim ⁡ m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 \lim\limits_{m\rightarrow\infty}(1-\frac{1}{m})^m=\frac{1}{e}\approx0.368 mlim(1m1)m=e10.368
所以在D中大约有36.8%的样本没有出现在D’中,所以我们可以用D’作为训练集,D/D’作为测试集。这样,实际评估与期望评估的模型都有m个样本,而我们仍有约三分之一的数据没在训练集中出现,方便用于测试。这样的测试结果,亦称“包外估计”。

2.2.4 调参与最终模型

众所周知,一个好的模型必然是通过不断调整参数而找出最优模型。

2.3 性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量。
对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果,这意味着模型好坏时相对的,模型的好坏不取决于算法和数据,而取决于任务需求。
回归任务最常用的性能度量是“均方误差”
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2
其中 y i y_i yi x i x_i xi的真实标记, f ( x i ) f(x_i) f(xi) x i x_i xi的预测值。
更一般的,对于数据分布 D D D和概率密度 p ( ⋅ ) p(·) p(),均方误差可描述为
E ( f ; D ) = ∫ x → D ( f ( x ) − y ) 2 p ( x ) d x E(f;D)=\int_{x\rightarrow D}(f(x)-y)^2p(x)dx E(f;D)=xD(f(x)y)2p(x)dx

下面介绍分类任务中常用的性能度量。

2.3.1 错误率与精度

在本章开头给出错误率与精度的定义,不再赘述
更一般的,对于数据分布D和概率密度p(·),错误率与精度可分别描述:
E ( f ; D ) = ∫ x → D Ⅱ ( f ( x ) ≠ y ) p ( x ) d x E(f;D)=\int_{x\rightarrow D}Ⅱ(f(x)\ne y)p(x)dx E(f;D)=xD(f(x)=y)p(x)dx
其中Ⅱ(·)是指示函数,在·为真和假时分别取直1和0。
a c c ( f ; D ) = ∫ x → D Ⅱ ( f ( x ) = y ) p ( x ) d x = 1 − E ( f ; D ) acc(f;D)=\int_{x\rightarrow D}Ⅱ(f(x)=y)p(x)dx\newline=1-E(f;D) acc(f;D)=xD(f(x)=y)p(x)dx=1E(f;D)

2.3.2 查准率、查全率与F1

假设对于二分类问题,根据情况划分为真正例TP,假正例FP,真反例TN,假反例FN。
真正例即预测结果和真实情况都为真
真反例即预测结果和真实情况都为假
假正例即预测结果为真,真实情况为假
假反例即预测结果为假,真实情况为真
查准率P和查全率R定义为:
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
以查全率和查准率为xy周给出坐标图
借用该博客的图片进行理解:

借用这个博客的图片
在比较时,若一个学习器的P-R曲线被另一个学习器的曲线完全保住,则可断言后者性能优于前者。其次,在不好比较时,平衡点可以作为一个度量。
上述比较方法过于简化,因此引入F1度量:
F 1 = 2 ∗ P ∗ R P + R = 2 ∗ T P 样 例 总 数 + T P − T N F1=\frac{2*P*R}{P+R}=\frac{2*TP}{样例总数+TP-TN} F1=P+R2PR=+TPTN2TP
F1是基于查全率和查准率的调和平均定义的,而 F β F_\beta Fβ则是加权调和平均。
因为我们在实际应用中,对查准率和查全率的侧重程度有所不同,所以常用加权调和平均。
F β = ( 1 + β 2 ) ∗ P ∗ R ( β 2 ∗ P ) + R F_\beta =\frac{(1+\beta^2)*P*R}{(\beta^2*P)+R} Fβ=(β2P)+R(1+β2)PR
其 中 β > 0 度 量 了 查 全 率 对 查 准 率 的 相 对 重 要 性 , 当 b e t a = 1 退 化 为 标 准 的 F 1 , β > 1 时 查 全 率 有 更 大 影 响 , β < 1 时 , 查 准 率 有 更 大 影 响 其中\beta>0度量了查全率对查准率的相对重要性,当beta=1退化为标准的F1,\beta>1时查全率有更大影响,\beta<1时,查准率有更大影响 β>0,beta=1退F1β>1β<1

当我们用一个算法进行多个模型的测试,得到n个二分类结果,但我们希望对算法也就是这n个结果进行综合考量查准率和查全率。
一种直接的做法是在各矩阵上分别计算出查准率和查全率,再计算出平均值,得到了宏查全率,宏查准率和相应的宏F1。

上述是计算出各查全率和查准率再求平均值,我们也可以先求各矩阵中的对应元素进行平均,然后再求出查全率和查准率以及F1,这时我们称为微查全率、微查准率、微F1。

2.3.3 ROC与AUC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/72060.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

诊断2F和14,19服务概述

关于2F 关于抑制位 关于14服务 关于19服务 在0x19服务中一般的使用顺序 1\0x19服务01子服务 通过状态掩码去查找与其相匹配的故障个数。 通过该服务诊断仪能够请求ECU中DTC状态与DTC状态掩码相匹配的故障码个数。如果某一个故障码的实际状态位为“1”&#xff0c;并且DTC状…

医院设置模块查询和删除功能的设计与实现

一、医院设置模块需求 医院设置主要是用来保存开通医院的一些基本信息&#xff0c;每个医院一条信息&#xff0c;保存了医院编号&#xff08;平台分配&#xff0c;全局唯一&#xff09;和接口调用相关的签名key等信息&#xff0c;是整个流程的第一步&#xff0c;只有开通了医院…

UGUI性能优化学习笔记(三)图片和图集

一、图片 1.1 纹理压缩 虽然我们可以将JPG、PNG之类的格式导入Unity作为纹理的源文件&#xff0c;但实际上&#xff0c;在导入Unity后&#xff0c;会自动对其进行纹理压缩。 为什么要进行纹理压缩&#xff1f; 每像素位数 (bpp) 表示单个纹理像素所需的存储量。bpp 值越低的…

简述供应链系统商品全生命周期管理价值,助力家用电器行业实现商品管理数字化

如今&#xff0c;随着数字化浪潮和消费升级叠加背景下&#xff0c;越来越多企业开始加速推进数字化的改造与升级&#xff0c;而家用电器行业作为我国经济发展不可或缺的中坚力量&#xff0c;现阶段许多家电企业的数字化管理水平还停留在初级阶段&#xff0c;难以适应变化多样的…

从弹性计算到数据处理——亚马逊云科技re:Invent

在2022亚马逊云科技re:Invent大会上&#xff0c;亚马逊云科技首席执行官Adam Selipsky说&#xff1a;“在今后的五年&#xff0c;我们创建了这些数据&#xff0c;可能会完全超过了数码时代一直到现在以来所有数据累加在一起的数量&#xff0c;这样同时也会告诉我们所有的组织都…

有哪些舆情监控方法,舆情监控工作机制?

一、舆情监控方法 1&#xff0c;组建新闻报道社会舆论舆情监控队伍 在言论高度自由的网络时代&#xff0c;人人都是自媒体&#xff0c;人人皆可表达意见。透过成立一队人才队伍的新闻报道社会舆论舆情监控各队能协助民营企业及时发现高度关注网络实时&#xff0c;迅速开展正面…

iphone13 ios 16.2降级15.6刷机教程

最近&#xff0c;更新了最新的ios16.2之后&#xff0c;系统经常出现卡屏卡死和异常耗电情况&#xff0c;最终决定对手机进行系统降级处理&#xff0c;下面是我的一个刷机过程。 目录 一、下载电脑版爱思助手 二、下载ios15.6版本固件 三、导入固件到爱思助手 四、刷机过程中…

Docker——自定义镜像

目录 一、镜像结构 二、Dockerfile 2.1 案例&#xff1a;基于Ubuntu镜像构建一个新镜像&#xff0c;运行一个java项目 2.1.1 新建文件夹docker-demo 2.1.2 拷贝docker-demo.jar到docker-demo 2.1.3 将jdk8.tar.gz文件放到docker-demo目录 2.1.4 将Dockerfile移动到docker-demo…

2023年IBDP大考计划安排

2023年5月IB考试时间已经公布。2023年5月IB考试时间表是以时区的不同分为A、B、C三个考区。具体安排如下&#xff1a; Zone A&#xff1a;UTC 12 至 UTC 3.5 Zone B&#xff1a;UTC 3 至 UTC 0 Zone C&#xff1a;UTC -1 至 UTC -10 中国属于东八区UTC8&#xff0c;属于Zone A考…

Linux学习:工程搭建

一、gcc main.c -o main 创建一个main.c文件 gedit main.c 在里边写进代码 #include <stdio.h>void main() {printf("hello world\n"); } 编译代码 gcc main.c -o main 输入ls&#xff0c;可以看到生成了一个可行性的main 执行main&#xff0c;即可执行…

2022年中科大分子生物学考试题、复习资料汇总(往年真题复习资料)

文章目录1.2022复习题2.2021复习题3.2020复习题4.2018复习题5.2015-2016复习题6.Key:复习重点7.随堂测验-平时成绩分子生物学复习资料及往年考题1.2022复习题 1.分子生物学复习资料及往年考题&#xff1a;&#xff08;已完结&#xff09; &#xff08;1&#xff09;资料完整版…

Tomcat的安装和运行

安装Tomcat 安装某一个软件,我们当然是要去官网.为了防止很多朋友找不到资源,我们这里直接放出官网路径. https://tomcat.apache.org/download-80.cgi 直接点击进入官网下载页面即可.选择Tomcat8,点击Core的zip包下载即可. 下载好以后,我们进入到下载的目录.选择到 我们下载…

js学习笔记

1.js代码要写在script标签中 <script type"text/javascript">for (let i0;i<5;i){document.write("<h1 stylecolor:red;>hello world</h1>")} </script>2.可以通过src的方式指定读取js文件进来&#xff0c;注意如果用这种方式…

[SECCON CTF 2022] crypto 部分复现

目录 janken vs kurenaif pqpq 以前写过了&#xff0c;官方方法一样 witches_symmetric_exam this is not lsb insufficient CVP BBB 当时仅pqpq差点完成&#xff0c;有个小错。其它都无从下手。终于看到wp一一试一下。原文 janken vs kurenaif 这个情况第一回见&#…

判断国际象棋棋盘中一个格子的颜色

题目链接 判断国际象棋棋盘中一个格子的颜色 题目描述 注意 coordinates.length 2‘a’ < coordinates[0] < ‘h’‘1’ < coordinates[1] < ‘8’ 解答思路 棋盘是不变的&#xff0c;只需要根据行列的奇偶性判断格子是否为白色即可 代码 方法一&#xff1…

爆火的OpenAi的ChatGPT聊天机器人注册和使用攻略

先来看看他的效果怎木样: 哇塞!是不是很奈斯!!! 一. 对OpenAi进行注册登录(需要翻墙) OpenAI APIAn API for accessing new AI models developed by OpenAIhttps://beta.openai.com/ 二. 购买一个虚拟号码用于手机号注册 nullReceive sms online on virtual numbers of SMS…

C2--Vivado开发环境之bit生成,文件组成,代码固化2022-12-08

1.FPGA的开发流程 Fpga代码的开发分为以下流程&#xff1a; 设计定义&#xff08;处于架构阶段&#xff0c;对需求进行定义&#xff0c;分析&#xff0c;模块划分&#xff09;设计输入&#xff08;verilog RTL代码输入、原理图&#xff09;功能仿真分析和综合&#xff08;由源…

真人踩过的坑,告诉你避免自动化测试入门常犯的10个错误

虽然从自己的错误中学习也不错&#xff0c;但从别人的错误中学习总是更好的。 作为一个自动化测试人员&#xff0c;分享常见的容易犯的10个错误&#xff0c;可以从中吸取教训&#xff0c;引以为鉴。 一、必要时才自动化 新人小王接到为Web应用程序自动化测试脚本的任务时&…

python服务调用-基于http的通信写协议(flask)-linux

服务器要部署一套算法, 我们的部署在该服务器上的数据平台需要调用 该算法进行一些操作, 要点主要两方面: 1.客户端发请求(同时传数据给服务). 2. 服务端的算法响应给请求,处理结束后,返回数据给客户端.这里一般第一次使用http协议的时候有点懵,其实是非常简单,我这里给了一个…

基于HTML+CSS+JavaScript “小味鲜“餐厅网页设计

基于HTMLCSSJavaScript "小味鲜"餐厅网页设计 每博一文案 师父说“生活中的负能大多来于圈子里的抱怨“&#xff0c;有时候&#xff0c;你不想做别人情绪的垃圾桶。 却不得不接受他们的吐槽&#xff0c;你嫌弃身边人无休止的抱怨&#xff0c;但又不知不觉被他们影响 …