机器学习——模型评估

机器学习——模型评估

news2025/7/12 15:08:30

在学习得到的模型投放使用之前，通常需要对其进行性能评估。为此，需使用一个“测试集”(testing set）来测试模型对新样本的泛化能力，然后以测试集上的“测试误差( tootino error)作为泛化误差的近似。

我们假设测试集是从样本真实分布中独立采样获得，所以测试集要和训练集中的样本尽量互斥。

给定一个已知的数据集，将数据集拆分成训练集S和测试集T，通常的做法包括留出法、交叉验证法、自助法。

留出法:

√直接将数据集划分为两个互斥集合

√训练/测试集划分要尽可能保持数据分布的一致性

√一般若干次随机划分、重复实验取平均值

√训练/测试样本比例通常为2:1~4:1

交叉验证法:

将数据集分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，最终返回k个测试结果的均值，k最常用的取值是10。

交叉验证法:

将数据集分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集,余下的子集作为测试集，最终返回k个测试结果的均值，k最常用的取值是10。

与留出法类似，将数据集D划分为k个子集同样存在多种

划分方式,为了减小内样本划分→丹八的左A折交叉验证通常随机使用不同的划分重复p次，最终的

评估结果是这p次k折交叉验证结果的均值，例如常见的“10次10折交叉验证”。

自助法:

以自助采样法为基础，对数据集D有放回采样m次得到训练集D',D \D'用做测试集

√实际模型与预期模型都使用m个训练样本

√约有1/3的样本没在训练集中出现，用作测试集√从初始数据集中产生多个不同的训练集,对集成学习有很大的好处

√自助法在数据集较小、难以有效划分训练/测试集时很有用;

由于改变了数据集分布可能引入估计偏差，在数据量足够时，留出法和交叉验证法更常用。

所谓评估指标就是衡量稳型之化能力分1的广向的步仕结果任务需求;

使用不同的评估指标往往会导致不同的评估结果。

在分类预测任务中，给定测试样例集，评估分类模型的性能就是把对每一个待测样本的分类结果和它的真实标记比较。

因此，准确率和错误率是最常用的两种评估指标:

√准确率就是分对样本占测试样本总数的比例

√错误率就是分错样本占测试样本总数的比例

由于准确率和错误率将每个类看的同等重要，因此不适合用来分析类不平衡数据集。在类不平衡数据集中，正确分类稀有类比正确分类多数类更有意义。此时查准率和查全率比准确率和错误率更适合。对于二分类问题，稀有类样本通常记为正例，而多数类样本记为负例。统计真实标记和预测结果的组合可以得到如下所示的混淆矩阵:

查准率(P)就是被分为正类的样本中实际为正类的样本比例:

P=TP/(TP+FP)

查全率(R)就是实际为正类的样本中被分为正类的样本比例:

R=TP/(TP+FN)

可见，查准率是被分类器分为正类的样本中实际为正类的比例;而查全率是被分类器正确分类为正类的比例。二者通常是矛盾的。查准率高时，查全率往往偏低;而查全率高时，查准率往往偏低。为综合考虑查准率和查全率，它们的调和均值F1度量被提出︰

β=1∶标准的F1

β>1∶偏重查全率

β<1∶偏重查准率

真正率(TPR)就是被分为正类的正样本比例:

TPR=TP/(TP+FN)

假正率(FPR）就是被分为正类的负样本比例:

FPR=FP/(FP+TN)

若某个分类器的ROC曲线被另一个分类器的曲线“包住”，则后者性能优于前者;否则如果曲线交叉，可以根据ROC曲线下面积的大小进行比较，即AUC (AreaUnder ROC Curve)

其中，n0和n1分别表示反例和正例的个数，ri分别为第i个反例(-)在整个测试样例中的排序。

AUC度量了分类器预测样本排序的性能。

CLL度量了分类器预测样本类成员概率的性能。

关于性能比较:

√测试性能并不等于泛化性能

√测试性能会随着测试集的变化而变化

√很多机器学习算法本身有一定的随机性

直接选取相应评估方法在相应度量下比大小的方法不可取!

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/375267.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ShardingSphere水平、垂直分库、分表和公共表

ShardingSphere水平、垂直分库、分表和公共表

目录一、ShardingSphere简介二、ShardingSphere-分库分表1、垂直拆分（1）垂直分库（2）垂直分表2、水平拆分（1）水平分库（2）水平分表三、水平分库操作1、创建数据库和表2、配置分片的规则…

阅读更多...

中级嵌入式系统设计师2016下半年上午试题及答案解析

中级嵌入式系统设计师2016下半年上午试题及答案解析

中级嵌入式系统设计师2016下半年上午试题单项选择题 1、（1）用来区分在存储器中以二进制编码形式存放的指令和数据。 A. 指令周期的不同阶段 B. 指令和数据的寻址方式 C. 指令操作码的译码结果 D. 指令和数据所在的存储单元 2、计算机在一个指令周期的过程中，为从…

阅读更多...

web服务器（1）

web服务器（1）

阻塞和非阻塞、同步和异步网络IO阶段一：数据就绪操作系统，tcp接受缓冲区阻塞：调用IO方法的线程进入阻塞状态非阻塞：不会改变线程的状态，通过返回值判断网络IO阶段二：数据读写应用程序同步…

阅读更多...

接口自动化框架---升级版(Pytest+request+Allure)

接口自动化框架---升级版(Pytest+request+Allure)

目录：导读一、简单介绍二、目录介绍三、代码分析写在最后接口自动化是指模拟程序接口层面的自动化，由于接口不易变更，维护成本更小，所以深受各大公司的喜爱。第一版入口：接口自动化框架(PytestrequestAllure…

阅读更多...

[Android Studio] Android Studio使用keytool工具读取Debug 调试版数字证书以及release 发布版数字证书

[Android Studio] Android Studio使用keytool工具读取Debug 调试版数字证书以及release 发布版数字证书

🟧🟨🟩🟦🟪 Android Debug🟧🟨🟩🟦🟪 Topic 发布安卓学习过程中遇到问题解决过程，希望我的解决方案可以对小伙伴们有帮助。 📋笔记目…

阅读更多...

学生宿舍管理系统

学生宿舍管理系统

技术：Java、JSP等摘要：管理信息系统在现代社会已深入到各行各业，由于计算机技术的迅速发展和普及，信息管理系统MIS事实上已成为计算机管理信息系统,大学生宿舍管理系统就是一个典型的管理信息系统，它可以让宿舍管理工作…

阅读更多...

【算法题】最大矩形面积，单调栈解法

【算法题】最大矩形面积，单调栈解法

力扣：84. 柱状图中最大的矩形给定 n 个非负整数，用来表示柱状图中各个柱子的高度。每个柱子彼此相邻，且宽度为 1 。求在该柱状图中，能够勾勒出来的矩形的最大面积。题意很简单，翻译一下就是：求该图中…

阅读更多...

模拟银行存取钱-课后程序(JAVA基础案例教程-黑马程序员编著-第八章-课后作业)

模拟银行存取钱-课后程序(JAVA基础案例教程-黑马程序员编著-第八章-课后作业)

【案例8-3】模拟银行存取钱【案例介绍】 1.任务描述在银行办理业务时，通常银行会开多个窗口，客户排队等候，窗口办理完业务，会呼叫下一个用户办理业务。本案例要求编写一个程序模拟银行存取钱业务办理。假如有两个用户在存取…

阅读更多...

【Linux】-- POSIX信号量

【Linux】-- POSIX信号量

目录 POSIX信号量 sem_init - 初始化信号量 sem_destroy - 销毁信号量 sem_wait - 等待信号量（P操作） 基于环形队列的生产消费模型数据结构 - 环形结构实现原理 POSIX信号量 #问：什么是信号量？ 1. 共享资源 -> 任何一…

阅读更多...

2. 驱动开发--驱动开发环境搭建

2. 驱动开发--驱动开发环境搭建

文章目录前言一、Linux中配置编译环境1.1 linux下安装软件的方法1.2 交叉编译工具链的安装1.2.1 测试是否安装成功1.3 设置环境变量1.3.1 将工具链导出到环境变量1.4 为工具链创建arm-linux-xxx符号链接二、搭建运行开发环境2.1 tftp网络方式加载内核和设备树文件2.2 nfs网络方…

阅读更多...

大事很妙，跨境电商用Reddit做营销做测评真的很有用

大事很妙，跨境电商用Reddit做营销做测评真的很有用

最近呢，东哥在和一个叫 jens 的海外社媒大佬聊天，聊起了Reddit，其实 Reddit 可是个不错的流量平台，里面有不少宝藏，跟我们国内的贴吧差不多啦。作为美国热度排名前五的社交网站，流量如此不错的平台&#…

阅读更多...

3、Improved Denoising Diffusion Probabilistic Models#

3、Improved Denoising Diffusion Probabilistic Models#

简介论文发现通过一些简单的修改，ddpm也可以在保持高样本质量的同时实现竞争对数可能性，反向扩散过程的学习方差允许以更少的正向传递数量级进行采样，而样本质量的差异可以忽略不计，这对于这些模型的实际部署非常重要。 github链接…

阅读更多...

AOF:redis宕机，如何避免数据丢失

AOF:redis宕机，如何避免数据丢失

由于redis是基于内存的数据库，一旦宕机，数据就会丢失?如何解决？ 目前，Redis 的持久化主要有两大机制，即 AOF（Append Only File）日志和 RDB（Redis DataBase） 快照。 AO…

阅读更多...

SQL零基础入门学习（十四）

SQL零基础入门学习（十四）

上篇：SQL零基础入门学习（十三） SQL NULL 值 NULL 值代表遗漏的未知数据。默认地，表的列可以存放 NULL 值。如果表中的某个列是可选的，那么我们可以在不向该列添加值的情况下插入新记录或更新已有的记录。这意味着该…

阅读更多...

基于新一代kaldi项目的语音识别应用实例

基于新一代kaldi项目的语音识别应用实例

本文是由郭理勇在第二届SH语音技术研讨会和第七届Kaldi技术交流会上对新一代kaldi项目在学术及“部署”两个方面报告的内容上的整理。如果有误，欢迎指正。文字整理丨李泱泽编辑丨语音小管家喜报：新一代Kaldi团队三篇论文均被语音顶会ICASSP-2023接…

阅读更多...

亿级高并发电商项目-- 实战篇 --万达商城项目十三（编写购物车、优化修改商品、下架商品方法、购物车模块监听修改商品、删除商品消息）

亿级高并发电商项目-- 实战篇 --万达商城项目十三（编写购物车、优化修改商品、下架商品方法、购物车模块监听修改商品、删除商品消息）

👏作者简介：大家好，我是小童，Java开发工程师，CSDN博客博主，Java领域新星创作者 📕系列专栏：前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶 &#x1f4…

阅读更多...

SSL证书对虚拟主机的用处有哪些？

SSL证书对虚拟主机的用处有哪些？

虚拟主机是指在同一台服务器上，通过不同的域名或IP地址为多个网站提供服务的一种网络主机。而SSL证书则是一种数字证书，它用于加密网站与用户之间的通信，确保数据传输的安全性和完整性。在虚拟主机上，SSL证书有以下几个用处&#…

阅读更多...

SQL Server2008详细安装步骤（保姆式教程）

SQL Server2008详细安装步骤（保姆式教程）

安装包下载链接：https://pan.baidu.com/s/1Rjx4DHJBeCW2asC_4Kzo6Q?pwdchui 提取码：chui 安装过程 1.解压后使用管理员身份打开安装程序 2.选择全新安装或向现有安装添加新功能 3.确认 4.输入产品密钥（上方网盘安装包里有&#xff0…

阅读更多...

【路径规划】基于前向动态规划算法在地形上找到最佳路径（Matlab代码实现）

【路径规划】基于前向动态规划算法在地形上找到最佳路径（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

【ArcGIS Pro二次开发】(10)：属性表字段(field)的修改

在ArcGIS Pro中，经常会遇到用字段计算器对要素的属性表进行计算。下面以一个例子演示如何在ArcGIS Pro SDK二次开发中实现。一、要实现的功能如上图所示的要素图层，要实现如下功能： 当字段【市级行政区】的值为【泉州市】时，将…

阅读更多...

推荐文章

最新文章