机器学习模型评估指标

news2024/10/5 13:48:28

1.回归模型评估指标

(1).绝对误差

预测和实际之间误差的绝对值之和。

(2).均方误差

预测和实际之间距离之差平方和的均值

2.分类的评估准则

分类的评估标准很多,不同的评估标准侧重点不一样,我们不可能做到万事俱备,甚至有的指标是相互冲突。我们这里先引入混淆矩阵。

假设我们要做二分类,标签为0和1,预测值当然也是0和1

预测为0预测为1
真实标签为0TNFP
真实标签为1FNTP

我们以预测为标准,来分析结果,如果你对一个数据预测,预测为1,结果他真的是1,那么他就是真正(True Position)类,也就是TP,如果你的写得算法很垃圾,全靠猜,那么很不幸,他就是假正(False Position)类FP,同理,就有真负(True Negative)类TN和假负(Flase Negative)类。

于是就有了如下几个评估

(1).准确率

预测正确所占的比例

accuracy=(TP+TN)/(TP+FP+TN+FN)

(2).精度

预测为正的全部样本中真正类所占的比例。所以又叫做查准率,查询正确的正类的比率,也就是所查询出来的这些信息,有多少是我想要的。

Position=TP/(TP+FP)

(3).召回率

正类中有多少被查询出来?于是就有了下面这个标准。所以又叫查全率。顾名思义的名字。

Recall=TP/(FN+TP)

精度和召回率就是一对对立的标准,一个高另一个就会低。根据实际情况选择一个标准。但是总有人想全都要,于是出现了第三个标准F1分数

(4).F1分数

Position为纵坐标,Recall为横坐标,在评估过程中,修改阈值,这两个值会形成一条曲线,如果一个曲线覆盖另一个,则说明覆盖范围更大的曲线对应的算法更好。这么描述,很多人都不会明白,百度一下吧。总之会有这么一条曲线,在y=x上会有个交点,这个交点就是平衡点F1。

F1=(2*Position*Recall)/(Positive+Recall)

F1分数也有很多变种,其中有一个Fβ,可以修改position和recall之间的比例

(5)ROC曲线

(引入).这个稍微有点复杂,假设我们做一个二分类,结果是根据分类的概率来分类,比如一个数据它被分为1的概率是0.55,那么我们应该怎么算它的类别?如果我们设置一个阈值为0.5,概率大于0.5就被认为是1,反之为0;如果我们设置阈值为0.6,那么他就被分类为0;

(a).如果我们得到一组预测样本,还有对应的预测概率值,那么我们就将概率值从大到小排列。

(b).依次从大到小选择对应的概率值作为阈值,大于等于这个阈值设置为正,反之设置为负。

(c).将设置结果与实际进行比较,然后计算TP和TP,TP为纵坐标,FP为横坐标

一般来讲,曲线面积越大,则表示分类器效果越好

于是就有了AUC,AUC就是ROC曲线的面积,这就没什么好说的,累加求面积。

(6).AUC

3.聚类模型的评估标准

聚类就是把一组数据划分为不相关的子集,也就是样本簇,我们希望统一簇内的样本尽可能相似,而不同簇的样本之间尽可能不同。也就是同一类样本内的差距尽可能小,不同类之间相差尽可能大。实现这个目标主要有外部指标和内部指标。

1.外部指标

外部指标需要提供一个参考模型,然后将聚类结果与该模型进行比较得到一个评判值,常用的评估标准有Jaccard系数,FM指数,Rand指数和标准化互信息。

假设给定数据集为T=\{x_1,x_2,...,x_m\},被某个参考划分为C^*=\{c_1^*,c_2^*,c_3^*,...,c_J^*\},也就是实际被划分为J个簇;如果选择一个算法,被划为C=\{c_1,c_2,c_3,...,c_k\},将它划分为k个簇,假设\gamma^*\gamma分别表示C^*和C的簇向量标记,我们将样本两两配对得到下面的结果

SS:同时属于\gamma_i\gamma^*_j的样本对数量为a

SD:属于\gamma_i但不属于\gamma^*_j的样本对数量b

DS:不属于\gamma_i但属于\gamma^*_j的样本对数量c

DD:不属于\gamma_i\gamma^*_j的样本对数量d

(1).Jaccard系数

JC=a/(a+b+c)

(2).FM指数

FMI=\sqrt{a/(a+b)*a/(a+c)}

(3).Rand指数

RI=\tfrac{2(a+b)}{M(M+1)}

M代表样本总数

(4).标准互信息

这个没什么好说,基本意思时一个随机变量由于另一个变量的随机性下降而减少的随机性

I(x,y)=H(Y)-H(Y/X)

2.内部指标

将一堆数据分为K个簇,希望他们尽可能聚拢在一起。每个簇都有自己如下的数据

(1).avg(ck),簇ck每对样本之间的平均距离

(2).diam(ck),簇ck中距离最远的两个点

(3).d_{min}(ck,cl),簇ck,cl之间最近的点

(4).d_{cen}(ck,cl),簇ck,cl中心点之间的距离

(1)DB指数

每一对簇的平均距离之和,然后除以他们的中心距离,最后取均值

(2).Dunn指数

任意两个簇之间的衡量标准,簇ck,cl之间之间最短距离与簇ck内最远距离对的比值

(3).轮廓系数

这个系数适用于样本类别位置未知的情况。

一个样本的轮廓系数为s=(b-a)/max(a,b)

簇的轮廓系数等于所有样本的均值

4.距离

1.曼哈顿距离

d_{12}=\sum_{i=1}^{n}|x_{1i}-x_{2i}|

2.欧氏距离

这个没什么好说的,就是平面直角坐标系的距离

3.闵可夫斯基距离

欧式距离的推广,平方改为p次方

4.切比雪夫距离

每一对数据数据绝对值中的最大值

max(xi, yi)

5.夹角余弦

衡量两个方向向量之间的角度差异,高中知识

6.汉明距离

两个字符串中不相同位数的数目,比如‘1100’与'1000'的汉明距离为1

7.杰卡徳相似系数

两个类的交集与两个类的并集的比值

8.杰徳卡距离

1减去杰徳卡相似系数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1293199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有效解决wordpress的502 Bad Gateway错误提示

摘要:最近有客户反映使用阿里云虚拟云主机,wordpress常提示502 Bad Gateway错误,网关错误是网站上遇到的常... wordpress的502 Bad Gateway错误如何修复? 第1步:偶发错误可尝试重新加载网站 偶尔出现流量突发爆增或是服…

【开源】基于JAVA语言的数字化社区网格管理系统

项目编号: S 042 ,文末获取源码。 \color{red}{项目编号:S042,文末获取源码。} 项目编号:S042,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、开发背景四、系统展示五、核心源码5…

电脑系统重装Win10专业版操作教程

用户想给自己的电脑重新安装上Win10专业版系统,但不知道具体的重装步骤。接下来小编将详细介绍Win10系统重新安装的步骤方法,帮助更多的用户完成Win10专业版的重装,重装后用户即可体验到Win10专业版系统带来的丰富功能。 准备工作 1. 一台正常…

刷题学习记录(文件上传)

[GXYCTF 2019]BabyUpload 知识点&#xff1a;文件上传.htaccessMIME绕过 题目直接给题目标签提示文件上传的类型 思路&#xff1a;先上传.htaccess文件&#xff0c;在上传木马文件&#xff0c;最后蚁剑连接 上传.htaccess文件 再上传一个没有<?的shell 但是要把image/pn…

【Proteus仿真】【51单片机】简易计算器

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真51单片机控制器&#xff0c;使动态数码管、矩阵按键、蜂鸣器等。 主要功能&#xff1a; 系统运行后&#xff0c;数码管默认显示0&#xff0c;输入对应的操作数进行四则运算&#x…

如何在Ubuntu的Linux系统上安装nacos的2.3.0版本

官方网址链接 home (nacos.io)Nacos 快速开始github代码仓库简单介绍 Nacos是阿里巴巴的产品&#xff0c;现在是SpringCloud中的一个组件&#xff0c;其可以用于服务发现和服务健康监测、动态配置服务、动态DNS服务、服务及其元数据管理。安装包下载地址&#xff1a; Releases …

Uniapp - 环境搭建 vscode开发

uni-app 基础 创建 uni-app 项目方式 uni-app 支持两种方式创建项目&#xff1a; 通过 HBuilderX 创建&#xff08;需安装 HBuilderX 编辑器&#xff09; 通过命令行创建&#xff08;需安装 NodeJS 环境&#xff09; HBuilderX 创建 uni-app 项目 创建步骤 1.下载安装 H…

Kubernetes实战(八)-防止k8s namespace被误删除

1 背景 运维新同学在预发环境操作删除pod的时候&#xff0c;不知道什么原因把kubectl delete pod命令敲成了kubectl delete ns pre把预发环境删了&#xff0c;几十个模块&#xff0c;将近一个小时才恢复。幸亏是测试环境啊&#xff0c;如果是生产可以可以跑路了。 2 解决方案…

Thymeleaf生成pdf表格合并单元格描边不显示

生成pdf后左侧第一列的右描边不显示&#xff0c;但是html显示正常 显示异常时描边的写法 cellpadding“0” cellspacing“0” &#xff0c;td,th描边 .self-table{border:1px solid #000;border-collapse: collapse;width:100%}.self-table th{font-size:12px;border:1px sol…

关于物联网仪表ADW300 远传电表的详细介绍-安科瑞 蒋静

1概述 ADW300无线计量仪表主要用于计量低压网络的三相有功电能&#xff0c;具有体积小、精度高、功能丰富等优点&#xff0c;并且可选通讯方式多&#xff0c;可支持 RS485 通讯和 Lora、NB、4G、wifi 等无线通讯方式&#xff0c;增加了外置互感器的电流采样模式&#xff0c;从而…

postman实现接口自动化图解步骤,测试用例集,断言,动态参数,全局变量的随笔记录

实现接口自动化的方式有很多种&#xff0c;requests unittest ddt 的接口自动化框架有些朋友也有接触&#xff0c;但是考虑到很多没有代码基础&#xff0c;且这种框架实现需要的时间周期比较长&#xff0c;但是大多数公司的项目时间并不充裕。 这篇随笔主要就是记录实现效率…

CentOS系统下配置HTTP服务器的步骤

在CentOS系统下配置HTTP服务器涉及到一系列的步骤。以下是一个基本的步骤概述&#xff0c;帮助你了解如何为CentOS系统配置HTTP服务器。 安装HTTP服务器软件&#xff1a; 首先&#xff0c;你需要在CentOS系统上安装HTTP服务器软件。常见的选择是Apache HTTP服务器。你可以使用…

SDN随笔

SDN不支持跨厂商 vxlan有1600万个&#xff0c;随便用 openstack来通过sdn来管理网络 网络架构 openflow很激进&#xff0c;用的很少 华为解决方案 推动网络设备的自动化配发 网络流量与路径优化

科普小知识-3D 打印是什么?

3D 打印是什么&#xff1f;作为近年来备受关注的前沿科技&#xff0c;3D 打印技术正在不断改变着制造业、医疗领域、艺术设计等多个领域的面貌。其又被称为增材制造&#xff0c;是一种通过电脑设计&#xff0c;逐层堆叠材料来创建三维物体的技术。 3D 打印的基本原理 3D 打印…

智能优化算法应用:基于北方苍鹰算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于北方苍鹰算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于北方苍鹰算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.北方苍鹰算法4.实验参数设定5.算法结果6.参考…

Qt11.7

登录窗口的应用场景&#xff0c;实现一个登录窗口界面 头文件&#xff1a; #ifndef AIKUN_H #define AIKUN_H#include <QWidget> #include <QIcon> //图标类 #include <QMovie> //动图类 #include <QLabel> //标签类 #include <QLineEdit> …

dockers安装rabbitmq

RabbitMQ: easy to use, flexible messaging and streaming — RabbitMQhttps://www.rabbitmq.com/ Downloading and Installing RabbitMQ — RabbitMQ docker run -it --rm --name rabbitmq -p 5672:5672 -p 15672:15672 rabbitmq:3.12-management 之后参照&#xff1a;dock…

HTTP、HTTPS、SSL协议以及报文讲解

目录 HTTP/HTTPS介绍 HTTP/HTTPS基本信息 HTTP请求与应答报文 HTTP请求报文 HTTP响应报文 SSL协议 SSL单向认证 SSL双向认证 HTTP连接建立与传输步骤 HTTP访问全过程相关报文&#xff08;以访问www.download.cucdccom为例子&#xff09; DNS报文解析 TCP三次握手连…

智能配电监控系统

智能配电监控系统是针对供配电系统中的变配电环节&#xff0c;利用现代计算机控制技术、通信技术和网络技术等&#xff0c;采用抗干扰能力强的通讯设备及智能电力仪表&#xff0c;经电力监控管理软件组态&#xff0c;实现的系统的监控和管理。依托电易云-智慧电力物联网&#x…

生成式人工智能笔记-AIGC笔记

生成式人工智能笔记-AIGC笔记 十多年前&#xff0c;人工智能还只是一个不被人看好的小众领域&#xff0c;但是现在&#xff0c;它却已经成了街头巷尾的热点谈资&#xff0c;几乎任何事情都可以和人工智能联系在一起。 人工智能包括基础层、技术层和应用层。 基础层是人工智能…