sklearn 笔记 metrics

news2025/1/14 18:18:51

1 分类

1.1  accuracy_score 分类准确率得分

在多标签分类中,此函数计算子集准确率:y_pred的标签集必须与 y_true 中的相应标签集完全匹配。

1.1.1 参数

y_true真实(正确)标签
y_pred由分类器返回的预测标签
normalize
  • 默认为 True,返回正确分类的样本比例

  • 如果为 False,返回正确分类的样本数量

sample_weight样本权重
  • 二元分类中,等同于 jaccard_score

1.1.2 举例

from sklearn.metrics import accuracy_score

y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
accuracy_score(y_true, y_pred)
#0.5

accuracy_score(y_true, y_pred, normalize=False)
#2

1.2 balanced_accuracy_score 计算平衡准确率

平衡准确率用于二元和多类分类问题中处理数据不平衡的情况。它定义为每个类别上获得的召回率的平均值。

当 adjusted=False 时,最佳值为 1,最差值为 0

sklearn.metrics.balanced_accuracy_score(
    y_true, 
    y_pred, 
    *, 
    sample_weight=None, 
    adjusted=False)

1.2.1 参数

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
adjusted当为真时,结果会进行机会调整,使随机性能得分为 0,而完美性能保持得分为 1

1.2.2 举例

from sklearn.metrics import balanced_accuracy_score
y_true = [0, 1, 0, 0, 1, 0]
y_pred = [0, 1, 0, 0, 0, 1]
balanced_accuracy_score(y_true, y_pred),accuracy_score(y_true, y_pred)
#(0.625, 0.6666666666666666)

'''
3/4+1/2=0.625
'''

1.3 top_k_accuracy_scoreTop-k 准确率分类得分

计算正确标签位于预测(按预测得分排序)的前 k 个标签中的次数

sklearn.metrics.top_k_accuracy_score(
    y_true, 
    y_score, 
    *, 
    k=2, 
    normalize=True, 
    sample_weight=None, 
    labels=None)

1.3.1 参数

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
ktopk的k
normalize
  • 默认为 True,返回正确分类的样本比例

  • 如果为 False,返回正确分类的样本数量

sample_weight样本权重

1.3.2 举例

import numpy as np
from sklearn.metrics import top_k_accuracy_score
y_true = np.array([0, 1, 2, 2])
y_score = np.array([[0.5, 0.2, 0.2],  # 0 is in top 2
                    [0.3, 0.4, 0.2],  # 1 is in top 2
                    [0.2, 0.4, 0.3],  # 2 is in top 2
                    [0.7, 0.2, 0.1]]) # 2 isn't in top 2
top_k_accuracy_score(y_true, y_score, k=2)
#0.75

1.4 f1_score F1 分数

sklearn.metrics.f1_score(
    y_true, 
    y_pred, 
    *, 
    labels=None, 
    pos_label=1, 
    average='binary', 
    sample_weight=None, 
    zero_division='warn')

1.4.1  参数

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
labels

average != 'binary' 时包括的标签集,以及 average 为 None 时的标签顺序。

可以排除labels数据中存在的标签,例如在多类分类中可视为被排除的“负类”

默认情况下,labels=None,即使用 y_true 和 y_pred 中的所有标签,按排序顺序

pos_label

如果 average='binary' 且数据为二元,则报告该类

对于多类或多标签目标,设置 labels=[pos_label] 并且 average != 'binary' 来仅报告一个标签的指标

average

这是对多类/多标签目标必需的。

如果为 None,则返回每个类的分数。

否则,这决定了对数据执行的平均类型:

  • 'binary':仅报告由 pos_label 指定的类的结果
  • 'micro':通过计算总的真正例、假负例和假正例来全局计算指标
  • 'macro':为每个标签计算指标,并找到它们的无权重平均。这不考虑标签不平衡。
  • 'weighted':为每个标签计算指标,并根据支持度(每个标签的真实实例数)找到它们的加权平均
  • 'samples':为每个实例计算指标,并找到它们的平均
sample_weight样本权重
zero_division当发生零除法时返回的值,即所有预测和标签都是负的情况

1.4.2 举例

import numpy as np
from sklearn.metrics import f1_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
f1_score(y_true, y_pred, average='macro')
#0.26666666666666666
f1_score(y_true, y_pred, average='micro')
#0.3333333333333333
f1_score(y_true, y_pred, average='weighted')
#0.26666666666666666
f1_score(y_true, y_pred, average=None)
#array([0.8, 0. , 0. ])

这个是怎么算出来的呢?

1.5 precision_score & recall_score

参数和用法和f1_score一致,就不多说了

1.6 jaccard_score

参数和f1_score一致

1.6 log loss 交叉熵损失

对于具有真实标签 y 和概率估计 p 的单个样本,log loss 为:

1.6.1 参数

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
eps

Log loss 在 p=0 或 p=1 时未定义,因此概率被剪辑到 max(eps, min(1 - eps, p))

默认值取决于 y_pred 的数据类型

normalize
  • bool,默认为 True则返回每个样本的平均损失
  • 否则,返回每个样本损失的总和。
sample_weight样本权重
labels

labels array-like,默认为 None

  • 如果未提供,将从 y_true 推断出标签。
    • 提取出所有unique的label,然后排序?
  • 如果 labels 为 None 且 y_pred 的形状为 (n_samples,),则假定标签为二进制,并从 y_true 中推断出来

1.6.2 举例

from sklearn.metrics import log_loss
log_loss(["spam", "ham", "ham", "spam"],
         [[.1, .9], [.9, .1], [.8, .2], [.35, .65]])
#0.21616187468057912

怎么算出来的呢?

首先,这里没有提供labels,所以需要自己从y_true中infer出来,这边有两个不同的label:“ham"和”spam",通过排序,可以知道每一个二元组中的第一个元素是ham的概率,第二个元素是spam的概率’‘

import math

# 计算第一个样本的 log loss
loss1 = -(1 * math.log(0.9) + 0 * math.log(0.1))

# 计算第二个样本的 log loss
loss2 = -(0 * math.log(0.1) + 1 * math.log(0.9))

# 计算第三个样本的 log loss
loss3 = -(0 * math.log(0.2) + 1 * math.log(0.8))

# 计算第四个样本的 log loss
loss4 = -(1 * math.log(0.65) + 0 * math.log(0.35))

# 计算平均 log loss
average_log_loss = (loss1 + loss2 + loss3 + loss4) / 4
average_log_loss
#0.21616187468057912

2 聚类

2.1 调整互信息

sklearn.metrics.adjusted_mutual_info_score(
    labels_true, 
    labels_pred, 
    *, 
    average_method='arithmetic')
  • 调整互信息(AMI,Adjusted Mutual Information)是互信息(MI,Mutual Information)的一个改进版本,用于考虑随机性的影响。
  • 互信息通常会随着聚类数量的增加而增加,无论是否实际上共享了更多的信息。
  • AMI通过修正互信息,排除了这种数量上的偏差。
  • 对于两个聚类 U 和 V,AMI的计算公式如下:

2.1.1 参数

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
average_method

{‘min’, ‘geometric’, ‘arithmetic’, ‘max’},默认为 ‘arithmetic’

计算分母中规范化因子的方法

2.1.2 举例

from sklearn.metrics import adjusted_mutual_info_score
labels_true = [0, 0, 1, 1, 2, 2]
labels_pred = [0, 0, 1, 2, 2, 2]
ami_score = adjusted_mutual_info_score(labels_true, labels_pred)
print("Adjusted Mutual Information (AMI) score:", ami_score)
#Adjusted Mutual Information (AMI) score: 0.5023607027202738

3 回归

3.1 max_error 

sklearn.metrics.max_error(y_true, y_pred)
y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
from sklearn.metrics import max_error
y_true = [3, 2, 17, 1]
y_pred = [4, 2, 7, 1]
max_error(y_true, y_pred)
#10

 3.2 mean_absolute_error

sklearn.metrics.mean_absolute_error(
    y_true, 
    y_pred, 
    *, 
    sample_weight=None, 
    multioutput='uniform_average')

3.2.1 参数

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重

3.2.2  举例

from sklearn.metrics import mean_absolute_error
y_true = [0.5, -1, 7]
y_pred = [0, -1, 8]
mean_absolute_error(y_true, y_pred)
#0.5





y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
mean_absolute_error(y_true, y_pred, multioutput='raw_values')
#array([0.5, 1. ])


mean_absolute_error(y_true, y_pred)
#0.75
#上式两个取平均


mean_absolute_error(y_true, y_pred, multioutput=[0.3, 0.7])
#0.85
#0.5*0.3+1*0.7

3.3mean_squared_error

sklearn.metrics.mean_squared_error(
    y_true, 
    y_pred, 
    *, 
    sample_weight=None, 
    multioutput='uniform_average', 
    squared='deprecated')
y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重
squared

如果为True,就是MSE;

如果为False,就是RMSE

3.4 root_mean_squared_error

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重

3.5mean_squared_log_error

sklearn.metrics.mean_squared_log_error(
    y_true,     
    y_pred, 
    *, 
    sample_weight=None, 
    multioutput='uniform_average', 
    squared='deprecated')

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重
squared

如果为True,就是MSLE;

如果为False,就是RMSLE

3.6  root_mean_squared_log_error

root_mean_squared_log_error(
    y_true, 
    y_pred, 
    *, 
    sample_weight=None, 
    multioutput='uniform_average')
y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重

3.7  median_absolute_error

sklearn.metrics.median_absolute_error(
    y_true, 
    y_pred, 
    *, 
    multioutput='uniform_average', 
    sample_weight=None)
y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重

 

3.8 median_absolute_error

sklearn.metrics.median_absolute_error(
    y_true, 
    y_pred, 
    *, 
    multioutput='uniform_average', 
    sample_weight=None)

absolute error的中位数

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重

3.9 mean_absolute_percentage_error

sklearn.metrics.mean_absolute_percentage_error(
    y_true, 
    y_pred, 
    *,     
    sample_weight=None, 
    multioutput='uniform_average')

 

y_true真实(正确)的目标值
y_pred由分类器返回的预估目标值
sample_weight样本权重
multioutput

定义多输出值的聚合方式

  • ‘raw_values’:在多输出输入的情况下,返回每个输出的完整误差集。
  • ‘uniform_average’:所有输出的误差将以均匀权重进行平均。
  • 若为 array-like 值,则定义用于平均误差的权重

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1618156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

简单的图像处理算法

基础:图像处理都是用卷积矩阵对图像卷积计算,如3X3 的矩阵对640 X 480分辨率的图像卷积,最终会得到638 X 478 的图像。卷积过程是这样的: 一、中值滤波 : 找出矩阵中的最中间值作为像素点 二、均值滤波:找…

洛基计划project loki加速器推荐 免费低延迟联机加速器分享

洛基计划project loki加速器推荐 免费低延迟联机加速器分享 《洛基计划》是一款团队PVP游戏,融合有动作、英雄设计、大逃杀等元素,由前拳头游戏、Bungie和暴雪娱乐员工创立的新工作室Theorycraft Games共同发布。《洛基计划》汇集了一些大型团队PVP游戏…

(ICML-2021)从自然语言监督中学习可迁移的视觉模型

从自然语言监督中学习可迁移的视觉模型 Title:Learning Transferable Visual Models From Natural Language Supervision paper是OpenAI发表在ICML 21的工作 paper链接 Abstract SOTA计算机视觉系统经过训练可以预测一组固定的预定目标类别。这种受限的监督形式限制…

齐次变换矩阵、欧拉角

目录 齐次变换矩阵旋转矩阵如何计算平移矩阵如何计算实例 欧拉角和齐次变换矩阵互相转换 齐次变换矩阵 因为老是忘记齐次变换矩阵的含义以及方向,每次推导公式都很费劲,写下这篇文章用于快速回顾齐次变换矩阵。 表示的是:坐标系A到坐标系B的…

电脑问题快速判断

电脑开机没有任何反应 检查电源 检查电源是否有问题或损坏,可以短接方法检测 板电源卡口对自己接第四或第五根线,若风扇匀速转动,电源无问题,若不转动或转一下停一下,电源有问题 检查内部连线 确保主板上的线插的…

【C语言】手撕二叉树

标题:【C语言】手撕二叉树 水墨不写bug 正文开始: 二叉树是一种基本的树形数据结构,对于初学者学习树形结构而言较容易接受。二叉树作为一种数据结构,在单纯存储数据方面没有 顺序表,链表,队列等线性结构…

软件项目经理需要具备这 11 个能力

当前软件开发技术更新换代越来越快,各种项目实施管理思想也日新月异,作为一个软件项目经理,需要具备这 11 种能力: 1. 项目管理能力 了解项目管理的基本原则和方法,包括制定项目计划、资源分配、风险管理、问题解决和…

婚恋相亲红娘牵线系统源码支持微信小程序+微信公众号+H5+APP社交交友系统搭建,扩展你的社交影响力与人脉资源

当代年轻人晚婚晚育甚至不愿意结婚不愿意相亲等问题愈来愈严重了,但是如果抛开表现去追求本质的话,其实不难发现年轻人们还是会喜欢去找一些志同道合或者聊得来的异性朋友交流,从线上发展到线下的一个流程。 核心系统核心体系是恋爱小贴士、…

概率图模型在机器学习中的应用:贝叶斯网络与马尔可夫随机场

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

嵌入式s5p5818核心板介绍

底板寻址空间介绍 s5p6818 寻址空间采用统一编址方式进行管理 寻址空间映射图: 独立寻址:片内片外存储器只能选择其中一个 统一寻址:片内片外存储器都能使用,且使用的是同一片连续的寻址空间 reserved保留,Normaol …

【代码】Python3|用Python PIL压缩图片至指定大小,并且不自动旋转

代码主体是GPT帮我写的,我觉得这个功能非常实用。 解决自动旋转问题参考:一行代码解决PIL/OpenCV读取图片出现自动旋转的问题,增加一行代码image ImageOps.exif_transpose(image) 即可恢复正常角度。 from PIL import Image, ImageOpsdef …

vue 表格获取当前行索引,加颜色

vue 表格获取当前行索引&#xff0c;加颜色 <span styledisplay:inline-block;width:10px;height:10px;border-radius:50% :style"{background:color[scope.$index]}" />//定义颜色color: [#5387F7, #A794E0, #F3543C, #999999, #77D3F8, #FFA1B4, #26CEBA, #…

【Cookie和Session的区别(面试重点)】

Cookie和Session的区别 1. Cookie1.1 认识Cookie1.2 Cookie的引出1.3 Cookie工作原理1.4 Cookie重要结论 2. Session2.1 认识Session2.2 Session的引出2.3 Session的工作原理 3. Cookie和Session的区别 1. Cookie 1.1 认识Cookie Cookie&#xff1a;是小型文本文件&#xff0…

python自动生成SQL语句自动化

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 Python自动生成SQL语句自动化 在数据处理和管理中&#xff0c;SQL&#xff08;Structured …

鸿蒙OpenHarmony【LED外设控制】 (基于Hi3861开发板)

概述 OpenHarmony WLAN模组基于Hi3861平台提供了丰富的外设操作能力&#xff0c;包含I2C、I2S、ADC、UART、SPI、SDIO、GPIO、PWM、FLASH等。本文介绍如何通过调用OpenHarmony的NDK接口&#xff0c;实现对GPIO控制&#xff0c;达到LED闪烁的效果。其他的IOT外设控制&#xff0…

【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

【UE5.1 C++】VS2022下载安装

目录 步骤 一、Visual Studio下载安装 二、Visual Studio Integration Tool插件安装 先看一下UE和VS的兼容性 &#xff08;虚幻5&#xff1a;为虚幻引擎C项目设置Visual Studio开发环境&#xff09; &#xff08;虚幻4&#xff1a;设置虚幻引擎的Visual Studio&#xff0…

生产数据采集系统

在数字化浪潮的推动下&#xff0c;生产数据采集系统已经成为企业提升生产效率、优化运营管理的关键工具。那么&#xff0c;什么是生产数据采集系统呢&#xff1f;简单来说&#xff0c;生产数据采集系统是指通过一系列技术手段&#xff0c;实时收集、处理和分析生产线上的各类数…

[负债学习]支线Python4.21

三的东西&#xff0c;一个是环境&#xff0c;一个是基础语法&#xff0c;第3个是代码的案例。 我们先从头开始讲一下计算机&#xff0c;它主要由4个部分组成cpu的中央处理器和一个储存和一个输出和出。而储存的话主要是由内存和外存而cpu&#xff0c;中央处理器全称叫做通用计…

vuex和pinia转态管理工具介绍

文章目录 一、介绍二、使用1、pinia使用2、Vuex使用 一、介绍 相同点&#xff1a; 都是Vue.js的状态管理工具 不同点&#xff1a; 区别PiniaVuex支持Vue2和Vue3都支持Vue3写法需要额外配置Mutation只有 state, getter 和 action&#xff0c;无Mutationaction异步、Mutation …