auc的计算方法

news2024/11/24 11:31:59

方法一

用指示函数表示上式中正样本预测值大于负样本预测值的正负样本对,则得到
在这里插入图片描述
p表示预测得分。

在给出的例子中,包含有2个正样本(A, B)和3个负样本(C, D, E),因此一共有6个(2*3)正负样本对,即公式中分母为6。

接下来计算公式中的分子,即每个正负样本对的指示函数值:

  • 以A为正样本形成的正负样本对为(A, C), (A, D), (A, E),指示函数值分别为1,0.5,0;
  • 以B为正样本形成的正负样本对为(B, C), (B, D), (B, E),指示函数值分别为1,1,1。
    在这里插入图片描述
    这种方法计算AUC的时间复杂度为O(P*N)

方法二

用方法1计算AUC易于理解,但需要对所有样本对计算指示函数值,有没有不需要对所有样本对遍历的方法?

AUC计算的关键是找到所有正样本预测值大于负样本预测值的正负样本对。

  • 如果引入排序,则大小关系就可以确定;
  • 如果有正样本的排序序号,则可以每一个正样本有多少样本的分数比他低(这其中包括正负样本对,也包括正正样本对),若减去正正样本对数量就是AUC计算需要的正负样本对。

在这里插入图片描述
举例来说:
在这里插入图片描述
在上面的例子中出现了正样本A与负样本D得分相等的情况,这时候A排序值由相同得分的排序值算平均值,即(2+3)/2=2.5。

这样,2.5+5 = 7.5(说明一共有7.5个样本对,正样本打分高于其他样本),然后7.5中还包括正正样本对,大小为M(M+1)/2, 则所有正样本中,正样本大于负样本打分的样本对有7.5-2(2+1)/2=4.5。分母不变=2*3

则auc为:
在这里插入图片描述

代码

import numpy as np
from sklearn.metrics import roc_auc_score

# python sklearn包计算auc
def get_auc(y_labels, y_scores):
    auc = roc_auc_score(y_labels, y_scores)
    print('AUC calculated by sklearn tool is {}'.format(auc))
    return auc

# 方法1计算auc
def calculate_auc_func1(y_labels, y_scores):
    pos_sample_ids = [i for i in range(len(y_labels)) if y_labels[i] == 1]
    neg_sample_ids = [i for i in range(len(y_labels)) if y_labels[i] == 0]

    sum_indicator_value = 0
    for i in pos_sample_ids:
        for j in neg_sample_ids:
            if y_scores[i] > y_scores[j]:
                sum_indicator_value += 1
            elif y_scores[i] == y_scores[j]:
                sum_indicator_value += 0.5

    auc = sum_indicator_value/(len(pos_sample_ids) * len(neg_sample_ids))
    print('AUC calculated by function1 is {:.2f}'.format(auc))
    return auc

# 方法2计算auc, 当预测分相同时,未按照定义使用排序值的均值,而是直接使用排序值,当数据量大时,对auc影响小
def calculate_auc_func2(y_labels, y_scores):
    samples = list(zip(y_scores, y_labels))
    rank = [(values2, values1) for values1, values2 in sorted(samples, key=lambda x:x[0])]
    pos_rank = [i+1 for i in range(len(rank)) if rank[i][0] == 1]
    pos_cnt = np.sum(y_labels == 1)
    neg_cnt = np.sum(y_labels == 0)
    auc = (np.sum(pos_rank) - pos_cnt*(pos_cnt+1)/2) / (pos_cnt*neg_cnt)
    print('AUC calculated by function2 is {:.2f}'.format(auc))
    return auc


if __name__ == '__main__':
    y_labels = np.array([1, 1, 0, 0, 0])
    y_scores = np.array([0.4, 0.8, 0.2, 0.4, 0.5])
    get_auc(y_labels, y_scores)
    calculate_auc_func1(y_labels, y_scores)
    calculate_auc_func2(y_labels, y_scores)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/747234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Rogue DHCP Server攻击(仿冒DHCP Server攻击)

目录 事件原理 DHCP 仿冒攻击 防护方法 事件原理 攻击原理:攻击者仿冒DHCP Server向客户端分配错误的IP地址以及错误的网关等信息,导致用户无法正常的访问网络。漏洞分析:DHCP客户端收到DHCP Server的DHCP消息之后,无法区分这些DHCP消息是来自仿冒的DHCP Server还是…

【NLP】BERT和原理揭示

一、说明 BERT(来自transformer的双向编码器表示)是Google AI Language研究人员最近发表的一篇论文。它通过在各种NLP任务中展示最先进的结果,在机器学习社区引起了轰动,包括问答(SQuAD v1.1),自…

PostgreSQL如何设置主键自增?

本文主题:采用Navicat 连接pgSQL库,如何创建表,如何设置主键自增? 1. 如何通过Navicat 连接pgSQL创建表 详细创建过程可以参考天翼云文章: 参考链接:https://www.ctyun.cn/document/10000047/10030641 2…

一篇完整学习JUC并发编程(包含实例源码)

文章目录 JUC并发编程1、什么是JUC?2、线程和进程并发、并行线程有几个状态? 6个wait/sleep区别? 3、Lock锁传统sychronized锁卖票实例使用Lock锁卖票实例sychnorized 和 lock锁区别 4、生产者和消费者问题synorchized版生产者和消费者问题虚假唤醒问题…

【UT学习记录】

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 Part1:Mock Part2:PowerMock Part3:Junit 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文…

Linux进程信号(二)

信号保存与捕捉 1.相关概念2.信号在内核中的示意图3.信号集4.信号集操作函数5.内核态与用户态6.信号捕捉7.sigaction8.可重入函数8.volatile9.SIGCHLD信号 🌟🌟hello,各位读者大大们你们好呀🌟🌟 🚀&#…

hbuilderX自定义主题仿vscode暗黑主题

目录 hbuilderX自定义主题仿vscode暗黑主题 效果图 设置方式(把主题代码复制进来即可) 是基于雅蓝主题自定义的 设置好后需要切换到雅蓝主题 hbuilderx保存时自动整理代码 1.首先在顶部栏,找到工具,打开设置 2.点击旁边的编…

uniapp做微信小程序,自定义checkbox和radio的样式

用uniapp做个微信小程序,其中有用到自定义checkbox和radio的样式;代码记录如下: 自定义checkbox 在App.vue中写入样式: checkbox.red .wx-checkbox-input,checkbox.red .uni-checkbox-input {background-image: url(/static/ima…

MySQL锁定:死锁及其避免方法

文章目录 一、MySQL锁定和并发控制的重要性二、MySQL锁机制回顾2.1 锁类型:共享锁和排他锁2.2 锁粒度:行级锁和表级锁 三、死锁的原因和场景四、检测和解决死锁4.1 死锁检测算法4.2 死锁处理策略4.3 手动处理死锁 五、死锁的预防和避免分布式环境下&…

驱动程序设计 利用RTC显示年月日时分秒到终端 7.11

驱动控制RTC 用户需求:写一个RTC时钟控制的驱动,实现RTC显示年月日时分秒到用户端 驱动需求:设备:RTC模块 功能:打印显示 寄存器操作: 原理图: 设备–>pin–>设备控制芯片 ​ 驱动需求 …

信号波形时序图常用工具推荐

Refer: 下载:画时序图的四大神器_可编程器件-面包板社区 (eet-china.com) 软件工程师,习惯使用StarUML画Timing Diagram, 硬件工程师建议使用一下软件。 1、AndyTiming 免费的,这个有一个知乎的博文可以参考 https://zhuanlan.zhihu.com/p…

Android 中利用多个Button组合实现选项切换效果

效果图&#xff1a; xml布局: <LinearLayoutandroid:orientation"horizontal"android:layout_width"match_parent"android:layout_height"50dp"android:gravity"center"android:background"color/White">​<Linear…

SpringCloud Alibaba微服务分布式架构组件演变

文章目录 1、SpringCloud版本对应1.1 技术选型依据1.2 cloud组件演变&#xff1a; 2、Eureka2.1 Eureka Server &#xff1a; 提供服务注册服务2.2 EurekaClient &#xff1a; 通过注册中心进行访问2.3 Eureka自我保护 3、Eureka、Zookeeper、Consul三个注册中心的异同点3.1 CP…

Mysql:常见的面试题和答案

1. 数据库事务的特性&#xff1f; 原子性&#xff1a;即不可分割性&#xff0c;事务要么全部被执行&#xff0c;要么就全部不被执行。一致性或可串性。事务的执行使得数据库从一种正确状态转换成另一种正确状态隔离性。在事务正确提交之前&#xff0c;不允许把该事务对数据的任…

华为数通智选交换机S5735S-L24T4S-QA2无法SSH远程访问

以前都是按照华为S5700交换机开启SSH远程访问方法配置不同网段通过静态路由实现互通,华为S5700交换机开启ssh远程登陆,现在新买的华为数通智选交换机S5735S-L24T4S-QA2,也是按照这步骤配置,令人不解的是,竟然无法ssh访问,仔细看了配置也没有发现问题,在华为eNSP模拟器上验…

FreeSwitch 1.10.9 在CentOS7.9编译spandsp版本匹配问题

最近FreeSwitch 1.10.9 在CentOS7.9编译mod_spandsp出问题, making all mod_spandsp make[4]: Entering directory /usr/local/src/freeswitch-1.10.9.-release/src/mod/applications/mod_spandspCC mod_spandsp_la-mod_spandsp.loCC mod_spandsp_la-udptl.loCC …

HTTP以及Servlet的学习

HTTP和Servlet 联系&#xff1a; HTTP是一个通信协议&#xff0c;而Servlet是服务器端程序&#xff0c;用于处理HTTP请求。Servlet通常用于处理HTTP请求&#xff0c;在服务器上生成动态内容&#xff0c;并生成HTTP响应。HTTP协议就是Servlet处理的基础。 区别&#xff1a; …

【MySQL】如何查询MySQL执行过的所有SQL语句

文章目录 1 MySQL 的通常查询日志实验2 参考资料 1 MySQL 的通常查询日志实验 通过 MySQL 的通用查询日志可以找到你指定的每一条 sql 语句。很明显会有严重的性能损耗所以也只会在开发测试时才会使用。 前言&#xff1a;关于本实验与慢日志实验几乎一模一样&#xff0c;故本文…

05-算法部分 (数据结构和算法)

一 排序算法 1.1 冒泡法排序 冒泡排序&#xff08;Bubble Sort&#xff09;是一种简单直观的排序算法。它重复地走访过要排序的数列&#xff0c;一次比较两个元素&#xff0c;如果他们的顺序错误就把他们交换过来。 首先从数组的第一个元素开始到数组最后一个元素为止&#x…

串行FLASH文件系统FatFs-文件系统介绍

目录 串行FLASH文件系统FatFs-文件系统介绍 文件系统介绍 使用SPI FLASH直接存储数据缺点 Windows上的文件系统 磁盘的物理结构 磁盘分区表 文件系统的结构与特性 文件系统的空间示意图 FATFS文件系统 FATFS文件系统简介 1 . 特征 2. 层级结构 FatFs的目录结构 FatF…