论文阅读_模型鲁棒性的量化指标

news2025/1/17 3:57:55

论文信息

name_en: Robustness Metrics:How Are They Calculated, When Should They Be Used and Why Do They Give Different Results?
name_ch: 鲁棒性度量:它们是如何计算的,何时应该使用以及为什么会给出不同的结果?
addr: http://doi.wiley.com/10.1002/2017EF000649
doi: 10.1002/2017EF000649
date_read: 2023-02-03
date_publish: 2018-02-01
tags: [‘模型优化’]
if: 7.495
journal: Earths Future
author: C. McPhail
citation: 156

(学习小组本周230202学习笔记,感谢轩奇总结分享)

读后感

建立一个框架,用于计算和量化模型鲁棒性。使用者应根据情境,风险偏好,以及分布等角度选择不同的衡量方法。更抽象地讲,它是对不确定性的决策原则。选择不同鲁棒性评价方法会影响决策,尽量使用多个指标结合的方式。

介绍

根据经济学中的不确定型决策原则。在深度不确定性下,存在多种不确定因素共同影响决策的后果。在这样的系统中,系统性能通常使用鲁棒性指标来衡量。

具体方法介绍

Maximin

悲观原则:有若干种结果,选择每个系列中最坏结果中的最好结果
M a x i m i n = m a x ( m i n 1 , m i n 2 , . . . , m i n n ) Maximin = max(min_1, min_2, ..., min_n) Maximin=max(min1,min2,...,minn)

Maximax

乐观原则:有若干种结果,选择每个系列中最好结果中的最好结果
M a x i m a x = m a x ( m a x 1 , m a x 2 , . . . , m a x n ) Maximax = max(max_1, max_2, ..., max_n) Maximax=max(max1,max2,...,maxn)

Hurwicz optimism-pessimism rule

折衷原则:按比例结合乐观和悲观原则
H O R = α M a x m i n + ( 1 − α ) M a x i m a x HOR = αMaxmin + (1 − α)Maximax HOR=αMaxmin+(1α)Maximax

Laplace’s principle of insufficient reason

不充分理由原则:对所有结果取平均
L P I R = 1 / n ∑ i n r e a l LPIR=1 / n\sum_{i}^{n} real LPIR=1/ninreal

Minimax regret

后悔最小原则:最优-实际,也是一种相对悲观的方法
r e g r e t i = m a x − r e a l i regret_i = max − real_i regreti=maxreali
M i n i m a x R e g r e t = m i n ( r e g r e t 1 , r e g r e t 2 , . . . , r e g r e t n ) MinimaxRegret = min(regret_1, regret_2, ..., regret_n) MinimaxRegret=min(regret1,regret2,...,regretn)

90th percentile minimax regret

与 Minimax regret 相似,只是取后悔的90分位数

Mean-vaiance

均值方差模型:类似不充分理由模型,通过频率采样,计算分布,估计打分

Undesirable deviations

不良偏差:将偏差的中位数作为打分

Percentile-base skewness

正态分布偏度:描述不对称程度,有左偏和右偏两种,它是对分布的评价(pandas可提供该统计值)

Percentile-base skewness

正态分布峰度:描述某个分布相⽐于正态分布的峰值⾼低的程度,它是对分布的评价

Starr’s domain criterion

斯塔尔阈准则:计算性能与决策者选择的基准进⾏⽐较,并打分, 1为通过,0为不通过,计算打分的平均值,得分最高的鲁棒性高。

乐观程度排名如下图所示:

框架

框架由三部分组成:方案(Decision alternatives),条件(Plausible future conditions),度量方法(Performance metric)。代入机器学习的场景中,如下:

  • 方案->模型算法,解决一个问题可能有多个算法,x1,x2…xm,每次评价其中一种的鲁棒性
  • 条件->数据,不同情况下的数据,可视为不同场景,S={s1,s1…sn},比如不同环境下产生的数据,每个算法xi需要代入不同场景的数据
  • 度量方法->评价方法,将各个场景数据S代入模型xi,f(xi,S)评价模型在各场景下的效果。

计算其整体鲁棒性可分为以下三步:

  • T1:将对模型的评价方法f改为f’,比如在后悔最小模型中,把对模型的打分改为最好值与实际值的差。
  • T2:选择场景子集,有的方法不需要所有子集参与,比如乐观原则只需要选择效果最好的场景子集。
  • T3:融合各个场景子集的结果,比如不充分理由原则会对所有子集的结果取均值。

具体方法对应的步骤如下:

如何选择鲁棒性度量方法

  • 在T1步中,可选择使用相对指标还是绝对指标,以及考虑客户满意度
  • 在T2步中,可选择使用单个场景,多个场景,所有场景,以及风险偏好
  • 在T3步中,需要考虑使用什么方法结合多场景的结果,如均值,方差,峰度等。

下表列出了不同方法T1,T2,T3步骤的差异以及风险偏好。

不同鲁棒性度量方法可能产生不一致结果。


扩展

对抗鲁棒性

具体应用时,如果没有多场景的数据,可以使用对抗攻击方式产生不同场景数据,然后用其评测模型鲁棒性。

工具介绍

对抗攻击工具箱
adversarial-robustness-toolbox
其readme.md中的Classifies展示了对分类器的攻击,其中包含针对不同种类模型攻击的工具。
具体使用逻辑是:先用数据训练一个模型(任意黑盒模型),然后用将模型和数据代入API,生成具有攻击性的数据,并用其评测模型被攻击后的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/197965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件工程(2)--瀑布模型

前言 这是基于我所学习的软件工程课程总结的第二篇文章。 在20世纪80年代之前,瀑布模型一直是唯一被广泛采用的生命周期模型,现在它仍然是软件工程中应用得最广泛的过程模型。传统软件工程方法学的软件过程,基本上可以用瀑布模型来描述。 正…

【OpenGL学习】光照贴图

光照贴图 上节中我们给物体添加了材质,使得物体能够对光照做出不同的反应,但是有个问题就是,使用该种材质的物体,只能够表现出我们所定义的一种性质,而实际生活中我们的一个物体往往具有多种材质,因此本节…

一文了解jquery

簡述本文主要介紹jquery的重要語法功能,如選擇器,dom操作,事件等處理操作什麼jquery?jquery由美国人John Resig(约翰莱西格)于2006年创建 ,是目前最流行的JavaScript程序库。以輕量,代碼簡潔&am…

windows快速切换jdk版本号

前言 因为老项目和新项目的需要,在电脑上需要切换jdk1.8和jdk17(其它版本jdk同样可以切换)。网上有修改配置文件的方式,但是感觉比较繁琐,后来找到了通过bat文件和环境变量来快速切换jdk环境的方法。这里记录分享出出…

rclone挂载webdav详细步骤(含脚本)

挂载说明 文章目录挂载说明文件下载地址:文件夹及文件说明windows安装、配置和挂载操作步骤安装新建连接配置挂载开机自启linux安装、配置和挂载操作步骤安装新建连接配置,见 [链接新建连接配置](#新建连接配置)挂载linux开机自启文件下载地址: 文件下载…

如何实现前端全屏

前言 最近有个需求是要求免登录自动打开看板,然后全屏并播放视频。当然最后自动全屏并播放视频没有实现,写这篇文章是为了记录一下踩的坑。 全屏 网上有挺多现成的组件的,这里就不介绍了,可以自行百度。这里只说通过原生的方法…

手机更换电池-小米8se操作步骤

目录 准备工具: 步骤: 注意事项: 准备工具: 需要更换电池的手机电池背胶(左上蓝色)缠胶棍(手机左边)小螺丝刀新电池卡针后盖拆卸片(右上三角)吸盘后盖背胶 …

Cesium 点位聚合

实现效果 实现方式 通过 new Cesium.EntityCluster(options) 接口对象实现而 new Cesium.DataSource() 有成员变量 clusteringclustering 类型是 EntityCluster代码实现,基于 vue 前端框架 这里使用的是 cesium 沙盒演示中自带的数据进行实现 加载数据 getKMLDTSource() {let o…

cnetsdk:.NET OCR SDK-支持中文-Crack

产品概览 .NET OCR SDK 许可证和价格 OCR SDK 兼容性 CnetSDK .NET OCR Scanner SDK兼容.NET Framework 4.0及以上版本。此 OCR 库软件可用于在任何 CPU 上进行 .NET OCR Windows 和基于服务器的应用程序开发。我们为 x86 和 x64 系统提供 OCR 库解决方案。 OCR 图像格式 这个 …

[学习笔记]黑马程序员-Hadoop入门视频教程

文章目录参考资料大数据导论企业数据分析方向数据分析基本流程步骤明确分析的目的和思路数据收集数据处理数据分析数据展现报告攥写大数据时代大数据定义大数据的5V特征参考资料 黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程 目录 大数据…

C++ 面试题-设计模式类问题(万余字总结)

C 面试题-设计模式类问题1 、说说什么是单例设计模式,如何实现2、 简述一下单例设计模式的懒汉式和饿汉式,如何保证线程安全3、 请说说工厂设计模式,如何实现,以及它的优点4 、请说说装饰器计模式,以及它的优缺点5 、请…

数据挖掘,计算机网络、操作系统刷题笔记40

数据挖掘,计算机网络、操作系统刷题笔记40 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,orac…

TCP协议面试灵魂12 问(三)

等待2MSL的意义 如果不等待会怎样? 如果不等待,客户端直接跑路,当服务端还有很多数据包要给客户端发,且还在路上的时候,若客户端的端口此时刚好被新的应用占用,那么就接收到了无用数据包,造成…

C++高级教程——C++ 异常处理

C 异常处理C 异常处理抛出异常捕获异常C 标准的异常定义新的异常C 异常处理 异常是程序在执行期间产生的问题。C 异常是指在程序运行时发生的特殊情况,比如尝试除以零的操作。 异常提供了一种转移程序控制权的方式。C 异常处理涉及到三个关键字:try、c…

【Linux】gdb的使用

文章目录🎪 Linux下gdb的使用🚀1.gdb调试准备🚀2.gdb指令集🚀3.gdb指令演示⭐3.1 展示源文件代码⭐3.2 断点与多步调试操作⭐3.3 常用操作指令🎪 Linux下gdb的使用 GDB 全称“GNU symbolic debugger”,是一…

dp(十)* 0-1背包与完全背包的组合数问题 搞清组合数与排列数

目录 兑换零钱(二)_牛客题霸_牛客网(完全背包) 494. 目标和(0-1背包) 分割等和子集_牛客题霸_牛客网 兑换零钱(二)_牛客题霸_牛客网(完全背包) 描述 给定一个整数数组 nums 表示不同数额的硬币和一个正…

拉伯证券|社会消费复苏将是2023年主旋律

安排指出,兔年新年黄金周社会消费平稳复苏。全国范围看,依据国家税务总局增值税发票数据,2023年新年黄金周(1月21日-27日,阴历岁除至正月初六),全国消费相关工作销售收入同比2022年新年假日添加…

Qt 进程(基本用法)

进程的使用情况: 运行的当前的应用中调用外部程序来实现功时调使用到进程。 比如:在你的运行程序中,开启迅雷或开启其他程序QProcess类用来 启动一个外部程序并与之通信QProcess类 常用一些函数: start()…

Pycharm 中Torch安装方法

1.使用自带工具安装依次打开菜单:File->Setting点击号,搜索torch选择1.13.0版本安装安装错误:具体包含很长一段错误记录,如下:Collecting torch1.13.0Downloading https://files.pythonhosted.org/packages/ec/5e/8…

网络协议栈简单设计(tcp)

网络协议栈简单设计(tcp) 接着这篇文章写的 TCP相对于Udp,分为两个部分:连接(三次握手、四次挥手)、交互(数据传输) 三次握手 tcp包结构体定义 依照tcp包头字段定义就行: 注意,…