【机器学习可解释性】5.SHAP值的高级使用

news2024/12/26 23:04:02

机器学习可解释性

  • 1.模型洞察的价值
  • 2.特征重要性排列
  • 3.部分依赖图
  • 4.SHAP 值
  • 5.SHAP值的高级使用

正文

汇总SHAP值以获得更详细的模型解释

总体回顾

我们从学习排列重要性和部分依赖图开始,以显示学习后的模型的内容。
然后我们学习了SHAP值来分解单个预测的组成部分。
现在我们将对SHAP值展开讨论,看看聚合许多SHAP值如何为排列重要性图和部分依赖图提供更详细的替代方案。

SHAP值 回顾

Shap 值显示了给定特征对我们预测的改变程度(与我们在该特征的某个基线值上进行预测相比)。

例如,考虑一个超简单的模型:
y = 4 ∗ x 1 + 2 ∗ x 2 y = 4* x1 + 2∗x2 y=4x1+2x2

如果 x 1 x1 x1 取值2,而不是基线值0,这样 x 1 x1 x1的SHAP值
应该是8(4乘以2)

我们在实践中使用的复杂模型很难计算这些。但通过一些聪明的算法,shap值允许我们将任何预测分解为每个特征值的效果总和,生成如下图:

img

除了每个预测的细分之外,Shap库还提供了Shap值组的可视化功能。我们将重点关注其中的两种可视化。这些可视化在概念上与排列重要性图和部分依赖图相似。因此,前面练习中的多个线索将在这里结合在一起。

总结图

排列重要性非常重要,因为它创建了简单的数字度量来查看哪些特征对模型重要。这有助于我们轻松地比较特性,并且您可以向非技术人员展示结果图。

但它并没有告诉你每个特性的重要性。如果一个特征具有中等排列重要性,那可能意味着它具有中等排列重要性

  • 对一些预测有很大影响,但总体上没有影响,或者
  • 所有预测的中等效应

SHAP总结图可以让我们鸟瞰特征的重要性和驱动因素。我们将浏览一个足球数据的示例图:

img
这张图由许多点组成。每个点有三个特点:

  • 垂直位置显示它所描绘的特征
  • 颜色显示该特征在数据集的那一行中是高还是低
  • 水平位置显示该值的影响是否导致较高或较低的预测
    例如,左上角的点代表进球很少的球队,将预测值降低0.25。

有些东西你应该能够很容易地挑选出来:

  • 该模型忽略了RedYellow & Red特征。
  • 通常Yellow Card(黄牌)不会影响预测,但有一种极端情况,高数值会导致低得多的预测。
  • Goal Scored越高,预测越高,得分越低,预测越低
    如果你观察的时间够长,你会发现这张图里有很多信息。在练习中,你会遇到一些问题来测试你的理解能力。
总结图代码

您已经看到了加载足球数据的代码:

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

data = pd.read_csv('../input/fifa-2018-match-statistics/FIFA 2018 Statistics.csv')
y = (data['Man of the Match'] == "Yes")  # Convert from string "Yes"/"No" to binary
feature_names = [i for i in data.columns if data[i].dtype in [np.int64, np.int64]]
X = data[feature_names]
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
my_model = RandomForestClassifier(random_state=0).fit(train_X, train_y)

我们使用以下代码获取所有验证数据的SHAP值。它足够短,我们在评论中解释它。

import shap  # package used to calculate Shap values

# 创建计算 shap values 对象
explainer = shap.TreeExplainer(my_model)

# 计算 shap values 为画图作准备
# 计算所有val_X的shap values 而不是一行,这样有更多的数据用于作图shap_values = explainer.shap_values(val_X)

# 以索引1 的值来作图
shap.summary_plot(shap_values[1], val_X)

这里的代码并不太复杂。但也有一些需要注意的地方。

  • 绘制时,我们调用shap_values[1]。对于分类问题,每个可能的结果都有一个单独的SHAP值数组。在本例中,我们索引以获得预测True的SHAP值。
  • 计算SHAP值可能很慢。这在这里不是问题,因为这个数据集很小。但是,在使用合理大小的数据集进行绘图时,您需要小心。例外是在使用xgboost模型时,SHAP对其进行了一些优化,因此速度要快得多。

这提供了对模型的一个很好的概述,但我们可能想要深入研究单个特性。这就是SHAP依赖性贡献图发挥作用的地方。

SHAP依赖性贡献图

我们以前使用部分依赖图来显示单个特征如何影响预测。这些都是深刻的,并且与许多真实的用例相关。另外,只要稍加努力,它们就可以向非技术人员解释清楚。

但还有很多东西他们没有展示出来。例如,效果的分布是怎样的?某一特定值的影响是相当恒定的,还是取决于其他特征的值而变化很大?SHAP依赖性贡献图提供了与PDP相似的解释,但它们添加了更多细节。

先从形状开始,我们一会儿再回来讲颜色。每个点代表一行数据。水平位置是数据集的实际值,垂直位置显示该值对预测的影响。这个曲线向上倾斜的事实表明,你控球越多,模型对赢得本场最佳球员的预测就越高。

这一差异表明,其他特征必须与控球率相互作用。例如,这里我们突出了两个具有相似控球值的点。这个值导致一个预测增加,另一个预测减少。


相比之下,简单的线性回归会产生完美的曲线,然而这个没有。

这表明我们要深入研究相互作用,图中包含了颜色编码来帮助我们做到这一点。虽然主要趋势是向上的,但您可以直观地检查是否因网点颜色而变化。

考虑下面这个非常狭窄的具体例子。

在这里插入图片描述
这两点在空间上与上升趋势相去甚远。它们都是紫色的,表示该队进了一球。你可以这样理解:一般来说,拥有球权会增加球队球员赢得奖项的机会。但如果他们只进了一个球,这种趋势就会逆转,如果他们进的球那么少,裁判可能会因为他们控球太多而惩罚他们。

除了这几个异常值之外,颜色表示的相互作用在这里并不是很引人注目。但有时它会突然出现在你面前。

依赖性贡献图的代码

我们用下面的代码得到依赖性贡献图。与summary_plot唯一不同的行是最后一行。

import shap  # package used to calculate Shap values

# Create object that can calculate shap values
explainer = shap.TreeExplainer(my_model)

# calculate shap values. This is what we will plot.
shap_values = explainer.shap_values(X)

# make plot.
shap.dependence_plot('Ball Possession %', shap_values[1], X, interaction_index="Goal Scored")

如果您没有为interaction_index提供一个参数,Shapley会使用一些逻辑来选择一个可能有趣的参数。
这不需要编写大量代码。但这些技术的诀窍在于批判性地思考结果,而不是编写代码本身。

轮到你了

用一些问题来测试自己,用这些技巧来提升你的技能。


练习部分

设置

我们再次提供了代码来进行基本的加载、审查和模型构建。运行下面的单元格以设置所有内容:

import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
import shap

# Environment Set-Up for feedback system.
from learntools.core import binder
binder.bind(globals())
from learntools.ml_explainability.ex5 import *
print("Setup Complete")


import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

data = pd.read_csv('../input/hospital-readmissions/train.csv')
y = data.readmitted
base_features = ['number_inpatient', 'num_medications', 'number_diagnoses', 'num_lab_procedures', 
                 'num_procedures', 'time_in_hospital', 'number_outpatient', 'number_emergency', 
                 'gender_Female', 'payer_code_?', 'medical_specialty_?', 'diag_1_428', 'diag_1_414', 
                 'diabetesMed_Yes', 'A1Cresult_None']

# Some versions of shap package error when mixing bools and numerics
X = data[base_features].astype(float)

train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# For speed, we will calculate shap values on smaller subset of the validation data
small_val_X = val_X.iloc[:150]
my_model = RandomForestClassifier(n_estimators=30, random_state=1).fit(train_X, train_y)

这里用的还是前面用到医院再次入院的数据集

data.describe()
time_in_hospitalnum_lab_proceduresnum_proceduresnum_medicationsnumber_outpatientnumber_emergencynumber_inpatientnumber_diagnosesreadmitted
count25000.00000025000.0000025000.00000025000.00000025000.00000025000.00000025000.0000025000.00000025000.000000
mean4.39564042.960121.34108015.9884400.3659200.2032800.643007.4201600.456400
std2.99116519.768811.7053988.1077431.2244190.9829731.262861.9409320.498105
min1.0000001.000000.0000001.0000000.0000000.0000000.000001.0000000.000000
25%2.00000031.000000.00000010.0000000.0000000.0000000.000006.0000000.000000
50%4.00000044.000001.00000015.0000000.0000000.0000000.000008.0000000.000000
75%6.00000057.000002.00000020.0000000.0000000.0000001.000009.0000001.000000
max14.000000126.000006.00000081.00000036.00000064.00000021.0000016.0000001.000000

前几个问题需要检查每个特征的效果分布,而不仅仅是每个特征的平均效果。运行下面的单元格,以获得shap_values的总结图。运行大约需要20秒。

explainer = shap.TreeExplainer(my_model)
shap_values = explainer.shap_values(small_val_X)

shap.summary_plot(shap_values[1], small_val_X)

问题 1

以下哪个特征对预测的影响范围更大(即最积极和最消极的影响之间的差异更大)

  • diag_1_428
  • payer_code_?
# 在以下填写变量 'diag_1_428' 或 'payer_code_?'
feature_with_bigger_range_of_effects = ____

# Check your answer
q_1.check()

答案:

feature_with_bigger_range_of_effects = ‘diag_1_428’

问题 2

你认为效应大小的范围(最小效应和最大效应之间的距离)是一个很好的指标,表明哪个特征具有更高的排列重要性吗?为什么或者为什么不呢?

如果效应大小的范围测量的是与排列重要性不同的东西:对于“在讨论人群中的再入院风险时,模型认为这两个特征中哪一个对我们来说更重要”这个问题,哪个是更好的答案?

在你决定了你的答案之后,运行下面的代码行。

# Check your answer (Run this code cell to receive credit!)
q_2.solution()

结论:
没有。效应范围的宽度不是排列重要性的合理近似值。就此而言,范围的宽度并不能很好地映射到任何直观的“重要性”,因为它可以由几个异常值来确定。然而,如果图表上的所有点彼此之间分布广泛,这是一个合理的迹象,表明排列的重要性很高。由于影响的范围对异常值非常敏感,所以排列重要性是衡量对模型普遍重要的东西的更好方法。

问题 3

diag_1_428payer_code_?是二进制变量,取值为0或1。

从图表中,你认为哪一个通常会对预测的再入院风险产生更大的影响:

  • 将diag_1_428从0修改为1
  • 改变payer_code_ ?从0到1

为了节省滚动时间,我们在下面添加了一个单元格来再次绘制图形(这个单元格运行得很快)。

shap.summary_plot(shap_values[1], small_val_X)

# Set following var to "diag_1_428" if changing it to 1 has bigger effect.  Else set it to 'payer_code_?'
bigger_effect_when_changed = ____

# Check your answer
q_3.check()

答案:

bigger_effect_when_changed = “diag_1_428”

要获得结论和解释,运行下一行。

结论:
虽然diag_1_428的大多数SHAP值很小,但少数粉点(变量的高值,对应于具有该诊断的人)具有较大的SHAP值。换句话说,这个变量的粉色点离0很远,让某人拥有更高的(粉色)值会显著增加他们的再入院风险。在现实世界中,这种诊断很罕见,但对患有这种疾病的人来说风险更大。相比之下,payer_code_?有许多蓝色和粉红色的值,并且两者的SHAP值都与0有意义的不同。但是改变payer_code_?从0(蓝色)到1(粉红色)的影响可能比更改diag_1_428的影响要小。

问题 4

一些特征(如number_inpatient)在蓝色点和粉色点之间有相当清晰的分隔。num_lab_procedures等其他变量将蓝色和粉红色的点混杂在一起,尽管SHAP值(或对预测的影响)并不都是0。

您认为您从num_lab_procedures将蓝色和粉红色的点混在一起的事实中学到了什么? 为了得到答案,运行下面的行来验证您的结论。

结论:
这种混乱表明,有时增加该特征会导致更高的预测,有时会导致更低的预测。换句话说,特征值的高低对预测既有积极的影响,也有消极的影响。对于这种“混乱”的效果,最可能的解释是变量(在本例中为num_lab_procedures)与其他变量具有交互作用。例如,可能有一些诊断需要进行许多实验室检查,而其他诊断则意味着风险增加。我们还不知道还有什么其他特性与num_lab_procedures交互,尽管我们可以用SHAP贡献依赖图来研究它。

问题 5

考虑下面的SHAP贡献依赖性图。
x轴显示feature_of_interest,点根据other_feature上色。


feature_of_interestother_feature之间是否存在交互?如果是这样,当other_feature值高或other_feature值低时,feature_of_interest是否对预测有更积极的影响?

当您准备好得到答案时,运行以下代码。

# Check your answer (Run this code cell to receive credit!)
q_5.solution()

结论:
首先,回想一下,SHAP值是对给定特征对预测的影响的估计。因此,如果点从左上角到右下角呈趋势,这意味着低的feature_of_interest值导致更高的预测。

回到这个图表:

other_feature值较高时,Feature_of_interest向下倾斜。要看到这一点,请将目光集中在粉色点上(other_feature值较高的地方),并通过这些粉色点想象一条最适合的线。它向下倾斜,表明预测随着feature_of_interest的增加而下降。

现在把你的眼睛集中在蓝色的点上,想象一下这些点之间的最佳拟合线。它通常是相当平坦的,甚至可能在图的右侧向上弯曲。因此,当other_feature值较高时,增加feature_of_interest会对预测产生更积极的影响。

问题 6

通过运行以下单元格查看重新接收数据的总结图:

shap.summary_plot(shap_values[1], small_val_X)

num_drugsnum_lab_procedures都有粉红色和蓝色的点。

除了num_drugs具有更大的影响(更积极和更消极)之外,很难看出这两个特征在影响再入院风险方面有什么有意义的区别。为每个变量创建SHAP依赖性贡献图,并描述您认为这两个变量对预测影响的不同之处。

提醒一下,这里是您之前看到的用于创建这种类型的图的代码。

shape.dependence_plot(feature_of_interest, shap_values[1], val_X)
回想一下,您的验证数据名为small_val_X

# Your code here
____

提示:这里需要填写 ‘num_lab_procedures’ 和 ‘num_medications’ 的
依赖性贡献图。
答案:

shap.dependence_plot(‘num_lab_procedures’, shap_values[1],
small_val_X) shap.dependence_plot(‘num_medications’, shap_values[1],
small_val_X)


粗略地说,num_lab_procedures看起来像一个没有什么可识别模式的云。它在任何一点都不会陡然向上或向下倾斜。很难说我们从那个情节中学到了什么。同时,这些值并不都非常接近于0。所以这个模型似乎认为这是一个相关的特征。一个潜在的下一步将是通过给它涂上不同的其他特征来搜索交互来探索更多。

另一方面,num_drugs明显向上倾斜,直到值大约为20,然后又向下倾斜。如果没有更多的医学背景,这似乎是一个令人惊讶的现象……你可以做一些探索看看这些病人是否在其他特征上也有不寻常的价值。但下一步最好是与领域专家(在本例中是医生)讨论这一现象。

祝贺你

就是这样!机器学习模型不应该再像黑盒子一样,因为你有工具来检查它们,并了解它们对世界的了解。

这是调试模型、建立信任和学习解释以做出更好决策的优秀技能。这些技术彻底改变了我做数据科学的方式,我希望它们也能对你产生同样的影响。

真正的数据科学包含探索的元素。我希望你能找到一个有趣的数据集来试用这些技术(Kaggle有很多免费的数据集可供试用)。如果你在这个世界上学到了一些有趣的东西,可以在这个论坛上分享你的作品。我很想看看你如何运用你的新技能。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1147634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

汇编语言-div指令溢出问题

汇编语言-div指令溢出问题 8086CPU中被除数保存在ax(16位)或ax和dx(32位)中,如果被除数为16位,进行除法运算时al保存商,ah保存余数。如果被除数为32位时,进行除法运算时,ax保存商,d…

从最简单基本开始 or 把问题复杂化还自诩为“设计了一个可扩展的系统”?

文章目录 Intro程序员“把问题复杂化”的职业病如何抉择 Intro 刚才看了一段关于在苹果系统中使用numbers表格软件制作记账本的视频教程:当 Excel 交给苹果来设计会变成…?#Numbers 新手教学,以下为最终界面效果: 有些触动&…

网络原理续

传输层的协议也并非就只有UDP和TCP 就拿王者荣耀这个游戏来说 是否需要可靠性是否需要高效率 那是使用TCP还是UDP呢? 当然是都不用, 除了这两个协议外, 有的传输层协议就是为游戏场景量身打造的. 比如说以KCP为代表的一系列协议. 网络层 地址管理路由选择 网络层的代表:…

【FreeRTOS】

FreeRTOS 一、FreeRTOS任务创建和删除1.1 动态方式1.2 静态方式 二、任务挂起和恢复三、中断管理四、临界区保护及调度器的挂起和恢复五、列表项的插入和删除六、时间片调度七、任务状态查询API函数介绍7.1 任务状态查询API7.2 任务运行时间统计API 八、时间管理九、队列十、信…

SpringBoot小项目——简单的小区物业后台管理系统 认证鉴权 用户-角色模型 AOP切面日志 全局异常【源码】

目录 引出一、应用到的技术栈Spring、Spring MVC、Spring Boot基础SpringBoot进阶、SpringMVC原理、AOP切面MyBatis 数据库相关JavaWeb基础:Session等前端Vue、JavaScript、Bootstrap 二、后台管理系统的功能登录功能1.用户名密码登录2.验证码的登录 报修业务的处理…

【多线程面试题十】、说一说notify()、notifyAll()的区别

文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘也能加深记忆。利己利人、所谓双赢。 面试官:说一说notify()、notify…

C++哈希表:一种快速查找和插入的方法

文章目录 1、前言2、unordered系列关联式容器2.1、 unordered_map2.1.1、unordered_map的文档介绍2.1.2、unordered_map的接口说明 2.2、 unordered_set 3. 底层结构3.1 哈希概念3.2 哈希冲突2.3 哈希函数2.4 哈希冲突解决2.4.1 闭散列2.4.2 开散列 4. 模拟实现4.1 哈希表的改造…

论文速递 TMC 2023 | RoSeFi: 一种利用商用WiFi设备进行稳健的久坐行为监测系统

注1:本文系“最新论文速览”系列之一,致力于简洁清晰地介绍、解读最新的顶会/顶刊论文 TMC 2023 | RoSeFi: 一种利用商用WiFi设备进行稳健的久坐行为监测系统 原文链接:https://ieeexplore.ieee.org/abstract/document/10269067 本文提出了一种稳健的久坐行为监测系统RoSeFi。…

ITSource 分享 第5期【校园信息墙系统】

项目介绍 本期给大家介绍一个 校园信息墙 系统,可以发布信息,表白墙,分享墙,校园二手买卖,咨询分享等墙信息。整个项目还是比较系统的,分为服务端,管理后台,用户Web端,小…

SHCTF 山河CTF Reverse方向[Week1]全WP 详解

文章目录 [WEEK1]ez_asm[WEEK1]easy_re[WEEK1]seed[WEEK1]signin[WEEK1]easy_math[WEEK1]ez_apk [WEEK1]ez_asm 从上往下读,第一处是xor 1Eh,第二处是sub 0Ah;逆向一下先加0A后异或1E 写个EXP data "nhuo[M7mc7uhc$7midgbTf7$7%#ubf7 …

Go命令行参数操作:os.Args、flag包

Go命令行参数操作:os.Args、flag包 最近在写项目时,需要用到命令行传入的参数,正好借此机会整理一下。 1 os.Args:程序运行时,携带的参数(包含exe本身) package mainimport ("fmt"&q…

ZYNQ连载02-开发环境

ZYNQ连载02-开发环境 1. 官方文档 ZYNQ开发使用的软件为Vivado/Vitis/PetaLinux,软件体积比较大,硬盘保留100G以上的空间,赛灵思提供详细的文档,链接如下: ZYNQ文档 2. Vivido和Vitis安装 赛灵思统一安装程序 3. PetaLinux安装…

OV-VG: A Benchmark for Open-Vocabulary Visual Grounding

OV-VG: A Benchmark for Open-Vocabulary Visual Grounding 一、Abstract 写在前面 又是一周周末,光调代码去了,都没时间看论文了,汗。   这是一篇关于开放词汇定位的文章,也是近两年的新坑,但是资源也是需要不少。 …

波士顿房价预测

目录 1.初始化库并导入数据 2.查看是否有缺失值,查看各个变量的相关性 3.探究各变量之间的相关关系 4.初始化并训练线性模型 5.可视化预测情况 6.模型优化 idea1:减少决策变量 idea2:数据归一化 idea3:尝试其他模型 XGB…

Vue $nextTick 模板解析后在执行的函数

this.$nextTick(()>{ 模板解析后在执行的函数 })

智慧矿山AI算法助力护帮板支护监测,提升安全与效率

在智慧矿山AI算法系列中,护帮板支护监测是保障矿山安全和提高生产效率的重要环节。护帮板作为矿山支护体系中的重要组成部分,在矿山生产中起到了关键的作用。那么,护帮板在哪种状态下是正常打开的呢?本文将对此进行介绍。 护帮板的…

搭建MyBatis

文章目录 1.创建Maven 工程创建MyBatis的核心配置文件创建mapper接口创建MyBatis的映射文件通过junit测试功能加入log4j日志功能核心配置文件详解1.这里实现了jdbc.properties jdbc.properties文件 默认的类型别名MyBatis的增删改查 1.创建Maven 工程 打包方式:jar…

从0到1之微信小程序快速入门(03)

目录 什么是生命周期函数 WXS脚本 ​编辑 与 JavaScript 不同 纯数据字段 组件生命周期 定义生命周期方法 代码示例 组件所在页面的生命周期 代码示例 插槽 什么是插槽 启用多插槽 ​编辑 定义多插槽 组件通信 组件间通信 监听事件 触发事件 获取组件实例 自…

【2023年NCST C语言新生培训】| 五次培训总结 | C到C++内容补充 | 排位赛详细题解 |《万字长文》

文章目录 一,四次培训总结1,第一次培训( 培训介绍 Onilne Judge,编译语言,编译器的选择 )2,第二次培训1,本次培训安排2,基本的运算式结构 3,第三次培训1,选择…

第 369 场周赛 (3题,递归式动态规划)

第一题 简单题,就不多写了 class Solution:def findKOr(self, nums: List[int], k: int) -> int:ans [0] * 31for n in nums:for i in range(31):if 2**i & n 2**i:ans[i] 1return sum([2**i if ans[i] > k else 0 for i in range(31)])第二题 0 至少…