AI测试:人工智能模型的核心测试指标,分类判别、目标检测、图像分割、定量计算分别有哪些指标?

news2025/1/11 22:35:34

在前面的人工智能测试技术系列文章中,我们详细介绍了人工智能测试的技术方法和实践流程。在了解人工智能测试方法后,我们需要进一步学习和研究如何衡量这些方法的有效性,即人工智能模型测试指标的选择。测试指标的选择主要取决于模型的类型和模型的实施计划。对于AI医学影像辅助诊疗、自动驾驶等特定类型智能模型的测试,我们应如何选择和理解测试指标?本篇文章,我们将以AI医学影像辅助诊疗模型为例,讨论用于评价人工智能模型测试性能的关键指标,了解这些指标是如何帮助我们理解人工智能模型表现的。

一般来说,AI医学影像辅助诊疗、自动驾驶、零售业货架监控、安全监控等视觉识别模型的性能指标根据不同的技术和业务场景,主要包含分类判别、目标检测、图像分割与定量计算四方面。

分类判别(Discrimination):在AI医学影像辅助诊疗系统中,判别分类的主要任务是区分医学影像中的不同病变组织,如区分良性和恶性肿瘤,其性能指标包括准确率、灵敏度等。在多分类场景,需要将多分类产品的性能指标评估问题转化成多个二分类问题,对各级计算得到的准确度、敏感度、特异度、精确度、AUC值分别进行加权平均,从而得到整个多分类人工智能系统的综合指标。

图像分割(Image Segmentation): 图像分割要求人工智能在医学影像中准确地勾勒出病变区域的边界,性能指标包括分割的准确度、边缘误差、完整性、运算速度等。

目标检测(Object Detection): 目标检测旨在识别影像中特定的病变位置,并对其进行定位。这一任务的性能指标包括定位精确度、召回率、平均精度以及检测的置信度阈值等。

定量计算(Quantitative Computation): 定量计算涉及从医学影像中提取有关病变的量化信息,如体积、表面积、纹理特征等,性能指标包括计算的准确性、重复性和可靠性等。

下面,我们以AI医学影像辅助诊疗系统为例对各任务场景下的测试指标进行一一介绍:

1.分类判别任务的评价指标

一般来说,AI医学影像辅助模型广泛采用的核心评价指标包括准确率、精确率、召回率、特异性、F-measure分数和AUC—ROC曲线。

准确率 (Accuracy):衡量模型整体正确识别的能力,即在所有样本中,模型能够正确识别的比例。准确率虽然直观,但在数据类别不平衡时会出现不够准确的问题。比如,如果大多数样本都是正常影像,模型即使对所有异常影像都判断错误,准确率也可能很高。

精确率(precision):衡量在模型预测为正类(如疾病)的样本中,实际为正类的比例。精确率高意味着模型预测的正类结果中大部分是正确的,有助于减少误诊,但可能会漏诊一些实际患病的患者。

召回率 (Recall)或敏感性(Sensitivity):指在所有实际为正类(如疾病)的样本中,模型正确预测为正类的样本比例。在医学影像诊断系统中,召回率越高,模型漏诊的可能性越小,但可能会伴随着较高的误诊率(即模型可能将一些健康样本误识别为阳性)。

特异性(Specificity):衡量的是模型识别出真实负类(健康)样本的能力,即在所有实际健康的患者中,模型能够正确识别出的比例。特异性高意味着误诊风险低,对于需要避免不必要的医疗干预的场景,特异性非常重要。高特异性可以减少不必要的治疗和患者的心理压力。

F-measure分数:是精确率和召回率的平均值,可以更全面地评估模型在分类任务中的表现。当F1值接近1时,说明模型在精确率和召回率之间取得了较好的平衡,对于医学影像辅助诊断系统来说,这既减少了假阳性导致的过度治疗风险,也减少了假阴性导致的治疗延误风险。

其中,True Positives(TP):正确识别出的正类别样本数量;

True Negatives(TN):正确识别出的负类别样本数量;

False Negatives(FN):正类别样本被错误预测为负类别样本数量;

False Positives(FP):负类别样本被错误地预测为正类别样本数量;

Total Positives:实际的正类别样本数量;

Total Negatives:实际的负类别样本数量;

AUC-ROC曲线:AUC(Area Under Curve)是ROC(Receiver Operating Characteristic)曲线下的面积。AUC是用于评估分类模型性能的指标,衡量模型将正例(疾病)排在负例(非疾病)样本之前的能力。AUC值越接近1,表示模型的性能越好,能够在不同的分类阈值下都保持较高的真阳性率和较低的假阳性率。AUC-ROC曲线可以直观比较不同模型的性能,帮助我们找到最佳的分类阈值,以平衡真阳性和假阳性的数量,适应不同的临床需求。

这些指标为软件测试人员提供了关于模型性能的全面视角。在实际应用中,需要根据具体情况权衡这些指标。例如,对于肺癌筛查,我们可能希望模型具有高召回率以尽可能找出所有潜在患者,同时保持一定的精确率以减少不必要的进一步检查。而在健康人群的体检中,可能会更注重精确率,以避免不必要的恐慌和医疗干预。

2.图像分割任务的评价指标

在医学影像领域,图像分割任务旨在通过人工智能系统精确描绘出病变区域。

医学影像关键部位的分割在疾病诊断是关键的步骤之一,精确的分割对提高系统的最终性能非常重要。对于AI医学影像系统的图片分割任务,除了上述的准确度、完整性、召回率、特异性等指标,还有以下关键的评价指标可以反映出人工智能系统在图像分割场景中的性能。

分割准确度(Segmentation Accuracy):是衡量分割效果最直接的一个指标,通常通过计算预测分割区域与真实分割区域之间的重合度(如Dice系数、Jaccard指数)来评估。

Dice系数(Dice Coefficient):衡量两个集合相似度的一种方法,适用于二值图像。计算公式为:

其中,A和B分别是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∣和∣B∣分别是两个集合的大小。Dice系数取值范围在0到1之间,越接近1表示分割效果越好。

Jaccard指数(Jaccard Index):同样是衡量两个集合相似度的一个指标,适用于多分类情况。计算公式为:

A和B同样是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∪B∣是两个集合的并集大小。Jaccard指数的取值范围也是0到1之间。

平均边缘误差(Average Edge Error, AEE):用于评估分割边缘与真实边缘之间的误差。计算方法可以是计算所有边缘像素点的预测位置与真实位置之间的平均欧氏距离。

3.目标检测任务的评价指标

在医学影像领域,目标检测是指在医学影像中自动识别和定位出特定的病变区域,例如肿瘤、病变等,并对其大小、形状、边缘等特征进行量化分析,辅助诊断。在目标检测任务中,系统会比较预测框与金标准框(即由专业医生标记的实际病灶区域)之间的位置关系。这个过程涉及判断预测框是否准确地包含了病灶区域。为了进行这一步,系统会使用一系列的检出指标。

平均精度(AP):平均精度是在不同的置信度阈值下,检测到的病变区域的平均精度,是PR曲线与坐标轴围成的面积。它是通过计算每个阈值下的精确度和召回率,以精确率为 y 轴和召回率为 x 轴,绘制PR(Precision-Recall)曲线得出的。AP的计算公式为:

其中,Pi表示精确度,Ri表示召回率,n是在不同置信度阈值下计算的点数。

MAP:各个类别AP的平均值,代表了在当前多个类别下能达到的平均精度。

此外,敏感度(真阳性率)、特异度(真阴性率)等上述指标同样可以量化预测框与金标准框之间的重合程度和位置偏差,评估病灶检测的准确性。

4.定量计算任务的评价指标

定量计通常涉及对影像中的特定区域或特征进行精确测量,提供关于病变性质、大小、形状和其他相关属性的数值信息,获得对疾病的量化理解。

对于乳腺癌钼靶影像,人工智能模型可以计算出乳腺肿块的边缘特征(肿块边缘的光滑程度、是否存在毛刺征象等)、肿块的密度、肿块的体积、肿块内的微钙化灶数量等,在这些指标的帮助下,我们能够对乳腺肿块的性质进行更为精确的判断,辅助医生进行诊断和治疗。

为了确保人工智能医学影像系统的定量计算结果的准确性,通常会使用性绝对误差和相对误差两个常用指标。绝对误差是指系统测量值与实际值(金标准值)之间的差异,而相对误差则是绝对误差与实际值的比例。这些指标可以帮助医生和测试人员了解系统的准确性。

医疗影像AI模型的评估指标是一个多方面的决策过程,需要综合考虑数据特性、疾病类型、临床需求、模型预期用途、实际应用的可行性以及法规标准。在实际应用中,我们往往会根据具体需求和不同业务场景选择合适的评估指标,结合多个指标对模型进行全面评估。

我们在医疗、汽车领域拥有丰富的人工智能测试经验。具备大量的数据模型和经过训练的测试数据集,如果您有人工智能测试技术交流、人工智能工具选型、人工智能模型训练、人工智能行业数据集等需求,可私信我,一起技术交流。

参考文献

[1] 李康. 基于深度学习的医学影像病灶检测算法研究.2024.

[2] 李曼,滕依杉,郭佳颖,等.基于人工智能的医学影像辅助诊断类软件监管与评测方法研究.2022.

[3] 郑光远,刘峡壁,韩光辉.医学影像计算机辅助检测与诊断系统综述.2018.

[4] 薄靖宇.基于深度学习的肺炎医学影像自动识别与检测技术研究.2022.

(本文引用部分内容版权属于原作者,仅作交流探讨,如有侵权请联系删除。谢绝转载)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

借助大语言模型快速升级你的 Java 应用程序

大家都知道我爱小 Q。在我“转码”的征程中,它就像上帝之手,在我本该枯燥漫长的学习进程中拉满快进条。 不仅是我,最近 Amazon Q Developer 还帮助 Amazon 一个由 5 人组成的团队在短短两天内将 1,000 多个生产应用程序从 Java 8 升级到 Jav…

Spring Cloud 组件

1.eureka注册中心原理简述 1.服务注册: Eureka Client 会通过发送rest请求的方式向eureka服务端注册自身元数据:ip地址,端口,运行状况等信息,服务端会把注册信息存储在一个双层map中。 Eureka 的数据存储分了两层:数据存储层和缓存层。 Eureka Client 在拉取服务信息…

【STM32嵌入式系统设计与开发拓展】——13_PWM脉宽

目录 1、什么是PWM?用来做什么的?PWM(Pulse Width Modulation)脉冲宽度调制常见用到 PWM 的情况: 2、什么是输出比较?输出比较模式![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/42434920ca0940b1b1083215…

vue el-input 输入框下拉显示匹配数据

1、效果图: 2、需求&实现: 输入条件 下面匹配查询到的数据有多少个 需要调用后端接口展示,后端查询到之后返回条数 前端展示 3、具体代码实现: html: 图片需要自己根据实际情况增加 // 查询 重置 筛选 本文章…

【git】git常用命令提交规范

Git 是程序员工作中不可或缺的版本控制工具,以下是一些优化后的常用 Git 命令列表,旨在帮助你更高效地使用 Git 进行版本控制。 基础操作 拉取代码 git clone xxx.git创建分支 git branch dev切换分支 git checkout dev # 或者 git switch dev创建并切换…

Python酷库之旅-第三方库Pandas(056)

目录 一、用法精讲 211、pandas.Series.truncate方法 211-1、语法 211-2、参数 211-3、功能 211-4、返回值 211-5、说明 211-6、用法 211-6-1、数据准备 211-6-2、代码示例 211-6-3、结果输出 212、pandas.Series.where方法 212-1、语法 212-2、参数 212-3、功能…

论报文加密加签场景下如何高效的进行渗透测试

前言 最新的测试中,经常遇到HTTP报文加密/加签传输的情况,这导致想要查看和修改明文报文很不方便。 之前应对这种情况我们有几种常见的办法解决,比如使用burpy插件、在Burp上下游使用mitmproxy进行代理等,但这些使用起来不太方便…

LSTM详解总结

LSTM(Long Short-Term Memory)是一种用于处理和预测时间序列数据的递归神经网络(RNN)的改进版本。其设计初衷是为了解决普通RNN在长序列训练中出现的梯度消失和梯度爆炸问题。以下是对LSTM的详细解释,包括原理、公式、…

面向非结构化数据的知迟抽取

文章目录 实体抽取关系抽取事件抽取大量的数据以非结构化数据(即自由文本)的形式存在,如新闻报道、科技文献和政府文件等,面向文本数据的知识抽取一直是广受关注的问题。在前文介绍的知识抽取领域的评测竞赛中,评测数据大多属于非结构化文本数据。本节将对这一类知识抽取技…

Prometheus-部署

Prometheus-部署 Server端安装配置部署Node Exporters监控系统指标监控MySQL数据库监控nginx安装grafana Server端安装配置 1、上传安装包,并解压 cd /opt/ tar xf prometheus-2.30.3.linux-amd64.tar.gz mv prometheus-2.30.3.linux-amd64 /usr/local/prometheus…

【音频识别】十大数据集合集,宝藏合集,不容错过!

本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。 1 RenderMe-360 发布方: 上海人工智能实验室 发布时间: 2023-05-24 简介: RenFace是一个大规模多视角人脸高清视频数据集,包含多样的…

2024年最强网络安全学习路线,详细到直接上清华的教材!

关键词:网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊,学习网络安全方向通常会有哪些问题前排提示:文末有CSDN官方认证Python入门资料包 ! 1、打基础时间太长 学基础花费很长时间,光语…

Redis内存管理

文章目录 Redis内存管理删除策略淘汰策略LRU算法 Redis内存管理 长期把Redis做缓存用,总有一天Redis内存总会满的。有没有思考过这个问题,Redis内存满了会怎么样?在redis.conf中把Redis内存设置为1个字节,做一个测试:…

【随机链表的复制】python刷题记录

R3-哈希表 参考k神题解 哈希表法: """ # Definition for a Node. class Node:def __init__(self, x: int, next: Node None, random: Node None):self.val int(x)self.next nextself.random random """class Solution:def copy…

“打破常规:评估八股文对工作的真正影响“

“八股文”在实际工作中是助力、阻力还是空谈? 作为现在各类大中小企业面试程序员时的必问内容,“八股文”似乎是很重要的存在。但“八股文”是否能在实际工作中发挥它“敲门砖”应有的作用呢?有IT人士不禁发出疑问:程序员面试考什…

基于深度学习的结肠炎严重度诊断

基于深度学习的结肠炎严重度诊断 本文所涉及所有资源均在传知代码平台可获取 文章目录 基于深度学习的结肠炎严重度诊断1.概述1.1 数据集展示1.2 Resnet50介绍1.2.1结构与特点1.2.2关键优势1.2.3总结 2.创新点3.结果可视化展示结果展示4.核心逻辑5.部署及使用方式5.1 环境配置5…

彻底搞清楚SSR同构渲染的首屏

作为.NET技术栈的全干工程师,Blazor、Vue/Nuxt.js和React/Next.js都会接触到。它们(准确的说是Blazor、Nuxt和Next),都实现了SSR同构渲染。要了解同构渲染,需要从服务端渲染开始。 传统的服务端渲染 如下图所示&…

开放式耳机什么牌子的好?看这6大品牌就够了

移动互联网时代,听歌、追剧、网课、短视频……这几年全球青年人对于耳机和耳朵的依赖程度,可谓前所未有的提升。但选择一款好的耳机,也不是一件容易的事,入耳式耳机戴久了耳道会疼,还可能引起一系列不必要的炎症&#…

【C语言】C语言期末突击/考研--数据的类型

目录 一、编程环境的搭建 二、数据的类型、数据的输入输出 2.1.数据类型 2.2.常量 2.3.变量 2.4.整型数据 2.4.1.符号常量 2.4.2.整型变量 2.5.浮点型数据 2.5.1.浮点型常量 2.5.2.浮点型变量 2.6.字符型数据 2.6.1字符型常量 2.6.2.字符数据在内存中的存储形式及…

Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/3(含分析过程)

Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/3(含分析过程) 目录 Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/3(含分析过程) 一、简单介绍 二、机器学习 1、为什么使用机器学习&a…