人工智能系统测试生命周期详解之测试执行

news2025/1/15 23:35:18

前面的文章里我们已经整体介绍过了人工智能测试的生命周期,它需要经历测试需求的分析、测试环境的准备、数据的准备与验证、测试的执行预分析以及上线后的监控这样一个过程。已经为大家介绍了人工智能系统测试生命周期的“需求分析”环节、“测试环境准备”环节和“测试数据准备”环节,本文我们将继续介绍下一个环节“测试执行”。

前面讲的的测试环境、测试数据都准备好了之后,我们就可以进行具体的人工智能的测试工作了。这里面又可以分为很多种测试的流程,比如说刚才说到的有模型离线的评估、系统的测试、性能的测试、可靠性的测试、A/B测试,最后我们还要针对我们的测试结果进行一定的分析。


模型的离线评估
比如说对于模型的离线评估来说,在人工智能测试中主要是用来评测AI模型对未知新数据的预测能力,即泛化能力。通常而言,泛化能力越好,模型的预测能力就越好。衡量模型泛化能力的通用评测指标包括:均方根误差RMSE、平均绝对误差MAE、准确率Precision、召回率Recall及F-measure等。

衡量泛化能力的标准有很多,通常对于不同的应用场景来说,它的指标也有可能会不同,比如说对于典型的图像分裂的场景,我们有准确率、召回率、MAE值等。对于别的场景也有可能会有别的指标,待会我们也会讲到,比如说对于目标监测的应用场景来说,也有会有其他的计算指标,像均方根误差、绝对误差等等,这个是根据具体的业务应用来定的。

系统测试
模型的离线评估之后,我们也可以进行一个系统的测试,这个时候跟传统的软件测试是有一定的重合的,比如说我们会测试系统整体的业务流程,测试模块之间 数据流动以及测试一些真实用户的使用场景。

在系统测试的过程中我们也可以包括进去一些性能测试、可靠性测试。

性能测试
性能测试我们也是可以考虑负载和压力,或者用户并发这样的一些测试。如果说这个人工智能系统用户访问量非常大的话,我们就可以进行一些性能方面的测试,因为人工智能推断的相应时间也是可以影响到我们整体的系统的相应指标。

可靠性测试
人工智能系统的可靠性包括了鲁棒性、可用性、容错性、易恢复性等指标;特别是我们需要去测试一些鲁棒性、容错性。

对于无人驾驶、人脸识别等安全攸关的人工智能系统,需尽可能采用异常数据来进行测试,如对抗样本、易出错的样本等去进行一些测试。这个对于对于人工智能系统的安全和鲁棒是非常重要的。具体的测试技术我们之后会进行一个介绍。

A/B 测试
除了以上这些测试之外,我们也可以进行一个A/B测试。人工智能系统的模型往往是不断迭代更新的,我们如何确定迭代更新之前和之后这两个模型有没有提升?这时候我们就可以用A/B测试去比较两个模型、或者多个模型的差别。

当我们的模型改动之后,我们可以和前面的模型进行一个比较,看看它到底是有优化还是有衰退。来确定我们究竟是用哪一个模型来上线。

以上就是人工智能系统测试生命周期的测试执行环节,下篇文章将为大家讲解下一个环节,测试分析环节。

(本系列文章根据《优品软件培育计划》公益直播内容整理,观看直播回放可以私信我,获取免费观看链接。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2038190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

海山数据库(He3DB)技术分享:客户端认证

客户端认证核心参数 1.pg_hba.conf 参数文件定义了允许哪些主机以什么样的方式连接到哪些数据库。主要参数如表1.1所示: 表1.1 pg_hba.conf 参数 名称概述type连接类型,如 host(通过 TCP/IP 连接)、local(Unix 域套接…

高质量数据集的“高质量”包含哪些要素

近日,全国两会召开,关于人工智能领域的建议备受备受瞩目,除了关于通用大模型、人工智能、AIGC等议题,优质中文语料的缺失也是很多媒体关注的焦点。 所谓的语料就是我们俗称的“AI训练数据集”,AI训练数据集是现代数据…

Unity WebGL平台Hybrid Generate All报错undefined symbol sendfile

详细报错信息如下: Library\Bee\artifacts\WebGL\build\debug_WebGL_wasm\build.js: undefined symbol: sendfile (referenced by top-level compiled C/C code) UnityEditor.BuildPipeline:BuildPlayer (UnityEditor.BuildPlayerOptions) HybridCLR.Editor.Comman…

光速穿梭JavaScript特效代码

光速穿梭JavaScript特效代码https://www.bootstrapmb.com/item/15085 创建一个看起来像“光速穿梭”的JavaScript特效通常涉及到HTML、CSS和JavaScript的结合。下面我将提供一个简单的示例,展示如何使用这些技术来创建一个动画效果,模拟光速穿梭的感觉。…

场景感知如何做到成为智能时代下的生活新维度

在日新月异的智能科技浪潮中,场景感知正逐步成为连接物理世界与数字世界的桥梁,深刻改变着我们的生活方式与交互体验。场景感知,简而言之,是指智能系统通过多种传感器和数据分析技术,实时理解并适应当前环境及用户状态…

LoadRunner集合点知识介绍

集合含义 顾名思义,集合,集中 ,把大家聚一起一起行动,也叫真正的并发,类似跑步比赛,裁判发出指令,大家一起跑,比较整齐规范,如果LR不设置集合,则稍微起跑的不…

地表最强AI程序员Genie:自主思考与编码的未来

在人工智能领域,尤其是在编程和软件开发方面,一个全新的里程碑已经达成。Cosine公司开发的AI程序员Genie以其卓越的性能和独特的自主思考能力,被誉为全球最强的AI程序员。在SWE-Bench测试平台上,Genie以30.08%的评分遥遥领先&…

【排序汇总】这里记录一切与排序相关的内容~(更新ing)

目录 经典排序算法快速排序核心思想cpp代码 具体排序相关题目荷兰旗问题-颜色分类 (leetcode75)思路cpp代码 数组中的第K个最大元素 (leetcode215)思路:快速选择cpp代码 经典排序算法 快速排序 经典面试手撕题,刚好明天又要面试百度了,先复…

ContentProvider:在Android中实现进程间数据共享

目录 一,ContentProvider 二,Uri和UriMatcher工具类 1,Uri 2,UriMatcher 三,自定义ContentProvider 1,准备数据源 2,创建ContentProvider子类 3,在Manifest文件中注册ContentP…

100个智能体实战技巧 | 如何让Bot一眼记住你

今天介绍一个智能体实用技巧,让Bot可以一眼认出你并和你主动打招呼。 要实现这个功能,需要用到智能体里的变量 操作步骤 点号开始编辑变量,扣子默认已经有5个变量,不过这些我们暂时用不上这些 点” 新增“,创建一个新…

基于WAMP环境的简单用户登录系统实现(v3版)(持续迭代)

目录 版本说明 实现环境: 流程逻辑框图: 数据库连接 登录页面:login.html 登录处理实现:doLogin.php 用户欢迎页面:welcome.php 密码修改页面:change_password.html 修改处理:doChangePa…

【Python学习-UI界面】PyQt5 小部件1-Label

QLabel 对象可用作显示不可编辑的文本、图像或动态GIF影片的占位符。 它还可以用作其他小部件的助记键。 标签可以显示普通文本、超链接或富文本。 1、普通文本 直接双击输入即可 2、添加超链接 选中对应Label,右键选择多信息文本,添加链接&#xff0c…

全网最详细haproxy配置

Haproxy是法国人Willy Tarreau开发的一款高性能的TCP和HTTP负载均衡器,具有广泛的功能和特性,使其在负载均衡和反向代理领域备受推崇。以下是对Haproxy的详细介绍: 一、基本概述 定义:Haproxy是一个开源的高性能的反向代理或者说…

15个提升学术写作的 ChatGPT 高效技巧

不束手无策地面对空白页面这里有 15 个充满灵感的 ChatGPT 提示,帮助你找到研究灵感、建有力论据、撰写条理清晰的文章,突破创作的障碍,提高学术写作的效率。 学术写作充满挑战。要创作出优秀的文章,必须探索新思维,并…

Python OpenCV 影像处理:边缘检测

►前言 上篇介绍使用OpenCV Python findContours() 函数用于在二值化影像中寻找连通的白色区域,并返回一系列点的集合来表示找到的轮廓。本篇将介绍基于计算影像的梯度,通过在影像中找到梯度值的变化来识别边缘,边缘检测通常用于预处理步骤&…

XXL-JOB分布式定时任务框架快速入门

文章目录 前言定时任务分布式任务调度 1、XXL-JOB介绍1.1 XXL-JOB概述1.2 XXL-JOB特性1.3 整体架构 2、XXL-JOB任务中心环境搭建2.1 XXL-JOB源码下载2.2 IDEA导入xxljob工程2.3 初始化数据库2.4 Docker安装任务管理中心 3、XXL-JOB任务注册测试3.1 引入xxl-job核心依赖3.2 配置…

rust 编译时报错:type annotations needed for Box

如下图所示: 解决方法: 升级time的版本: cargo update -p time

【Python基础】Python入门基础教程(非常详细){附带源码}

引言 Python 是一种广泛使用的高级编程语言,因其简洁的语法和强大的功能库而受到开发者的喜爱。本教程将带你从零开始,逐步掌握 Python 的基础知识,并通过附带的源码和表格来加深理解。 点击免费领取《CSDN大礼包》:Python入门到…

c语言基础知识详解,c语言入门必看

在线书籍:54笨鸟 前言 C 语言是一门抽象的、面向过程的语言,C 语言广泛应用于底层开发,C 语言在计算机体系中占据着不可替代的作用,可以说 C 语言是编程的基础,也就是说,不管你学习任何语言,都…

最详细!教你学习haproxy七层代理

一、工作原理 (1)包括 监听端口:HAProxy 会在指定的端口上监听客户端的请求。 例如,它可以监听常见的 HTTP 和 HTTPS 端口,等待客户端连接。请求接收:当客户端发起请求时,HAProxy 接收到请求。…