【大模型问答测试】大模型问答测试脚本实现(第一版)

news2024/11/29 21:42:00

背景

公司已经做了一段时间的大模型,每次测试或者回归的时候都需要针对问答进行测试回归,耗费大量的时间与精力,因此结合产品特点,开发自动化脚本替代人工的操作,提升测试回归效率

设计

使用python+request+Excel进行设计。
Excel为用例层。整体设计框架如下:
在这里插入图片描述

关键功能

  • 基于excel文件读取问题并对mql进行判断处理
  • 对不通过问答进行标记输出,加快排查与测试回归定位问题

Excel模板如下:
在这里插入图片描述

实现逻辑

因为接口返回的是很长的一段内容,并且非标准格式,需要对其进行转码与提取。因此此处实现了两个方法:
在这里插入图片描述
以提取需要的mql。(此处的mql是我们后续进行断言的关键)

目前针对不通过的用法,先粗暴的进行标红处理,也是以一个方法来实现:
在这里插入图片描述
针对获取mql失败的用例,会给出错误提示,并且把Excel表中对应的框框标红,方便快速排查。

最终可以实现大数据量问法的快速回归。

后期实现想法

  1. 接入pytest模块,使用pytest来控制用例的实现
  2. 增加多轮、拒答等逻辑的实现
  3. 接入Jenkins,实现CICD

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2215657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python+大数据+基于Spark的共享单车数据存储系统【内含源码+文档+部署教程】

博主介绍:✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久,选择我们就是选择放心、选择安心毕业✌ 🍅由于篇幅限制,想要获取完整文章或者源码,或者代做&am…

【jQuery】 jQuery基础及选择器介绍(基本选择器 层次选择器 属性选择器 过滤选择器)

文章目录 jQuery基础1. 优势2. 版本3. 基本语法4. 选择器基本选择器层次选择器属性选择器过滤选择器基本过滤选择器可见性过滤选择器 注意事项 jQuery基础 jQuery 是一个功能强大且易于使用的 JavaScript 库,它极大地简化了前端开发的工作。无论是 DOM 操作、事件处…

简单概述Ton链开发路径

区块链开发领域发展迅速,各种平台为开发人员提供不同的生态系统。其中一个更有趣且越来越相关的区块链是TON(开放网络)区块链。TON 区块链最初由 Telegram 构思,旨在提供快速、安全且可扩展的去中心化应用程序 (dApp)。凭借其独特…

加盟模式如何运营?有哪些好的技巧和方法!

对于很多品牌方来说,生意发展到一定程度,就考虑通过加盟的方式扩大市场份额。 本篇文章,将从3个角度来为大家分享,运营加盟模式的好方法和技巧! 一、加盟前的准备 1、明确品牌定位与核心竞争力 确定你的企业在市场…

暖水毯/取暖毯语音识别控制芯片IC方案

暖水毯、取暖毯作为现代家居生活的温暖伴侣,其智能化升级已是大势所趋。在暖水毯与取暖毯中融入语音识别控制芯片IC方案,为用户的冬日取暖体验带来了革命性的变革。 一、暖水毯/取暖毯增加语音识别控制芯片方案,让产品能通过对话来调节&…

【笔记】vue课堂小作业之书籍购物车列表的增删改查小记

(一)reduce作迭代器 1. reduce 函数的基本用法 array.reduce((accumulator, currentValue) > { ... }, initialValue); accumulator: 累积器,表示当前累积的值,通常在第一次时为 initialValue。(总数sum&#x…

OpenCV高级图形用户界面(8)在指定的窗口中显示一幅图像函数imshow()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 在指定的窗口中显示一幅图像。 函数 imshow 在指定的窗口中显示一幅图像。如果窗口是以 cv::WINDOW_AUTOSIZE 标志创建的,图像将以原…

遵循国药准字,确保益安宁丸疗效与安全

益安宁丸真品辨别唯一标准 益安宁丸为同溢堂药业有限公司所独家生产的一款中成药,在内地市场和港澳地区均有上市。 益安宁丸真品的唯一标准:无论港版还是内地版,包装盒必然有国药准字Z20063087标识,但凡没有国药准字标识的必为假…

性价比最高的开放式耳机,五大热门品牌开放式耳机

在当今快节奏的生活环境中,开放式耳机以其独特的开放式设计,既能让用户享受高质量的音乐,又能保持对外界环境的感知,逐渐成为市场上的新宠。然而,面对众多品牌和型号,如何选择一款性价比高的开放式耳机成为…

IDEA 编译报错 “java: 常量字符串过长” 的解决办法

目录 一、问题描述二、问题原因2.1 理论角度2.2 源码角度 三、解决方案解决方案①:StringBuilder 拼接解决方案②:读取文件内容 四、方案验证 在线文本换行工具: https://lzltool.cn/Toolkit/WrapWordsInText 一、问题描述 今天在开发过程中…

JavaScript全面指南(五)

​🌈个人主页:前端青山 🔥系列专栏:JavaScript篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来JavaScript篇专栏内容:JavaScript全面指南 目录 81、ES6 class关键字原理跟function什么区别 82、如何检…

Vue(3) 组件

文章目录 对组件的理解单文件组件非单文件组件基本使用几个注意点组件的嵌套VueComponent构造函数一个重要的内置关系 组件的自定义事件全局事件总线安装全局事件总线使用事件总线解绑事件消息订阅与发布简介使用步骤范例 $nextTick插槽1.默认插槽2.具名插槽作用域插槽 对组件的…

某市驾驶培训监管服务平台 GreatSQL 数据库适配之旅

某市驾驶培训监管服务平台 GreatSQL 数据库适配之旅 一、项目背景 某市驾培系统主要为社会公众提供驾培单位查询和学车报名,为相关合作单位提供某市驾培监管、某市驾培考核等功能。业务信息教练车培训过程视频信息、包括培训机构基本信息、教练员基本信息和学员个…

从零创建苹果App应用,不知道怎么申请证书的可以先去看我的上一篇文章

用大家自己的开发者账户,登录进入App Store Connect ,注册自己的应用 进入之后,点击增加 填写相关的信息 一切顺利的话,就可以来到这个页面

【Java】画心形图形

开始看到的是这个爱心图形,挺好看的(感谢这些前端巨佬): HTML流光爱心_爱心代码html-CSDN博客 本来想着自己看下这个源代码能不能实现,看了下源代码其实非常复杂。 在看代码的过程中发现,源代码里边给出…

5: Euclid‘s Game

题意分析:给定数列(A,B)(A>B),任取两数之差,若不含于数列(A,B)则添加得(A.B,C)重复任取两数之差且不重复得(A,B,C,...)…

【汇编语言】寄存器(内存访问)(二)—— DS和[address]

前言 📌 汇编语言是很多相关课程(如数据结构、操作系统、微机原理)的重要基础。但仅仅从课程的角度出发就太片面了,其实学习汇编语言可以深入理解计算机底层工作原理,提升代码效率,尤其在嵌入式系统和性能优…

微信外卖小程序(lw+演示+源码+运行)

摘 要 社会的发展和科学技术的进步,互联网技术越来越受欢迎。手机也逐渐受到广大人民群众的喜爱,也逐渐进入了每个用户的使用。手机具有便利性,速度快,效率高,成本低等优点。 因此,构建符合自己要求的操作…

【优选算法】(第四十一篇)

目录 被围绕的区域(medium) 题目解析 讲解算法原理 编写代码 迷宫中离⼊⼝最近的出⼝(medium) 题目解析 讲解算法原理 编写代码 被围绕的区域(medium) 题目解析 1.题目链接:. - 力扣&a…

DevExpress WPF中文教程:Data Grid(数据网格)实现细节一览

DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…