【大模型从入门到精通46】LLM部署运维(LLM Ops)使用Kubeflow Pipelines掌握LLM工作流3

news2025/1/1 9:48:31

这里写目录标题

      • 功能概览
      • 函数定义
      • 实践示例:测试适当的拒绝
      • 最佳实践与建议
      • 适用于科学测验测试的修订函数
      • 科学测验测试函数定义
      • 执行与评估
      • 最佳实践与注意事项

在这里插入图片描述

功能概览

evaluate_request_refusal 函数模拟了系统应该基于预定义的标准拒绝生成测验的情景,这些标准可能包括请求的相关性或系统的限制。它验证系统会以指定的拒绝消息作为响应,表明其无法满足请求。

函数定义

def evaluate_request_refusal(
    system_prompt_message,
    invalid_quiz_request_question,
    expected_refusal_response,
    user_question_template="{question}",
    selected_language_model=ChatOpenAI(model="gpt-3.5-turbo", temperature=0),
    response_format_parser=StrOutputParser()):
    """
    评估系统对于无效或不适用请求的响应,确保其适当拒绝回答。

    参数:
    - system_prompt_message: 测验生成的指令或上下文。
    - invalid_quiz_request_question: 系统应该拒绝回答的请求。
    - expected_refusal_response: 预期的拒绝响应,表明系统拒绝回答请求。
    - user_question_template: 用于结构化用户问题的模板,默认为占位符。
    - selected_language_model: 用于内容生成的AI模型,默认已指定模型。
    - response_format_parser: 将AI模型的响应解析成所需格式的机制。

    抛出:
    - AssertionError: 如果系统的响应不包含预期的拒绝消息,则抛出异常。
    """

    # 重新排列参数以匹配 `generate_quiz_assistant_pipeline` 中的预期顺序
    generated_response = generate_quiz_assistant_pipeline(
        system_prompt_message,
        user_question_template,
        selected_language_model,
        response_format_parser).invoke({"question": invalid_quiz_request_question})

    print(generated_response)

    # 验证系统的响应是否包含预期的拒绝消息
    assert expected_refusal_response.lower() in generated_response.lower(), \
        f"期望系统以 '{expected_refusal_response}' 拒绝,但实际收到: {generated_response}"

实践示例:测试适当的拒绝

为了说明 evaluate_request_refusal 如何工作,让我们考虑一个情景,在这个情景中,测验生成器应该拒绝生成测验,因为请求超出范围或者不被当前配置所支持。

# 定义系统消息(或提示模板)、应该被拒绝的请求以及预期的拒绝响应
system_prompt_message = quiz_generation_prompt_template  # 假设这个变量已经被定义过了
invalid_quiz_request_question = "生成一个关于罗马的测验。"
expected_refusal_response = "对不起,我目前无法生成关于罗马的测验。"

# 执行拒绝评价函数,并指定参数
evaluate_request_refusal(
    system_prompt_message,
    invalid_quiz_request_question,
    expected_refusal_response
)

这个示例展示了函数测试测验生成器对应该被拒绝的请求的响应的能力。通过验证预期的拒绝消息的存在,我们可以确保系统在面对无法完成的请求时的行为符合预期。

最佳实践与建议

  • 清晰的拒绝消息:设计拒绝消息要清晰且具有信息性,帮助用户理解为什么他们的请求无法得到满足。
  • 全面测试:使用多种测试案例,包括对不受支持的主题或格式的请求,来彻底评估系统的拒绝逻辑。
  • 改进与反馈:根据测试结果,优化拒绝逻辑和消息,以提高用户理解和满意度。
  • 考虑用户体验:虽然有时拒绝是必要的,但在维持积极的用户交互方面,考虑提供替代建议或指导是很重要的。

适用于科学测验测试的修订函数

下面,我将适应之前概述的 evaluate_quiz_content 函数以适应这个测试情景,确保明确预期的结果和评估过程。该函数将测试AI生成的问题是否确实围绕预期的科学主题或科目。

科学测验测试函数定义

def test_science_quiz():
    """
    测试测验生成器产生与科学相关的问题的能力,验证是否包含预期的主题。
    """

    # 定义生成测验问题的请求
    question_request = "生成一个测验问题。"

    # 预期的科学主题列表,表明测验与科学主题的关联
    expected_science_subjects = ["物理学", "化学", "生物学", "天文学"]

    # 用于测验生成的系统消息或提示模板
    system_prompt_message = quiz_generation_prompt_template  # 这应该在代码的早期部分定义好

    # 调用评估函数,并传入科学特定的参数
    evaluate_quiz_content(
        system_prompt_message=system_prompt_message,
        quiz_request_question=question_request,
        expected_keywords=expected_science_subjects
    )

此函数封装了评估逻辑,以确保当请求测验问题时,生成的内容准确反映了科学主题。它利用了调用测验生成和随后的评估结构,以确认生成内容中存在科学相关的关键词或主题。

执行与评估

执行 test_science_quiz 有效地模拟了从系统请求测验问题的情景,并仔细检查响应以确认科学相关主题的包含。此测试在验证系统理解请求上下文并相应地生成相关内容的能力方面发挥着关键作用。

最佳实践与注意事项

  • 根据需要调整期望值:根据你的测验生成器的领域特定性或科学类别的广度,你可能需要细化预期的主题或关键词列表,以更好地匹配你的应用程序的范围和准确性。
  • 全面测试:除了科学之外,考虑为测验生成器支持的其他类别(如历史、地理或艺术)实施类似的测试函数,以确保跨不同主题的全面覆盖和功能。
  • 分析失败以改进:如果测试失败,分析预期主题与生成内容之间的差异,以确定潜在的改进区域,如测验生成逻辑或数据集。

这种结构化的测试方法不仅能确保测验生成器按预期运行,还能突出需要改进的地方,推动内容相关性和用户参与度的提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2086275.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

推荐9款AI论文写作推荐的论文指导!快速生成高质量初稿

在当前的学术写作领域,AI论文写作工具已经成为许多研究人员和学生的重要助手。这些工具不仅能够帮助用户快速生成高质量的论文初稿,还能在一定程度上简化学术写作流程,提高写作效率。以下是九款被广泛推荐的AI论文写作工具,它们各…

Docker续1:docker使用

一、打包传输 1.打包 [rootlocalhost ~]# systemctl start docker [rootlocalhost ~]# docker save -o centos.tar centos:latest [rootlocalhost ~]# ls anaconda-ks.cfg centos.tar 2.传输 [rootlocalhost ~]# scp centos.tar root192.168.1.100:/root 3.删除镜像 [r…

付费自习室管理小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,商家管理,类型管理,自习室管理,订单管理,系统管理 微信端账号功能包括:系统首页,自习室,我的 …

python-旋转木马(赛氪OJ)

[题目描述] 我们要做一个旋转木马! 输入一个 nn 的字符矩阵,将其顺时针旋转 90 度后输出。输入格式: 输入共 n1 行。 第一行一个整数 n,表示矩阵大小。 接下来 n 行,每行一个长度为 n 的字符串,仅包含小写字…

Linux高性能服务器编程 总结索引 | 第2章:IP协议详解

IP头部信息 IP数据报的路由和转发 1、IP 服务的特点 1、IP 协议是 TCP/IP 协议族的动力,它为上层协议提供 无状态、无连接、不可靠的服务 2、无状态 是指 IP 通信双方不同步传输数据的状态信息,因此 所有 IP 数据报的发送、传输和接收都是相互独立、没…

【Linux应用编程实战】常见函数应用

介绍一些Linux应用编程实战遇到的,常见要用的函数,进行概况总结。 目录 main() lseek() poll() struct pollfd 结构体返回值典例 mmap() munmap(…

kylin-麒麟操作系统-安装内存泄露补丁-以及kylin-kms-activation.service服务不断重启解决思路

文章目录 前言1. 问题现象1.1 使用journalctl命令查看更详细的日志信息 2. 解决思路2.1 思路一:2.2 思路二:2.3 合理的解法: 3. 扩展-修复内存泄露3.1 查看自己使用的镜像3.2 到麒麟官网下载相应的补丁包3.3 安装步骤3.4 重启kylin-kms-activation.servi…

python如何另起一行

python 字符串换行的三种方式: 第一种:三个单引号 print 我是一个程序员 我刚开始学习python 第二种:三个双引号 print """ 我是一个程序员 我刚开始学习python""" 第三种:\结尾 print "我是…

生成式AI,搜索赛道的又一个黄金十年

文|白 鸽 编|王一粟 随着生成式AI的发展,搜索引擎正在被重构,越来越多玩家开始布局AI搜索赛道。 一方面,传统搜索引擎/浏览器正借助AI技术的重构重新焕发生机,无论是移动端还是PC端,都在抢占…

GHA高质量原创文章是什么?

GHA文章是一种专为提高搜索引擎优化(SEO)效果而设计的高质量原创内容。GHA代表高质量,这些文章通过精心编写和策略布局,就是为了帮助网站迅速在Google等搜索引擎上获得排名,写一篇能在Google上获得高排名的文章&#x…

postman注入csrf

示例脚本 参数配置位置 必要参数 django项目仅需要设置domain即可,比如www.baidu.com,baidu.com尽量域名精确避免修改到其他域的参数 必须把这个domain添加到 cookies->Manage cookies ->Domains Allowlist 中,否则cookie的注入失败 代码 // 必…

P1516 青蛙的约会(exgcd)

一些前置知识: 1.扩展欧几里得算法: axbygcd(a,b) 方程一个可行的解(x1,y1)求法: int exgcd(int a,int b,int &x,int &y) {if(!b){x1,y0; return a;}int dexgcd(b,a%b,y,x);y-a/b*x;return d; }2.由axbygcd…

URP简洁的instance的写法

材质还是要开启enable instance,这是上一次的写法 https://dbbh666.blog.csdn.net/article/details/136644181 最近发现更适合我个人的习惯的写法 就是代码控制这个整个过程 C#代码是这样的,获取一个mesh,获取每个mesh的transform&#xff0c…

UE5 摄像机图像采集到材质 映射到 UI 和 物体表面

一.创建SceneCapture2D的组件 二.创建用于 映射的 贴图 三.将RenderTarget贴图放到SceneCapture2D的摄像机上Scene Capture的TextureTarget 四.这个时候的映射贴图,产生的材质可以直接。放到Plane上。 五,但是如果要用于UI,还需要更改SceneCapture2D的摄…

基于SpringBoot的在线答疑系统

你好呀,我是计算机专业毕业生,专注于在线教育平台的开发与实现。 开发语言:Java 数据库:MySQL 技术:Java技术 Spring Boot框架 工具:IntelliJ IDEA、Navicat、Maven、Tomcat 系统展示 首页 个人中心…

【Python】简单的数据类型——int、float、bool、str

目录 1. 整数类型 int 2. 浮点数类型 float 3. 布尔类型 bool 4. 字符串 str 5. 格式化输出 6. 类型转换 6.1 隐式类型转换 6.2 显示类型转换 7. 标准输入 1. 整数类型 int a 10 print(type(a)) print(type(-2))<class int> <class int>测试整型能表示的…

docker私有云仓库Harbor部署及使用

文章目录 一、前置准备1、安装docker、docker-compose 二、安装harbor1、下载Harbor2、证书3、配置文件4、安装5、docker使用6、k8s使用&#xff08;1.28版本containerd&#xff09; 三、常用运维1、重启 一、前置准备 1、安装docker、docker-compose centos7安装与卸载docke…

2024年【道路运输企业安全生产管理人员】考试题库及道路运输企业安全生产管理人员考试试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年道路运输企业安全生产管理人员考试题库为正在备考道路运输企业安全生产管理人员操作证的学员准备的理论考试专题&#xff0c;每个月更新的道路运输企业安全生产管理人员考试试题祝您顺利通过道路运输企业安全生…

牛客NC313 两个数组的交集 C++

牛客NC313 两个数组的交集 C 思路&#x1f914;&#xff1a; 用哈希表存储第一个数组&#xff0c;再和第二个数组对比&#xff0c;对比成功就添加到新的数组中&#xff0c;之后将哈希表的该位置变为false&#xff0c;防止重复添加。这里数据范围仅有1000&#xff0c;所以我们可…

Windows10系统中安装Maven 3.8.8的步骤

Windows10系统中安装Maven 3.8.8的步骤 1、前提 因已安装好了JDK17,需要安装跟JDK17对应的版本,选了maven3.8.8 2. 下载 Maven 访问 Apache Maven 官网下载页面。选择下载:apache-maven-3.8.8-bin.zip 3、解压缩 4、增加系统环境变量 MAVEN_HOME =C:\hmf\apache-maven…