【大模型从入门到精通46】LLM部署运维（LLM Ops）使用Kubeflow Pipelines掌握LLM工作流3

news2026/3/22 20:25:53

这里写目录标题

- - 功能概览
  - 函数定义
  - 实践示例：测试适当的拒绝
  - 最佳实践与建议
  - 适用于科学测验测试的修订函数
  - 科学测验测试函数定义
  - 执行与评估
  - 最佳实践与注意事项

功能概览

evaluate_request_refusal 函数模拟了系统应该基于预定义的标准拒绝生成测验的情景，这些标准可能包括请求的相关性或系统的限制。它验证系统会以指定的拒绝消息作为响应，表明其无法满足请求。

函数定义

def evaluate_request_refusal(
    system_prompt_message,
    invalid_quiz_request_question,
    expected_refusal_response,
    user_question_template="{question}",
    selected_language_model=ChatOpenAI(model="gpt-3.5-turbo", temperature=0),
    response_format_parser=StrOutputParser()):
    """
    评估系统对于无效或不适用请求的响应，确保其适当拒绝回答。

    参数:
    - system_prompt_message: 测验生成的指令或上下文。
    - invalid_quiz_request_question: 系统应该拒绝回答的请求。
    - expected_refusal_response: 预期的拒绝响应，表明系统拒绝回答请求。
    - user_question_template: 用于结构化用户问题的模板，默认为占位符。
    - selected_language_model: 用于内容生成的AI模型，默认已指定模型。
    - response_format_parser: 将AI模型的响应解析成所需格式的机制。

    抛出:
    - AssertionError: 如果系统的响应不包含预期的拒绝消息，则抛出异常。
    """

    # 重新排列参数以匹配 `generate_quiz_assistant_pipeline` 中的预期顺序
    generated_response = generate_quiz_assistant_pipeline(
        system_prompt_message,
        user_question_template,
        selected_language_model,
        response_format_parser).invoke({"question": invalid_quiz_request_question})

    print(generated_response)

    # 验证系统的响应是否包含预期的拒绝消息
    assert expected_refusal_response.lower() in generated_response.lower(), \
        f"期望系统以 '{expected_refusal_response}' 拒绝，但实际收到: {generated_response}"

实践示例：测试适当的拒绝

为了说明 evaluate_request_refusal 如何工作，让我们考虑一个情景，在这个情景中，测验生成器应该拒绝生成测验，因为请求超出范围或者不被当前配置所支持。

# 定义系统消息（或提示模板）、应该被拒绝的请求以及预期的拒绝响应
system_prompt_message = quiz_generation_prompt_template  # 假设这个变量已经被定义过了
invalid_quiz_request_question = "生成一个关于罗马的测验。"
expected_refusal_response = "对不起，我目前无法生成关于罗马的测验。"

# 执行拒绝评价函数，并指定参数
evaluate_request_refusal(
    system_prompt_message,
    invalid_quiz_request_question,
    expected_refusal_response
)

这个示例展示了函数测试测验生成器对应该被拒绝的请求的响应的能力。通过验证预期的拒绝消息的存在，我们可以确保系统在面对无法完成的请求时的行为符合预期。

最佳实践与建议

清晰的拒绝消息：设计拒绝消息要清晰且具有信息性，帮助用户理解为什么他们的请求无法得到满足。
全面测试：使用多种测试案例，包括对不受支持的主题或格式的请求，来彻底评估系统的拒绝逻辑。
改进与反馈：根据测试结果，优化拒绝逻辑和消息，以提高用户理解和满意度。
考虑用户体验：虽然有时拒绝是必要的，但在维持积极的用户交互方面，考虑提供替代建议或指导是很重要的。

适用于科学测验测试的修订函数

下面，我将适应之前概述的 evaluate_quiz_content 函数以适应这个测试情景，确保明确预期的结果和评估过程。该函数将测试AI生成的问题是否确实围绕预期的科学主题或科目。

科学测验测试函数定义

def test_science_quiz():
    """
    测试测验生成器产生与科学相关的问题的能力，验证是否包含预期的主题。
    """

    # 定义生成测验问题的请求
    question_request = "生成一个测验问题。"

    # 预期的科学主题列表，表明测验与科学主题的关联
    expected_science_subjects = ["物理学", "化学", "生物学", "天文学"]

    # 用于测验生成的系统消息或提示模板
    system_prompt_message = quiz_generation_prompt_template  # 这应该在代码的早期部分定义好

    # 调用评估函数，并传入科学特定的参数
    evaluate_quiz_content(
        system_prompt_message=system_prompt_message,
        quiz_request_question=question_request,
        expected_keywords=expected_science_subjects
    )