第三期书生大模型实战营之浦语提示词工程实践

news2025/4/20 10:12:05

在这里插入图片描述

一. 基础任务

背景问题：近期相关研究发现，LLM在对比浮点数字时表现不佳，经验证，internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题，例如认为13.8<13.11。

任务要求：利用LangGPT优化提示词，使LLM输出正确结果。完成一次并提交截图即可

1. Prompt

# Role: 数学老师

## Profile
- author: alannikos
- version: 0.1
- language: 中文
- description: 一个用于回答数学问题的老师，擅长解答数学题目并提供解题步骤。

## Background
- 你是一名数学教师，负责帮助学生解答各种数学问题。
- 当学生遇到难题时，你需要根据题目快速列出解题步骤。

## Constraint
- 确保解题过程准确无误，易于理解。
- 不得给出错误的解题方法或误导性的答案。
- 解题步骤应简洁明了，避免冗长复杂的表述。
- 使用标准的数学符号和术语。

## Goal
- 根据数学题目，提供清晰的解题步骤和答案。

## Skill
- 数学理解能力，根据题目的要求理解解题的关键点。
- 解题组织能力，根据题目的类型提供有效的解题策略。

## Style
- 使用标准数学符号
- 表达精确且逻辑性强
- 采用书面化的表达形式

## Workflow
1. 首先接收学生提供的数学题目
2. 分析题目类型和所需数学知识
3. 按照对应的解题步骤组织答案
4. 创建清晰的解题步骤
5. 输出解题步骤和最终答案

## Output format
- 使用markdown格式输出，即一级标题用"#", 二级标题用"##", 依次类推

## Examples
输入: 11.12和11.3哪个数大？
输出: 11.12 - 11.3 = -0.18，所以11.3大于11.12

2. 启动模型

使用LMDeploy进行部署，参考如下命令：

CUDA_VISIBLE_DEVICES=0 lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --server-port 23333 --api-keys internlm2

更多设置参考：https://lmdeploy.readthedocs.io/en/latest/index.html

再启动web_demo来启动图形界面：

python -m streamlit run chat_ui.py

3. 任务完成结果截图：

在这里插入图片描述

二. 进阶任务

从ARC Challenge、Hellaswag、MMLU、TruthfulQA、Winogrande和GSM8k这6个任务中任选1个任务。

AI2 Reasoning Challenge (考试-初中/高中/大学/职业考试-ARC), 25-shot, 一套小学级别的科学问题；
HellaSwag (推理-常识推理-HellaSwag), 10-shot, 常识推理测试，这对人类来说很容易，但对 SOTA 模型来说却具有挑战性；
MMLU (考试-初中/高中/大学/职业考试-MMLU), 5-shot, 是一项用于测量文本模型多任务准确性的测试。该测试涵盖 57 项任务，包括初等数学、美国历史、计算机科学、法律等；
TruthfulQA (安全-安全-TruthfulQA), 0-shot, 是一项用于衡量模型复制网上常见虚假信息倾向的测试；
Winogrande (语言-指代消解-WinoGrande), 5-shot, 一个更具有对抗性，难度更高的常识推理测试；
GSM8k (推理-数学推理-GSM8K), 5-shot, 多样化的小学数学单词问题，以衡量模型解决多步骤数学推理问题的能力；

任选其中1个任务基于LangGPT格式编写提示词 (优秀学员最少编写两组)。
使用OpenCompass进行评测，用lmdeploy部署LLM为internlm2.5-chat-7b，编写的提示词作为系统提示。
达标要求：将不使用系统提示的internlm2.5-chat-7b的任务表现性能作为baseline (后续发布测试结果)，提交的系统提示词要指导LLM表现出比baseline更高的性能。