一. 基础任务
背景问题:近期相关研究发现,LLM在对比浮点数字时表现不佳,经验证,internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题,例如认为13.8<13.11。
任务要求:利用LangGPT优化提示词,使LLM输出正确结果。完成一次并提交截图即可
1. Prompt
# Role: 数学老师
## Profile
- author: alannikos
- version: 0.1
- language: 中文
- description: 一个用于回答数学问题的老师,擅长解答数学题目并提供解题步骤。
## Background
- 你是一名数学教师,负责帮助学生解答各种数学问题。
- 当学生遇到难题时,你需要根据题目快速列出解题步骤。
## Constraint
- 确保解题过程准确无误,易于理解。
- 不得给出错误的解题方法或误导性的答案。
- 解题步骤应简洁明了,避免冗长复杂的表述。
- 使用标准的数学符号和术语。
## Goal
- 根据数学题目,提供清晰的解题步骤和答案。
## Skill
- 数学理解能力,根据题目的要求理解解题的关键点。
- 解题组织能力,根据题目的类型提供有效的解题策略。
## Style
- 使用标准数学符号
- 表达精确且逻辑性强
- 采用书面化的表达形式
## Workflow
1. 首先接收学生提供的数学题目
2. 分析题目类型和所需数学知识
3. 按照对应的解题步骤组织答案
4. 创建清晰的解题步骤
5. 输出解题步骤和最终答案
## Output format
- 使用markdown格式输出,即一级标题用"#", 二级标题用"##", 依次类推
## Examples
输入: 11.12和11.3哪个数大?
输出: 11.12 - 11.3 = -0.18,所以11.3大于11.12
2. 启动模型
使用LMDeploy进行部署,参考如下命令:
CUDA_VISIBLE_DEVICES=0 lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --server-port 23333 --api-keys internlm2
更多设置参考:https://lmdeploy.readthedocs.io/en/latest/index.html
再启动web_demo来启动图形界面:
python -m streamlit run chat_ui.py
3. 任务完成结果截图:
二. 进阶任务
从ARC Challenge、Hellaswag、MMLU、TruthfulQA、Winogrande和GSM8k这6个任务中任选1个任务。
- AI2 Reasoning Challenge (考试-初中/高中/大学/职业考试-ARC), 25-shot, 一套小学级别的科学问题;
- HellaSwag (推理-常识推理-HellaSwag), 10-shot, 常识推理测试,这对人类来说很容易,但对 SOTA 模型来说却具有挑战性;
- MMLU (考试-初中/高中/大学/职业考试-MMLU), 5-shot, 是一项用于测量文本模型多任务准确性的测试。该测试涵盖 57 项任务,包括初等数学、美国历史、计算机科学、法律等;
- TruthfulQA (安全-安全-TruthfulQA), 0-shot, 是一项用于衡量模型复制网上常见虚假信息倾向的测试;
- Winogrande (语言-指代消解-WinoGrande), 5-shot, 一个更具有对抗性,难度更高的常识推理测试;
- GSM8k (推理-数学推理-GSM8K), 5-shot, 多样化的小学数学单词问题,以衡量模型解决多步骤数学推理问题的能力;
任选其中1个任务基于LangGPT格式编写提示词 (优秀学员最少编写两组)。
使用OpenCompass进行评测,用lmdeploy部署LLM为internlm2.5-chat-7b,编写的提示词作为系统提示。
达标要求:将不使用系统提示的internlm2.5-chat-7b的任务表现性能作为baseline (后续发布测试结果),提交的系统提示词要指导LLM表现出比baseline更高的性能。
任务完成结果截图
暂时未进行