【数据科学赛】PromptCBLUE：首个中文医疗场景LLM评测基准 #￥16000

news2025/4/6 13:40:57

CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…）比赛。本账号会推送最新的比赛消息，欢迎关注！

更多比赛信息见 CompHub主页[1]

以下信息由AI辅助创作，仅供参考，请以官网为准（文末阅读原文）

大赛背景

近年来，以ChatGPT、GPT-4等为代表的大语言模型（LLM）掀起了新一轮自然语言处理领域的研究浪潮，展现出了类通用人工智能（AGI）的能力，受到业界广泛关注。在LLM大行其道的背景下，几乎所有的NLP任务都转化为了基于提示的语言生成任务。然而，在中文医学NLP社区中，尚未有一个统一任务形式的评测基准。为推动LLM在医疗领域的发展和落地，华东师范大学王晓玲教授团队联合天池团队推出PromptCBLUE评测基准，将CBLUE基准进行二次开发，将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务，形成首个中文医疗场景的LLM评测基准。PromptCBLUE将作为CCKS-2023的评测任务之一，依托于天池大赛平台进行评测。

大赛赛道

考虑到目前的LLM训练可能涉及商业数据，大规模模型开源受到各种外在条件的限制，我们将对PromptCBLUE评测开放两个赛道：

通用赛道: 接受来自企业，高校，开源社区，各类研究团队或者个人对自研的LLM进行评测。
开源赛道: 接受各类参赛团队提交评测，但是其必须使用开源的大模型底座，且只能使用开源的或者可以全部提交至比赛组织方审核的数据集进行训练/微调。

大赛赛程

评测任务发布: 2023/5/4
报名时间: 2023/5/4 - 2023/7/13 17:59:59
训练集，验证集发布；baseline模型/代码发布: 2023/5/10
测试A榜数据(测试集A)发布: 2023/5/10
测试A榜评测截止: 2023/7/13 17:59:59
测试B榜数据(测试集B)发布: 2023/7/14
测试B榜最终测试结果提交截止: 2023/7/17 17:59:59
公布测试结果: 2023/7/28
参与评奖队伍审核材料提交: 2023/8/5 23:59:59
评测论文提交: 2023/8/11 23:59:59
CCKS会议 (评测报告及颁奖): 2023/8/24-2023/8/27

大赛规则

PromptCBLUE的目标

PromptCBLUE的目标是评估LLM在不同医疗任务的总体表现，所以评测参与者只能使用一个LLM模型主干来完成整个测试集的评测。对于测试集中的每一个样本，模型输出必须是一个仅用LLM模型主干上连接的语言模型预测头(LM-head)输出的文本序列，LM-head必须是所有任务共享的。选手的最终模型不能在LM-head以外的其他模块产生与任务直接相关的或是(在模型训练过程中)参与损失计算的logits。

参赛规则

如果参与者使用了参数高效微调方法，则其总共使用的参数高效微调模块的总参数量不得超过其LLM模型主干的1%。
所有评测参与团队需要在提交测试集时，对其模型训练/微调方法进行介绍，也需要注明其训练数据来源。
评测参与者不得直接使用GPT-4, ChatGPT，文心一言，ChatGLM等公开模型api进行测试集预测(上述模型的研发机构除外)；上述大模型基座可以作为数据增广的来源。
评测参与者可以使用任何资源进行LLM训练，包括采用自有的医疗领域(有标注/无标注)数据进行训练。
评测参与者不得直接使用GPT-4, ChatGPT，文心一言，ChatGLM等公开模型api进行测试集预测(上述模型的研发机构除外)；上述大模型基座可以作为数据增广的来源。
评测参与者可以使用任何资源进行LLM训练，包括采用自有的医疗领域(有标注/无标注)数据进行训练。

开放榜单

考虑到目前的LLM训练可能涉及商业数据，大规模模型开源受到各种外在条件的限制，我们将对PromptCBLUE评测开放两个榜单：

通用榜，接受来自企业，高校，开源社区，各类研究团队或者个人进行测试提交评测，不要求其对使用的LLM模型底座开源。但排名靠前的团队需要提供可访问的网页demo地址(最少1天使用权限)供组织者抽查审核。
开源榜，接受各类参赛团队提交评测，但是其必须使用开源的大模型底座，且只能使用开源的或者可以全部提交至比赛组织方审核的数据集进行训练/微调。开源榜排名靠前的团队需要提交模型实现代码至组织者进行审核。