【数据科学赛】PromptCBLUE:首个中文医疗场景LLM评测基准 #¥16000

news2024/11/25 13:12:51

CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注!

更多比赛信息见 CompHub主页[1]


以下信息由AI辅助创作,仅供参考,请以官网为准(文末阅读原文

大赛背景

近年来,以ChatGPT、GPT-4等为代表的大语言模型(LLM)掀起了新一轮自然语言处理领域的研究浪潮,展现出了类通用人工智能(AGI)的能力,受到业界广泛关注。在LLM大行其道的背景下,几乎所有的NLP任务都转化为了基于提示的语言生成任务。然而,在中文医学NLP社区中,尚未有一个统一任务形式的评测基准。为推动LLM在医疗领域的发展和落地,华东师范大学王晓玲教授团队联合天池团队推出PromptCBLUE评测基准,将CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。PromptCBLUE将作为CCKS-2023的评测任务之一,依托于天池大赛平台进行评测。

大赛赛道

考虑到目前的LLM训练可能涉及商业数据,大规模模型开源受到各种外在条件的限制,我们将对PromptCBLUE评测开放两个赛道:

  • 通用赛道: 接受来自企业,高校,开源社区,各类研究团队或者个人对自研的LLM进行评测。

  • 开源赛道: 接受各类参赛团队提交评测,但是其必须使用开源的大模型底座,且只能使用开源的或者可以全部提交至比赛组织方审核的数据集进行训练/微调。

大赛赛程

  • 评测任务发布: 2023/5/4

  • 报名时间: 2023/5/4 - 2023/7/13 17:59:59

  • 训练集,验证集发布;baseline模型/代码发布: 2023/5/10

  • 测试A榜数据(测试集A)发布: 2023/5/10

  • 测试A榜评测截止: 2023/7/13 17:59:59

  • 测试B榜数据(测试集B)发布: 2023/7/14

  • 测试B榜最终测试结果提交截止: 2023/7/17 17:59:59

  • 公布测试结果: 2023/7/28

  • 参与评奖队伍审核材料提交: 2023/8/5 23:59:59

  • 评测论文提交: 2023/8/11 23:59:59

  • CCKS会议 (评测报告及颁奖): 2023/8/24-2023/8/27

大赛规则

PromptCBLUE的目标

PromptCBLUE的目标是评估LLM在不同医疗任务的总体表现,所以评测参与者只能使用一个LLM模型主干来完成整个测试集的评测。对于测试集中的每一个样本,模型输出必须是一个仅用LLM模型主干上连接的语言模型预测头(LM-head)输出的文本序列,LM-head必须是所有任务共享的。选手的最终模型不能在LM-head以外的其他模块产生与任务直接相关的或是(在模型训练过程中)参与损失计算的logits。

参赛规则

  • 如果参与者使用了参数高效微调方法,则其总共使用的参数高效微调模块的总参数量不得超过其LLM模型主干的1%。

  • 所有评测参与团队需要在提交测试集时,对其模型训练/微调方法进行介绍,也需要注明其训练数据来源。

  • 评测参与者不得直接使用GPT-4, ChatGPT,文心一言,ChatGLM等公开模型api进行测试集预测(上述模型的研发机构除外);上述大模型基座可以作为数据增广的来源。

  • 评测参与者可以使用任何资源进行LLM训练,包括采用自有的医疗领域(有标注/无标注)数据进行训练。

  • 评测参与者不得直接使用GPT-4, ChatGPT,文心一言,ChatGLM等公开模型api进行测试集预测(上述模型的研发机构除外);上述大模型基座可以作为数据增广的来源。

  • 评测参与者可以使用任何资源进行LLM训练,包括采用自有的医疗领域(有标注/无标注)数据进行训练。

开放榜单

考虑到目前的LLM训练可能涉及商业数据,大规模模型开源受到各种外在条件的限制,我们将对PromptCBLUE评测开放两个榜单:

  • 通用榜,接受来自企业,高校,开源社区,各类研究团队或者个人进行测试提交评测,不要求其对使用的LLM模型底座开源。但排名靠前的团队需要提供可访问的网页demo地址(最少1天使用权限)供组织者抽查审核。

  • 开源榜,接受各类参赛团队提交评测,但是其必须使用开源的大模型底座,且只能使用开源的或者可以全部提交至比赛组织方审核的数据集进行训练/微调。开源榜排名靠前的团队需要提交模型实现代码至组织者进行审核。

参考资料

[1]

CompHub主页: https://comphub.notion.site/CompHub-c353e310c8f84846ace87a13221637e8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/526095.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为认证HCIA+HCIP题库(超500题含答案解析)

本套题库包含以下内容,覆盖数通Datacom方向HCIA和HCIP两科考题,考试代码为H12-811、H12-821、H12-831。有需要的可以直接拿。 首先来看看各科目的考试内容及分值占比。所有满分均为1000分,只需600分即可拿证,考试时间均为60分钟。…

CTF比赛必备常用工具

文中介绍的所有工具,均在压缩包中,结合本文更便于大家下载使用,快速上手。 CTF常用工具下载 CTF比赛必备常用工具 一、什么是CTF二、比赛中工具的重要性三、常用MISC(杂项)工具1. Audacity (提取莫斯密码辅…

C++【继承】

✨个人主页: 北 海 🎉所属专栏: C修行之路 🎃操作环境: Visual Studio 2019 版本 16.11.17 文章目录 🌇前言🏙️正文1、继承的概念1.1、本质1.2、作用1.3、实际例子 2、继承的定义2.1、格式2.2、…

linux创建新用户

只需要四步就能创建一个新的linux用户 1.打开终端 快捷键CtrlAltT 2.创建用户和密码 sudo useradd -m aaa 创建用户名为aaa的用户 -m:自动建立用户的登入目录 sudo是允许系统管理员让普通用户执行root命令的一个工具(获取权限) 这里会需要输…

Packet Tracer安装包及安装教程(8.0版本)

Packet Tracer安装包下载链接: 链接:https://pan.baidu.com/s/19BbCZzSxukKKdsdaqw7dHw 提取码:6666 (若果链接失效,可在评论区留言。) 安装步骤 1、解压缩文件,得到 cisco packet tr…

[架构之路-198] - 功能需求与分析:1张图、 4个阶段、16个步骤,系统分析问题与彻底解决问题的方法:问题界定、原因分析、方案确认、落实执行

目录 前言:一张图: 一、界定问题:找到真正的问题,问题就解决了一大半 1.发现异常: 2.优先顺序: 3.描述现状: 4.确定目标: 二、要因分析:透过表象,直达…

Synopsys的仿真软件Hspice 2022版在Windows系统上的下载安装教程

目录 前言一、Hspice安装二、安装许可管理工具三、配置使用总结 前言 Synopsys HSPICE是电子电路仿真领域非常强大的软件,具有模拟和分析MOS元件的算法。HSPICE用于分析基本的电子电路,如晶体管,不包括电子元件,如微控制器。该软…

虚拟机搭建宝蓝德中间件(三)

2.1. 准备介质 2.1.1. 介质包: 宝兰德中间件的介质名为:BES-9.5.2.4703.tar.gz,该介质包适用于不同操作系统和 硬件平台。 2.1.2. 上传 BES952 单机版介质,上传路径:/home/bes 2.1.3. 新建 BES 中间件目录,…

基于阿里云物联网平台的Android物联网软件框架

Android 物联网APP 提示:该工程是连接阿里云物联网平台的模板代码,将MQTT连接、JSON数据的订阅发布等操作封装,并且能够迅速将获取到的数据显示到手机界面上。使用了Servier进行网络连接的逻辑操作,并且使用自定义控件&#xff0…

uni-app嵌入微信小程序原生代码

使用uni-app有时需要用到微信小程序原生代码 解析: uni-app项目结构跟原生小程序的项目结构有着不一致的区别,如果说开发过程中必须要使用原生代码,就需要把原生代码作为组件的方式在uni-app项目中引入使用官网为了应对这一个需求,就给出了以下方法,供开发者实现 wxcomponent…

SQL注入详解(全网最全,万字长文)

漏洞原因 一些概念: SQL:用于数据库中的标准数据查询语言。 web分为前端和后端,前端负责进行展示,后端负责处理来自前端的请求并提供前端展示的资源。 而数据库就是存储资源的地方。 而服务器获取数据的方法就是使用SQL语句进…

Android Studio App开发中数据库SQLite的解析及实战使用(包括创建数据库,增删改查,记住密码等 附源码必看)

运行有问题或需要源码请点赞关注收藏后评论区留言~~~ SQLite简介 SQLite是一种小巧的嵌入式数据库,使用方便,开发简单,如同mysql,oracle那样,SQLite也采用SQL语句管理数据,由于它属于轻型数据库&#xff0…

【网络】- TCP/IP四层(五层)协议 - 数据链路层

一、概述 TCP/IP 在最初定义时,是一个四层的体系结构,包括应用层、传输层、网络层、网络接口层。由于最下面的网络接口层并没有什么具有内容。因此,在学习计算机网络原理时,往往采用折中的办法,综合了 OSI 和 TCP/IP 的…

数据结构与算法----详解二叉树的遍历(迭代、递归)

文章目录 实现二叉树的类前序遍历中序遍历后序遍历层次遍历总结 ❤️ 作者简介:大家好我是小鱼干儿♛是一个热爱编程、热爱算法的大三学生,蓝桥杯国赛二等奖获得者🐟 个人主页 :https://blog.csdn.net/qq_52007481⭐ 个人社区&…

微信小程序跳转微信内置浏览器

最近遇到一个需求,需要微信小程序跳转到微信内置浏览器,但是官网并没有给出相关文档。查阅了大量资料,发现有两种实现方式。 1、通过微信公众号文章实现 小程序可以使用web-view打开关联的公众号文章,公众号文章可以在阅读全文放…

macOS Ventura 13.3 (22E252) 正式版 ISO、DMG镜像下载

macOS Ventura 版本历史 Release: macOS Ventura 13.3 (22E252), 2023-03-27macOS Ventura 13.2.1 (22D68), 2023-02-18macOS Ventura 13.2 (22D49), 2023-01-23macOS Ventura 13.1 (22C65), 2022-11-13macOS Ventura 13.0.1 (22A400), 2022-11-09macOS Ventura 13.0 (22A380…

关于结构体初始化的自我小结

前段时间在一个项目中使用到结构体数组来存储产品不同型号的参数,使程序通用化,便于测试和快速生产。由于之前很少使用结构体数组,在初始化时遇到了一点小阻碍,于是便想到对于结构体和其数组的初始化操作做一个小总结:…

前端笔试常考设计模式,操作系统,数据结构,ACM模板,经典算法,正则表达式,常用方法

考试时允许使用草稿纸,请提前准备纸笔。考试过程中允许上厕所等短暂离开,但请控制离开时间 笔试得分60%一般通过,面试答对80%才能通过 合集:2023年最全前端面试题考点HTML5CSS3JSVue3React18八股文手写项目笔试_参宿7的博客-CSD…

Microsoft Visual Studio 2019正式版离线安装包下载

原文地址:https://www.bitecho.net/microsoft-visual-studio-2019.html#respond Visual Studio(简称VS)是微软公司的开发工具包系列产品,包括了整个软件生命周期中所需要的大部分工具,如UML工具、代码管控工具、集成开…

DIY信号发生器:运放实现三角波、方波发生器(详细参数说明)+multisim仿真

前言 信号发生器是电子工程师最常用的几个仪器之一吧,三角波和方波是最常用的波形,在之前的文章中,我们已经介绍过RC延迟电路,今天我就教大家通过RC延迟和运放来实现三角波和方波。 仿真软件版本 本次介绍的电路是通过multisim…