GPT4 在医学任务表现-Capabilities of GPT-4 on Medical Challenge Problems

news2025/4/17 3:30:40

微软和openai在2023年4月的论文。

Capabilities of GPT-4 on Medical Challenge Problems

数据集介绍

USMLE Self Assessments：问题，有表格

USMLE Sample Exam：pdf，有图片

MedQA：多语种多选，

PubMedQA：判断题

MedMCQA：多选

MMLU：多选

评测方法

由于是评价选择题做得对不对，所以直接用准确率来衡量，即算做对了多少题。

对于需要给出原因的数据集，并没有在文中看到如何衡量gpt在这方面的表现

评测类型

1. 是zero-shot还是few-shot

2. 问题中提及了图像或图表，还是纯文本

3. 不同模型（GPT4-base、GPT-RLHF；GPT3.5、ChatGPT、Flan-PaLM 540B）在不同数据集上的表现

方向和局限

我觉得这部分写的很有意思，

1. Prompt策略

文章还尝试在prompt上做了实验，一是CoT，二是few-shot example是精心挑选的还是随机选的。对于前者，没有看到文章做什么实验，引用了别人的结果，说CoT不一定能很好的提高模型表现，还需要好好设计；而对于后者，作者也仿照前人做法进行了实验，结果example选择对模型表现结果影响不大。

2. 记忆

文章提及另外一个有意思点就是如何衡量模型数据的泄露程度，因为gpt4的训练数据没有开源，他就让模型生成给数据样本类似的样本集合，然后算这些生成样本和原始样本的相似性，来推断这个数据是不是就是训练数据。

使用的方法是memorization effects Levenshtein detector (MELD), 其实就是利用最短编辑距离算相似性

参考

1. Levenshtein Distance（编辑距离）算法与使用场景-腾讯云开发者社区-腾讯云

2.LOOCV - Leave-One-Out-Cross-Validation 留一交叉验证_leave-one-out cross-validation_肯德基套餐的博客-CSDN博客3. Few-Shot Prompting | Prompt Engineering Guide

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/615866.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于Python的接口自动化-pymysql模块操作数据库

基于Python的接口自动化-pymysql模块操作数据库

目录引言一、PyMySQL安装二、Python操作数据库写在最后引言在进行功能或者接口测试时常常需要通过连接数据库，操作和查看相关的数据表数据，用于构建测试数据、核对功能、验证数据一致性，接口的数据库操作是否正确等。因此&#x…

阅读更多...

MES系统选择指南:企业如何选择适合需求的MES管理系统？

MES系统选择指南:企业如何选择适合需求的MES管理系统？

MES（Manufacturing Execution System）管理系统是一种用于生产管理的软件系统，可以帮助企业提高生产效率、降低成本和提高质量。然而，不同类型的MES管理系统适用于不同类型的企业需求，因此选择适合自己企业需求的MES管理…

阅读更多...

基于瑞芯微芯片RK3399学习

基于瑞芯微芯片RK3399学习

同是soc，参加新星计划学习下大佬的思路 sys系统针对：（内核）1.1、通过sysfs清楚了解设备的系统状况的学习通过了解sys目录和文件了解嵌入式设备的系统状况。 sysfs把连接在系统上的设备和总线组织成为一个分级的文件&#xff0c…

阅读更多...

全国职业院校技能大赛信息安全管理与评估赛题一

全国职业院校技能大赛信息安全管理与评估赛题一

全国职业院校技能大赛高等职业教育组信息安全管理与评估赛题一模块一网络平台搭建与设备安全防护赛项时间共计180分钟。赛项信息竞赛阶段任务阶段竞赛任务竞赛时间分值第一阶段网络平台搭建与设备安全防护任务1 网络平台搭建 XX:XX- XX:XX 50 任务…

阅读更多...

第6章SpringMVC的RESTful

第6章SpringMVC的RESTful

一、RESTful 1.RESTful简介 REST：Representational State Transfer，表现层资源状态转移 ①资源将服务器看作是由很多离散的资源组成。每个资源是服务器上一个可命名的抽象概念 ②资源的表述源的表述可以有多种格式，例如HTML/XML/JSON…

阅读更多...

yolo v5

yolo v5

参考睿智的目标检测56——Pytorch搭建YoloV5目标检测平台原理前处理网络结构整体思想思想框架特征提取-特征加强-预测先验框对应的物体情况。改进部分 1、主干部分：使用了Focus网络结构，具体操作是在一张图片中每隔一个像素拿到一个值&…

阅读更多...

118. 杨辉三角解题思路

118. 杨辉三角解题思路

文章目录题目解题思路题目给定一个非负整数 numRows，生成「杨辉三角」的前 numRows 行。在「杨辉三角」中，每个数是它左上方和右上方的数的和。示例 1: 输入: numRows 5 输出: [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]] 示例 2: 输入: num…

阅读更多...

【Java基础】集合List/Set/Map

【Java基础】集合List/Set/Map

零、重点初始大小加载因子扩容大小底层机制ArrayList101(存满)1.5倍动态数组，Arrays.copyof()HashMap160.752.0倍 jdk1.7及其之前：数组单向链表（有扩容死锁问题） jdk1.8及其之后：Node 数组单向Node链表红黑树 …

阅读更多...

大专苦学 37 天，5 轮面试，6 小时灵魂拷问，含泪拿下阿里 offer~

大专苦学 37 天，5 轮面试，6 小时灵魂拷问，含泪拿下阿里 offer~

先纠正一下大家的错误认知，大专学历不是不能进大厂，只不过很难罢了，比如阿里就有很多大专学历的人；学历低想进大厂很难的，不光需要的技术足够厉害，还需要有合适的内推人（人脉）以及恰…

阅读更多...

机器的眼睛：漫谈机器视觉(文末送书)

机器的眼睛：漫谈机器视觉(文末送书)

眼睛是人心灵的窗户，我们可以通过凝视对方的眼神来理解他人。当有一天你走过一道需要刷脸才能通过的大门，突然间看到一个冰冷的摄像头在凝视着你的时候，你是否也曾若有所思地看着它，心中充满了疑惑——它是如何工作的？…

阅读更多...

苹果颠覆性新品取代iPhone，5万元新电脑告别 Intel

苹果颠覆性新品取代iPhone，5万元新电脑告别 Intel

今日凌晨苹果正式举行了 WWDC23 Apple 全球开发者大会。和往年相比 WWDC23 可以说是倍受关注，在召开前就有号称革命性产品问世的消息。场面如此壮观，今年到底苹果又带来了什么引领时代的玩意？ 革命性产品又是否能接力乔布斯时代&#xff…

阅读更多...

day06——朴素贝叶斯算法

day06——朴素贝叶斯算法

朴素贝叶斯算法一、什么是朴素贝叶斯分类方法二、概率基础知识1，联合概率2，条件概率三、贝叶斯公式1，公式2，拉普拉斯平滑系数四、API五、实操案例：20类新闻分类代码六、总结一、什么是朴素贝叶斯分类方法朴素贝…

阅读更多...

漫谈大数据 - 如何设计业务埋点方案与数据采集应用

漫谈大数据 - 如何设计业务埋点方案与数据采集应用

业务埋点和数据分析是在用户行为和业务数据上进行跟踪、收集和分析的关键方法，用于了解用户行为模式、改进产品和服务，并做出数据驱动的决策。全文1.5万字，建议阅读时间35min。目录业务埋点埋点的重要性埋点的类型全埋点代码埋点…

阅读更多...

springboot3自动装配机制原理（小白也看得懂）

springboot3自动装配机制原理（小白也看得懂）

springbootApplication注解实现自动装配的核心就是EnableAutoConfiguration。(springboot就是通过此注解实现自动装配机制，主要作用就是让springboot去扫描默认的配置类，如果没有这个类的话，springboot只会默认扫描启动类下包中各个类的注解…

阅读更多...

nuxt3项目在宝塔上使用pm2放到服务器

nuxt3项目在宝塔上使用pm2放到服务器

最近在将nuxt3项目扔到服务器上的时候遇到了一些问题，发现打包后的nuxt项目与正常的vue文件有些差别，缺失了index.html文件。这边就记录下nuxt3项目是怎么放到服务器上的🤔 一、打包nuxt3项目执行对应的打包命令 yarn build 二、找…

阅读更多...

Electron详解（一）：基本介绍

Electron详解（一）：基本介绍

文章目录一、electron简介二、发展历史三、electron优缺点四、electron和Qt的对比五、使用electron开发的实际案例六、electron 的原理一、electron简介 Electron（官网：https://www.electronjs.org/zh/）是由Github开发，用HTML&…

阅读更多...

17：00面试，还没10分钟就出来了，问的实在是太...

17：00面试，还没10分钟就出来了，问的实在是太...

从外包出来，没想到死在另一家厂子自从加入这家公司，每天都在加班，钱倒是给的不少，所以也就忍了。没想到8月一纸通知，所有人不许加班，薪资直降30%，顿时有吃不起饭的赶脚。好在有个兄弟内推我去…

阅读更多...

CVE-2022-30887

CVE-2022-30887

文章目录 CVE-2022-30887一、漏洞介绍二、渗透步骤1、打开网站2、登录网站3、shell4、文件上传5、查看flag CVE-2022-30887 一、漏洞介绍多语言药房管理系统 (MPMS) 是用 PHP 和 MySQL 开发的, 该软件的主要目的是在药房和客户之间提供一套接口，客户是该软件的主要…

阅读更多...

MLC Chat App上架苹果App Store可在本地运行语言模型；谷歌推出AI设计工具StyleDrop

MLC Chat App上架苹果App Store可在本地运行语言模型；谷歌推出AI设计工具StyleDrop

🦉 AI新闻 🚀 开源项目MLC Chat App上架苹果App Store，可在本地运行语言模型摘要：CMU助理陈天其教授表示，开源项目MLC LLM的独立聊天应用程序MLC Chat App已上架苹果App Store，允许将任何语言模型本地部…

阅读更多...

3.用图神经网络进行图分类

3.用图神经网络进行图分类

在本教程中，我们将更深入地了解如何将图神经网络（GNN）应用于图分类任务。图分类是指在给定图的数据集的情况下，基于一些结构图的属性对整个图（与节点相反）进行分类的问题。在这里，我们希望嵌入整…

阅读更多...

推荐文章

最新文章