ChatGPT passing USMLE shines a spotlight on the flaws of medical education
https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000205
ChatGPT 通过美国执业医师执照考试(USMLE)凸显了医学教育的缺陷
阿马拉奇·B·姆巴克韦1
, 伊斯米尼·劳伦特佐1
, 利奥·安东尼·切利ID2,3,4*, 奥伦
J. 梅卡尼克5,6,7, 阿隆
D. 达甘8
1 计算机科学系,弗吉尼亚理工学院,弗吉尼亚州布莱克斯堡,美国
2 医学工程与科学研究所,麻省理工学院,马萨诸塞州剑桥,美国
3 医学系,贝斯以色列女执事医疗中心,贝斯以色列女执事医疗中心,马萨诸塞州波士顿,美国
4 生物统计学系,哈佛大学公共卫生学院,马萨诸塞州波士顿,美国
5 eMed 数字医疗保健,佛罗里达州迈阿密,美国
6 急诊医学系,西奈山医疗中心,佛罗里达州迈阿密海滩,美国
7 急诊医学和重症医学系,佛罗里达国际大学赫伯特·韦特海姆医学院,佛罗里达州迈阿密,美国
8 急诊医学系,贝斯以色列女执事医疗中心,马萨诸塞州波士顿,美国
人工智能(AI)最近在数字健康领域引发了革命性的创新,其中大型语言模型(LLMs)做出了重要贡献。LLMs是具有大量参数空间的深度神经网络模型。这些模型包含数十亿参数,通常在千兆字节甚至太字节的文本数据上进行训练。LLMs代表了AI的一个重要进步,为自然语言理解和生成提供了新的可能性。
自2022年11月ChatGPT公开发布以来,关于AI及其在社会中角色的讨论达到了一个临界点。首次,一个复杂的LLM以一种非常易于访问的格式向广大公众开放。最初的反应无一例外地充满了惊讶,公众媒体的爆炸性报道赞扬该算法有潜力“改变我们对工作方式、思维方式以及人类创造力真正是什么的看法”。
在随后的几周里,所使用的LLM面临了日益复杂的挑战,通常利用标准化考试来确定算法与为这些考试设计的人相比如何。尽管缺乏特定领域的训练,ChatGPT并没有让人失望,经常通过或接近通过为各个专业领域设计的研究生水平考试[1]。在这个问题上,Kung等人报告了ChatGPT在美国医学执照考试(USMLE)上的表现。这种表现对我们意味着什么?[2]
随着我们对其能力的更多了解,我们必须考虑ChatGPT在医学考试上的成功对测试和当前医学教育意味着什么。USMLE考试的目标是评估“医生应用知识、概念和原则的能力,并展示在健康和疾病中重要的基本以患者为中心的技能,这些技能构成了安全有效患者护理的基础”[3]。虽然实现这些目标确实需要一些机械记忆,但我们越来越意识到,在信息可以快速在指尖上获取的时代,能够复述健康和疾病的机械模型可能不那么重要。我们还意识到,还有其他重要的特征,如解决问题的能力、熟悉信息资源、强烈的职业道德、尊重患者和整个护理团队、礼貌、热情和谦逊,这些特征使一个人成为优秀的临床医生,而不仅仅是拥有适当的医学知识广度。因此,像USMLE这样的考试未能完全评估现代医疗实践所需的技能。
ChatGPT的成功也反映了医学教学方式的僵化,其中有一个正确和错误的答案(AI聊天机器人可以挑选出来),而“正确”的答案可能更加微妙且依赖于上下文。将医学知识框架化为可以包含进多项选择题的东西,创造了一种错误确定性的认知框架。医学知识通常被教授为健康和疾病的固定模型表示。治疗效果被呈现为随时间稳定,尽管实践模式不断变化。机械模型从教师传给学生,很少强调这些模型是如何得出的,围绕它们的不确定性,以及它们必须如何重新校准以反映值得纳入实践的进步。
同样令人恐惧的是,观察到潜在有偏见的互联网医学内容(ChatGPT训练的基础)足以通过医学考试。这些偏见源于在高收入国家进行的研究和教科书,描述的研究可能不代表全球人口[4]。这些脆弱性因采样选择而加剧,内容来自高影响力的学术机构,主导了健康和疾病的科学。当前的医学教育没有评估学生识别或提及他们知识中潜在偏见的能力:一般来说,它甚至没有让学生意识到这些问题。
直接将AI应用于标准考试的做法存在复制这些模型训练数据中的偏见的风险。对于未经严格错误和偏见评估就部署的专有算法的恐怖故事几乎没有提及[5-7]。AI在处理细微差别和上下文时非常糟糕,当没有明确规则,当专家对正确答案有分歧时。如果有一门知识需要细微差别和上下文,即使证据不够坚实也规定指导方针,并且由经常对正确答案有分歧的专家维护,那将是医学。在这种情况下,声音最大的人将塑造输入,因此也塑造LLM的输出。
学习是利用当前的知识体系,理解其差距,并寻求填补这些差距。它需要能够舒适地并能够探究不确定性。我们作为教师失败了,因为我们没有教学生如何理解当前知识体系的差距。当我们宣扬确定性而不是好奇心,傲慢而不是谦逊时,我们就失败了。医学教育还需要意识到医学知识创造和验证过程中的偏见。这些偏见最好通过优化社区内的认知多样性来解决。比以往任何时候都更需要激发跨学科协作学习和问题解决。医学生需要数据科学技能,这将使每个临床医生能够为医学知识做出贡献,不断评估和重新校准医学知识。
ChatGPT缺乏像人类一样的深思熟虑的推理,它的及格分数强调了当前版本的USMLE主要侧重于机械记忆健康和疾病的机械模型。但这远非基于人类互动的实际医疗实践,因此,出于这些原因,AI永远不会取代护理前线的护士、医生和其他专业人员。毫无疑问,AI和LLM将改变我们所做的每一个方面,从研究和写作到图形设计和医学诊断。然而,它目前在通过一个又一个标准化考试方面的成功是对我们如何训练和评估我们的医生、律师和一般学生的控诉。
ChatGPT通过了一项考试,这项考试奖励记忆系统的组成部分,而不是分析它是如何工作的,它是如何失败的,它是如何创建的,它是如何维护的。它的成功展示了我们训练和评估医学生的一些不足之处。批判性思维需要认识到医学中的真理不断变化,更重要的是,了解它们为什么和如何变化。也许LLM在通过像USMLE这样的考试中的成功最重要的教训是,现在是时候重新思考我们如何训练和评估我们的学生了。医学的荣耀传统上归于创新者,他们当然至关重要。但同样重要的是那些充分利用我们已有的知识和技能的临床医生,并有时间、意愿和能力将这些传递给下一代医学生,并为他们创造更相关和有效的评估。