评分高达92.6%!谷歌AI医疗大模型重磅论文登上《自然》:水平媲美临床医生

news2025/2/3 22:07:38

“AI医生,离我们越来越近了。

712日,谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,不仅提出了MultiMedQA(美国医师执照试题)评估基准,用于评估大语言模型在编码临床知识方面的表现,还详解了谷歌医疗大模型Med-PaLM的进化过程。

最终的研究结果显示,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。此外,Med-PaLM5.9%的答案被评为可能导致有害结果,与临床医生生成的答案(5.7%)的结果相似。

谷歌医疗大模型Med-PaLM几乎可媲美人类医生

在这篇最新的《自然》论文中,谷歌和DeepMind科学家团队介绍了全新的MultiMedQA评估基准,专门用于评估大语言模型在编码临床知识方面的表现。

该基准结合了六个现有医疗问答数据集(MedQA MedMCQA PubMedQALiveQA MedicationQAMMLU),涵盖专业医学、研究和消费者查询等多个方面,以及一个全新的在线搜索医疗问题库数据集HealthSearchQA,力图从多方面把AI培养成一名合格的医生。

此外,该团队提出了一个基于人类评估的框架模型,该模型包括多个维度,例如事实、理解、推理,以及可能的偏见。

该团队在MultiMedQA上对拥有5400亿参数的谷歌大型语言模型PaLMPathways Language Model)及其变体Flan-PaLM进行了评估。

在实验中,研究人员采用了提示策略组合,Flan-PaLM在每个MultiMedQA多选题数据集上都达到了极高的准确率,其中在MedQA(美国医学执照考试类型问题)上的准确率为67.6%,比之前的技术水平高出17%以上。

图片来源:《自然》

论文指出,虽然Flan-PaLMMedQA的多项选择题上表现出色,但它对病人医疗问题的回答却暴露出关键的差距。为了解决这个问题,谷歌科学家团队提出了指令提示调整,让Flan-PaLM进一步与医学接轨,产生了Med-PaLM

在评估中,Med-PaLM表现令人鼓舞,一组临床医生对其回答的评分为92.6%,与现实中临床医生的水平(92.9%)相当。

 

图片来源:《自然》

AI医疗市场五年内或破千亿美元,科技巨头纷纷布局

基础模型和大语言模型的出现为医学AI的发展提供了助力。《每日经济新闻》记者注意到,其实除了谷歌和其旗下的DeepMind外,微软、IBM等科技大厂一直在持续关注AI医疗方面的应用落地。在这轮大模型浪潮之前,AI检测心电图、X光片已在一些医院中投入应用。

 

IBM官网对医学领域AI的介绍

过去数年来,AI在医疗领域的发展迅猛,为医疗行业带来了革命性的变革和巨大的潜力。

根据麦肯锡咨询的数据,AI每年可以创造3.5万亿至5.8万亿美元的商业价值。预计到2025年,全球AI应用市场总值将达到1270亿美元,其中AI医疗占据1/5的份额,处于高速成长阶段。

知名市场调研公司ReportLinker此前针对全球医疗保健AI市场的年度报告曾预测,全球医疗保健AI市场规模将从2023年的146亿美元增长到2028年的1027亿美元,期间复合年增长率为47.6%

中国AI产业发展迅速,自2019年以来,AI医疗以40%60%的增速快速发展,中国的AI医疗核心软件市场规模已接近30亿元,并且还有重资产性质的AI医疗机器人,总体规模接近60亿元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/762075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【技能实训】DMS数据挖掘项目-Day12

文章目录 任务14【任务14.1】类ClientFrame【任务14.1.1】在构造函数中定义组件属性【任务14.1.2】补充initConfig()方法的代码,获取客户端配置信息【任务14.1.4】菜单界面的初始化方法【任务14.2】在14.1的基础上,实现日志数据与物流数据的采集功能 任务…

安全开发-PHP应用文件管理模块显示上传黑白名单类型过滤访问控制文件管理模块包含上传遍历写入删除下载安全

文章目录 文件管理模块-上传-过滤机制文件管理模块-显示-过滤机制PHP文件操作安全文件包含文件上传文件删除文件下载文件编辑 文件管理模块-上传-过滤机制 $_FILES:PHP中一个预定义的超全局变量,用于在上传文件时从客户端接收文件,并将其保存…

基于 OpenVINO 的目标识别

基于 OpenVINO 的目标识别 YOLOV5原理 YOLOv5是一种快速高效的目标检测算法,具有优秀的实时性能和较高的准确度。该算法利用深度学习技术实现了端到端的目标检测,在计算资源有限的情况下也能够获得出色的表现 YOLOv5采用了一种基于Anchor的检测方式&…

广西电网:筑牢数字化安全根基,推动新型能源体系建设

广西电网是南方电网的全资子公司,是广西地区内资产规模数一数二的特大型企业。一直以来,广西电网都积极探索深化数字化绿色化协同,深入推进数字电网建设,构建新型电力系统和新型能源体系。 国家政策提出要求 以安全保障数字纽带 …

postman常用操作说明

环境变量 环境变量就是我们存放一组公共数据的地方,比如我有100个接口,三套环境(开发环境、测试环境、生产环境),我们没有必要把这100个接口根据三个环境分别写一套用例。只需要维护一套用例脚本,然后设置对应三个环境的变量就行…

抗性宏基因组揭秘人和动物共享ARG以及ARG的转移能力

抗生素耐药性(Antibiotic Resistance)是全球日益严重的公共卫生问题,随着“同一健康”概念的提出,人们更追求人、动物和环境的最佳健康。动物服用抗生素后会在其内脏中产生抗药细菌,并留在动物体内,最终可能…

MIT 6.829 -- Lecture 1: Packet Switching

MIT 6.829 -- Lecture 1: Packet Switching 引言InterconnectionsCircuit SwitchingPacket SwitchingDatagram routingSource routingVirtual circuits An example:LAN SwitchingLearning bridgesThe Solution:Spanning TreesVirtual LANs Summary 本课程…

PS图层混合模式超详细解答-图层混合模式的原理(Part1)

PS图层混合模式超详细解答-图层混合模式的原理 ☕ 前言 本教程非常详细,请用心看完 本教程如果有如何问题,欢迎评论区留言讨论 本教程为了避免冗余,一些不必要的截图就省略了 本教程只讨论8bit的情形下的混合 未经许可,不可转…

3.7 Bootstrap 导航栏

文章目录 Bootstrap 导航栏响应式的导航栏导航栏中的表单导航栏中的按钮导航栏中的文本结合图标的导航链接组件对齐方式固定到顶部固定到底部静态的顶部反色的导航栏 Bootstrap 导航栏 导航栏是一个很好的功能,是 Bootstrap 网站的一个突出特点。导航栏在您的应用或…

详解GPT技术发展脉络

文章目录 前言关于本篇的分享内容大语言模型大模型语言模型 百花齐放TransformerAuto-RegressiveResnetLayer-NormMaskScaled Dot-Product AttentionMulti-Head AttenionSelf-AttentionPositional Encoding关于并行计算关于长程依赖Transformer演化 GPT SeriesGPT-1GPT-2GPT-3 …

STM32存储左右互搏 I2C总线读写EEPROM AD24C02

STM32存储左右互搏 I2C总线读写EEPROM AD24C02 在较低容量存储领域,EEPROM是常用的存储介质,不同容量的EEPROM的地址对应位数不同,在发送字节的格式上有所区别。EEPROM是非快速访问存储,因为EEPROM按页进行组织,在连续…

数据库查询速度上不去的查询和分析

主要原因 数据库查询速度上不去、阻塞是指在并发访问 MySQL 数据库时,某个事务占用了资源并且长时间不释放,导致其他事务无法执行或执行缓慢的情况。MySQL 阻塞可能会导致数据库性能下降,甚至出现死锁等问题,需要马上进行处理。在 MySQL中,线程阻塞可能是由于以下原因导致…

vite 启动项目 报错 spawnargs: [ ‘--service=0.12.15‘, ‘--ping‘ ]

当前项目使用的是 vue3-antd-admin 框架 vue3-antd-admin 框架 详细地址 我们运行项目的时候发现报以下错误,npm i 了也不行, node:events:504throw er; // Unhandled error event^Error: spawn C:\Users\DELL\Desktop\vue3-antd-admin-master\node_modules\esbu…

阿里国际、敦煌、速卖通、沃尔玛、TEMU做测评补单核心关键点,看完你就会了

现在不管是做国内电商还是跨境电商,测评补单一直都有人在做,也确确实实的给卖家们带来了突破,不管是订单,留评,权重等等都有很大的提升,可以说有电商的地方就有测评补单,这是刚需。但是就像前人…

【C语言】深入理解C语言数据类型:从结构体到共用体和枚举的全面解析

目录 一、结构体概述及定义 1、概念 2、定义方式 方式1:先定义结构体类型,再定义结构体变量 方式2:定义结构体类型的同时定义结构体变量 方式3:定义一次性结构体 二、结构体变量的初始化 1、一般初始化 2、清空结构体变量…

【正点原子STM32连载】 第五十六章 DSP测试实验摘自【正点原子】STM32F103 战舰开发指南V1.2

1)实验平台:正点原子stm32f103战舰开发板V4 2)平台购买地址:https://detail.tmall.com/item.htm?id609294757420 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html# 第五…

欧姆龙cp11以太网设置

捷米特JM-ETH-CP转以太网模块控,用于欧姆龙 CP1L/ CP1E/ CP1H 系列 PLC 的以太网数据采集,非常方便构建生产管理系统。 支持 FINS/UDP、FINS/TCP 以太网协议通信,支持上位机软件(组态王、MCGS、力控、KepWare OPC 服务器等&#…

leetcode2373. 矩阵中的局部最大值

https://leetcode.cn/problems/largest-local-values-in-a-matrix/ 给你一个大小为 n x n 的整数矩阵 grid 。 生成一个大小为 (n - 2) x (n - 2) 的整数矩阵 maxLocal ,并满足: maxLocal[i][j] 等于 grid 中以 i 1 行和 j 1 列为中心的 3 x 3 矩阵中…

【Android】报错java.lang.reflect.InvocationTargetException解决办法

报错信息:java.lang.reflect.InvocationTargetException反射层调用方法失败 结果图 原因 InvocationTargetException异常由Method.invoke(obj, args…)方法抛出。(反射异常) 当被调用的方法的内部抛出了异常而没有被捕获时,将由此异常接收!&…

Stable Diffusion如何生成高质量的图-prompt写法介绍

文章目录 Stable Diffusion使用尝试下效果prompt的编写技巧prompt 和 negative promptPrompt格式Prompt规则细节优化Guidance Scale 总结 Stable Diffusion Stable Diffusion是一个开源的图像生成AI系统,由Anthropic公司开发。它基于 Transformer模型架构,可以通过文字描述生成…