基于Google Gemini 探索大语言模型在医学领域应用评估和前景

news2024/11/18 1:32:59

概述

近年来,大规模语言模型(LLM)在理解和生成人类语言方面取得了显著的飞跃,这些进步不仅推动了语言学和计算机编程的发展,还为多个领域带来了创新的突破。特别是模型如GPT-3和PaLM,它们通过吸收海量文本数据,已经能够掌握复杂的语言模式。人工智能技术的迅猛发展不断推动着LLM的进化,并加速了这一领域的专业创新。这些进步是随着模型规模的扩大、数据量的增加以及计算能力的提升而逐步实现的,其中许多尖端模型都基于变压器(Transformer)架构,并采用了自我监督学习技术。
在医学领域,大规模语言模型的应用展现出了创新性和巨大的潜力。它们通过分析庞大的医学文献和整合新知识,有潜力为医学界带来革命性的认识。研究人员正在积极探索如何利用这些模型来补充医学专业知识,并提升医疗服务的质量。
然而,这一新兴技术领域也面临着不小的挑战。例如,人们质疑大规模语言模型是否能够以专家水平处理医学知识,以及它们是否可能产生误导性信息。了解这些技术的潜力和局限,对于在医学领域负责任地应用语言模型至关重要。
本文聚焦于谷歌的Gemini模型,深入探讨了大规模语言模型在医疗领域的应用潜力与挑战。Gemini作为一个先进的多模态语言模型,本文通过一系列严格的基准测试,对其能力进行了全面的评估,旨在揭示其在医疗领域的长处与短板。
研究结果证实了Gemini在理解多样医学主题方面的卓越能力,同时也指出了它在需要深层次专业知识的领域中的局限性。本文深入分析了Gemini及其他大规模语言模型在医疗领域的应用前景,并强调了它们的优势与面临的挑战,期望能为讨论人工智能技术在医疗领域未来发展提供有益的视角。

Gemini

这里将深入探讨Gemini模型的结构、性能,并讨论如何评估其推理能力。Gemini模型采用了尖端的多模态架构,并且充分利用了谷歌先进的TPU(张量处理单元)硬件,以实现复杂的分析和推理任务。
项目地址:https://github.com/promptslab/rosettaeval
论文地址:https://arxiv.org/pdf/2402.07023.pdf

双子座架构

  • 基础架构:Gemini模型基于先进的Transformer解码器,能够处理长达32,000个标记的上下文。这种设计使其能够理解和生成复杂的语言结构。
  • 多模态能力:模型能够无缝整合文本、图形和音频数据,这在处理医学信息时尤为重要,因为医学数据经常包含图像(如X光片、CT扫描)和文本(如病历、研究论文)。
  • 可靠性与效率:Gemini的设计注重减少硬件故障和数据失真,提高了模型的可靠性和效率。

医学标杆

  • MultiMedQA:这是一个评估临床推理能力的医学质量保证数据集,包含了如USMLE(美国医学执照考试)和NEET-PG(印度研究生医学入学考试)等考试中的问题,这些问题需要广泛的跨学科知识。
  • MedQA和MedMCQA:这些数据集分别来自美国和印度的医学许可考试,提出了具有挑战性的临床推理问题。
  • PubMedQA:包含1,000个问题,这些问题综合了研究摘要中的见解,用于评估模型在封闭领域的推理能力。
  • MMLU:这是一个测试基础科学知识与医学理解整合能力的广泛领域数据集,也是一个全面的医学问答数据集,用于测试医学推理能力。

特殊基准

  • Med-HALT:这是一个评估潜在危险推理倾向的基准,基于“首先,不造成伤害”这一医学原则设计。它通过推理幻觉测试(RHT)和记忆幻觉测试(MHT)来评估模型的逻辑分析能力,并在适当的时候承认不确定性。
  • 视觉问答(VQA)基准:使用来自《新英格兰医学杂志》(NEJM)图像挑战赛的100道多项选择题,评估Gemini的多模态推理能力。这包括图像理解、医学知识回忆和逐步推理的测试。

性能评估

通过上述基准测试,Gemini展示了其创新方法如何解决医疗领域的复杂问题。这些测试不仅证明了Gemini的推理能力,还突出了其在处理医疗信息方面的准确性和可靠性。

总体来说,Gemini模型的评估显示了其在医学领域的应用潜力,同时也揭示了在实际应用中可能遇到的挑战。随着进一步的研究和发展,Gemini和其他类似的大规模语言模型有望成为医学专业人员的有力辅助工具,帮助他们提供更高质量的医疗服务。

实验结果

这里分析 Gemini 在 MultiMedQA、Med-HALT 幻觉和医学视觉问题解答 (VQA) 基准测试中的表现,并将其与其他模型进行比较。

首先,让我们看看 Gemini 在 MultiMedQA 基准测试中的表现。下图显示了 Med-PaLM 2、GPT-4 和 GeminiPro的 MultiMedQA 分数。 Gemini Pro 在各种医疗主题的 MultiMedQA 基准中都取得了显著的成绩。

下表还将 Gemini Pro 的结果与 Flan-PaLM、Med-PaLM 和 Med-PaLM 2 的结果进行了比较。Gemini Pro 在 MedQA(USMLE)数据集上的得分率为 67.0%,是 MedPA-LM2 的最高分(高达 86.5%),以及 86.1% 的 GPT-4(5-shot),与 GPT-4 的最高分(高达 86.5%)无法相比。这一巨大差异表明,Gemini Pro 在处理复杂、多步骤的美国国家医学考试式问题方面的能力还有待提高。

MedMCQA 数据集的覆盖范围也很广,是一个特别具有挑战性的环境:Gemini Pro 在 MedMCQA 数据集上的得分率为 62.2%,与排行榜上的其他模型相比差距很大。例如,ER 和 best 在 Med-PALM 2 上的得分都达到了 72.3%,表明其在此环境下具有更强的理解和处理能力。此外,GPT-4 模型(包括基础版和 5 连拍版)的表现也很出色,得分率在 72.4% 到 73.7% 之间。这些结果表明,要在 Gemini MedMCQA 数据集上取得更好的性能,还有一定的改进空间。

PubMedQA 数据集也使用是/否/表格式,这给二元和三元问题带来了独特的挑战;Gemini Pro 在该数据集上的得分率为 70.7%,Med-PaLM 2 的最高得分率为 81.8%,而 5GPT-4-base 为 80.4%。这种性能差异表明,Gemini Pro 需要提高处理二元和三元回答的能力,以及处理科学文献和临床领域问题的能力。

此外,在 MMLU 临床知识数据集上,Gemini Pro 的表现不如 Med-PaLM 2 和 5-shot GPT-4 等最先进的模型。GPT-4-base都达到了 88.7%。在分析特定子域时,这一趋势依然存在。在医学遗传学评估中,Gemini Pro 的准确率为 81.8%,而 5 发GPT-4-base 的正确率为 97.0%。同样,在解剖学评估中,Gemini Pro 的准确率为 76.9%,但比 5 发GPT-4 base85.2% 的准确率低 8%。在专业医学和大学生物学等其他类别中也存在类似的性能差距,Gemini Pro 无法赶上顶级模型。此外,在大学医学类别中,Gemini Pro 的得分率为 79.3%,显示出合理的能力,但与 Med-PaLM 2 和 GPT-4 变体等模型的顶级性能相比还有差距。这些结果表明,Gemini Pro 在处理医疗数据方面具有很强的基本能力,其架构也很有潜力。不过,从 Med-PaLM 2 和 GPT-4 等机型的最佳性能来看,显然还有改进的余地。

此外,还进行了与开源大规模语言模型的对比分析。在此,我们使用了一系列最先进的模型,包括 Llama-2-70b、Mistral-7bv0.1、Mixtral-8x7b-v0.1、Yi-34b、Zephyr-7b-beta、Qwen-72b 和 Meditron-70b,以评估它们的零-射和 FewShot 的能力。通过使用 MultiMedQA 基准进行标准化分析,评估了 Zero-Shot 和 FewShot 的能力,以量化已发布的 L-large 语言模型的能力和局限性。下图分别显示了 Zero-Shot 和 FewShot 的性能。

(零投篮命中率)。

(少儿摄影表演)。

跨数据集的性能:我们在一系列医学数据集上测试了许多开源模型,以评估它们的四射和零射能力;在五射学习基准中,Qwen-72b 的表现始终如一。Qwen-72b的灵活性和从少量优秀实例中吸收知识的能力表明,它在特定医学知识领域的广泛人工智能能力与特定医学专业知识的细微要求之间架起了一座桥梁。

零拍与四拍提示:零拍与四拍训练结果的比较揭示了基于例子的训练对模型性能的重要性 Yi-34b 和 Qwen-72b 等大规模语言模型表明,引入少量例子就能明显改善性能。这些结果表明,基于示例的学习在提高模型的准确性和推理性能方面发挥着重要作用,尤其是在医学等专业领域。

针对特定模型的见解:评估结果表明,在不同的医学问题类型和数据集上,每个模型都表现出独特的优缺点;Gemini Pro 在多个数据集上表现出一致的性能,并具有很强的适用于不同情况的能力,但在某些领域,尤其是 Yi-34b 等模型的效果不佳。另一方面,Mixtral-7b-v0.1 等模型在 PubMedQA 数据集中显示出巨大的潜力,可以对科学文章进行有效的分析和推断。此外,Mixtral-8x7b-v0.1 在 MMLU 临床知识和 MMLU 大学生生物学上的表现尤为突出,显示了其吸收复杂医学信息的能力;Qwen-72b 处理多种类型医学问题的能力很强,无需事先举例;Mixtral-8x7b-v0.1 处理各种医学问题的能力也很强,无需事先举例。该模型在 MMLU 大学生物数据集上的表现无与伦比,准确率高达 93.75%,并能很好地理解复杂的生物概念。

总结

论文对Gemini模型的功能进行了全面的基准测试,揭示了其在医疗领域的应用潜力,同时也指出了未来研究中需要解决的一些局限性。以下是对这些局限性的进一步讨论,以及它们对未来研究方向的影响:

局限性

  1. Gemini Pro与Gemini Ultra:当前的评估仅限于Gemini Pro的功能,而没有充分利用更先进的Gemini Ultra功能。这意味着,对于模型的完整能力,我们的理解可能还不够全面。未来的研究可以通过访问Gemini Ultra的API,来探索其更高级的功能,从而获得更深入的理解。

  2. 长问题评分:在多个医学质量评估中,对较长问题的评分是一个重要的方面,但当前研究并未包括这一点。未来研究应该扩展到这一领域,以更全面地评估模型处理复杂查询的能力。

  3. 实时数据和先进技术:使用实时数据和如检索增强生成(RAG)等先进技术,可能会进一步提升模型的性能。未来的研究可以探索这些技术如何与Gemini模型结合,以提高其在医疗领域的应用效果。

  4. VQA任务的样本量:视觉问答(VQA)任务中使用的样本量相对较少。未来的研究需要考虑更大的数据集,以更准确地评估模型的多模态推理能力。

解决局限性的重要性

解决上述局限性对于全面了解Gemini模型的潜力至关重要。它们将有助于为医疗应用开发更先进的人工智能工具,从而提高医疗服务的质量和效率。

Gemini模型的评估结果

研究还根据医疗领域的多个基准对Gemini模型进行了评估。结果显示,尽管Gemini在一系列医疗主题上表现出了良好的理解力,但在某些方面与其他领先模型相比还存在不足。特别是,模型在某些情况下可能会产生误导性的信息(幻觉),因此提高其可靠性和可信度是非常重要的。

人工智能与人类临床判断力

这项研究为医学多模态模型评估奠定了基础,并为促进未来发展提供了一个公共工具。最终,尽管人工智能技术在医疗领域具有巨大的潜力,但它无法取代人类的临床判断力和同理心。然而,精心设计的人工智能辅助工具可以提高医疗专业人员的专业技能,支持医学的治疗和服务使命。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1621324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面试遇到算法题:实现LRU缓存

请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。 这是一道大厂面试高频出现的算法题,难度为⭐️⭐️⭐️,属于中等,老铁们来一起看看这个题该怎么解? 1. 原题再现 没有废话,翠花,上酸菜&…

LeetCode:2385. 感染二叉树需要的总时间(DFS Java)

目录 2385. 感染二叉树需要的总时间 题目描述: 实现代码与解析: DFS 原理思路: 2385. 感染二叉树需要的总时间 题目描述: 给你一棵二叉树的根节点 root ,二叉树中节点的值 互不相同 。另给你一个整数 start 。在第…

Simulink从0搭建模型03-Enabled Subsystem 使能子系统

参考博客 b站视频 【Simulink 0基础入门教程 P4 使能子系统 Enabled Subsystem 的使用介绍】 个人听了这个博主的视频风格觉得很适合我入门学习,讲得很清楚。 另外,视频里面教得很详细了,我也不会再详细写怎么打开创建等步骤,跟着…

QT中对于QPushButton样式的调整

文章目录 前言1.QPushButton1.1 新建项目导入资源1.2 添加Push Button并定义样式1.3 调整样式1.4 实际需求情况1.5 背景色和边框 2. 一些概念理解2.1 图片2.2 边距 总结 前言 前段时间在调软件的样式,学到了些新的东西,也碰到了些问题,这里做…

电脑遗失d3dx9_43.dll文件会给电脑带来什么问题,有哪些方法可以解决丢失d3dx9_43.dll文件的办法

电脑遗失了d3dx9_43.dll文件,可能会引发一系列麻烦的后果。那么,针对这种情况,我们应该采取哪些方法来修复丢失的d3dx9_43.dll文件呢?下面将介绍几种解决d3dx9_43.dll文件丢失问题的有效方法。 对d3dx9_43.dll文件的简要介绍 d3d…

Flutter 中优雅切换应用主题的组件

Flutter 中优雅切换应用主题的组件 视频 https://youtu.be/L–XLpc452I https://www.bilibili.com/video/BV1wD421n75p/ 前言 原文 https://ducafecat.com/blog/flutter-app-theme-switch Adaptive Theme 这个组件通过包裹 MaterialApp 的方式整体管理 theme 主题&#xff0…

Linux中Ctrl+C和Ctrl+Z的区别_实战讲解(超详细)

1、CtrlC和CtrlZ的区别: CtrlZ:暂停进程 即挂起进程 暂停当前进程并将其放到后台。可以在后续恢复执行。 暂停的进程仍然占用系统内存 CtrlC:终止进程 终止进程后,程序代码占用的内存会释放掉 2、实战讲解 跑人工智能代码的时候…

Ts类型体操详讲 之 extends infer (下)

目录 1、函数 (1)提取参数类型 (2)提取返回值类型 2、构造器 (1)提取构造器返回值 (2)提取构造器参数类型 3、索引类型 本章我们继续上节的内容继续,展示我们对ex…

day12 过一遍Nestjs框架(java转ts全栈/3R教室)

介绍:NestJS是Ts技术栈的后端框架,相当于Java中的springboot。 学习方法:与java技术体系进行对比学习。学习目标:nest相关知识也是挺多,但对比学spring的时候,大部分在项目生产中都是套路化的,大…

Qt开发(二)打包发布

注意qt6生成的exe不能再win7(包含win7)以下运行 1、编译程序 编译程序不演示 2、找到exe文件 在这个路径下找到该exe文件 3、打包 新建一个文件夹 将exe放在该文件夹下除了exe开始这里面没有其他文件 找到安装目录下 在cmd中运行 把这个文件和编…

html2Canvas截图包含滚动条解决思路

概况描述 在项目中使用html2Canvas进行截图时发现无法截取滚动条部分,前端是使用vue2的版本,网上找了很多方式都没效果,冷静思考后,给出解决办法。 解决思路 当我们截取的div容器的宽和高与内部的子容器div的宽和高不一样时&am…

江开2024年春《大学英语(B)(2) 060052》过程性考核作业4参考答案

答案:更多答案,请关注【电大搜题】微信公众号 答案:更多答案,请关注【电大搜题】微信公众号 答案:更多答案,请关注【电大搜题】微信公众号 单选题 1阅读Passage One,回答C-1C-4个问题。请…

七星创客新零售系统:颠覆性商业模式的崛起

大家好,我是微三云周丽,今天给大家分析当下市场比较火爆的商业模式! 小编今天跟大伙们分享什么是七星创客新零售系统? 随着经济的快速发展和科技的不断进步,商业模式的革新成为了企业发展的关键。在这个新旧动能转换、…

【2023】springboot通过阿里云oss进行文件单个批量文件上传下载

SpringBoot整合阿里OSS实现上传下载 目录💻 前言一、介绍二、阿里云添加oss1、进入oss目录2、创建bucket3、测试上传下载4、创建AccessKey管理账号 三、依赖以及配置1、依赖2、yml3、Config类4、OSSUtil 工具类 四、controller五、测试1、测试上传2、测试删除 前言 …

牛客 题解

文章目录 day4_17**BC149** **简写单词**思路:模拟代码: dd爱框框思路:滑动窗口(同向双指针)代码: 除2!思路:模拟贪心堆代码: day4_17 BC149 简写单词 https://www.now…

stm32F407-PS手柄代码,20240424

一、硬件接线 手柄接收器—stm32板子 GND—GND VCC—5V DAT–F3 CMD–F5 CS–F6 CLK–F4 二、PStwo.h #ifndef __PSTWO_H #define __PSTWO_H//F3 F5 F6 F4 F10 // #include "delay.h" #include "sys.h"#define DI PFin(3) //PB12 输入#defin…

C# Solidworks二次开发:枚举应用实战(第三讲)

大家好,今天继续介绍枚举相关内容。 下面是今天要介绍的枚举: (1)第一个为swACisOutputVersion,这个枚举为ACIS的版本,下面是官方的具体解释: 其枚举值为: MemberDescriptionswAc…

git切换源失败解决方案

git切换源失败解决方案 git切换源git切换源失败(无效) git切换源 git可以使用命令行切换源,一般使用的源有两个地址,git原生地址和淘宝镜像地址,部分公司会使用内部地址。 源切换后,npm i就是从源地址拉取相关依赖了。 原生地址…

选择合适的监控观测平台,为业务出海合规建设减负

在全球化商业版图的浩瀚海洋中,企业如同一艘勇敢的船只,突破重重阻碍,勇往直前。在这一征途中,监控观测活动是导航中的指南罗盘,确保企业航向正确、安全稳定,成为企业出海路上维护业务稳定和数据安全的关键…

【论文解析】笔触渲染生成 前沿工作梳理

最近的一些工作梳理 2023年 Stroke-based Neural Painting and Stylization with Dynamically Predicted Painting Region 2022年Im2Oil: Stroke-Based Oil Painting Rendering with Linearly Controllable Fineness Via Adaptive Sampling 文章目录 1 Stroke-based Neural P…