仅仅通过提示词,GPT-4可以被引导成为多个领域的特定专家

news2024/11/23 19:05:52


The Power of Prompting:提示的力量,仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

微软研究院发布了一项研究,展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。

研究显示,GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2,并且优势显著。

研究表明,仅通过提示策略就可以有效地从通用基础模型中引发特定领域的专业知识。

以前,要想激发这些能力,需要使用特别策划的数据对语言模型进行微调,以在特定领域中达到最佳性能。

现在仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

Medprompt不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。45a4b74d392f0624cd1ce1c6e59e2395.jpeg研究的方法:Medprompt策略:研究中提出了一种名为“Medpromcpt”的方法,它结合了几种不同的提示策略来引导GPT-4。

Medprompt使用了三种主要技术:动态少量样本选择、自动生成的思维链(Chain of Thought,CoT)和选择重排集成(Choice Shuffle Ensembling)。

Medprompt 方法包括以下几个关键方面:

1、多样化提示:Medprompt 使用了多种不同类型的提示,以提高模型在医学领域问题上的表现。这些提示可能包括问题的不同表述、相关的背景信息、专业术语的解释等。

2、上下文学习:为了让模型更好地理解医学领域的特定上下文,Medprompt 使用了上下文学习技术。这意味着在给定的问题前后添加相关的信息,以帮助模型建立起更加全面的理解。

3、思维链条方法:这种方法鼓励模型在做出回答之前模拟一系列的思考步骤,类似于专业医生在诊断问题时的思维过程。这可以帮助模型更准确地识别关键信息并提出更合理的答案。

4、选择洗牌集成:这是一种提高模型表现的技术,它通过结合多个不同提示生成的回答来提高整体的准确性。通过这种方式,即使某些提示没有产生最佳答案,其他提示可能仍然能够提供有价值的信息。

5、跨数据集应用:Medprompt 被设计为可在多个不同的医学数据集上有效运作,从而增加了其适用性和灵活性。

这一方法的成功展示了利用创新的提示技术可以显著提升基础模型在专业领域的能力,从而为解决复杂问题提供了新的途径。基准测试这些技术被组合应用于不同的数据集,包括MedQA、MedMCQA、PubMedQA和MMLU的多个子集。在一项名为MedQA的研究中,使用Medprompt的GPT-4在没有集成的情况下,仅通过自动生成的CoT提示就比专家制作的CoT提示提高了3.1个百分点。

研究使用了MedQA数据集和MultiMedQA套件中的九个基准数据集来测试GPT-4在医学领域的表现。
通过这些测试,研究人员评估了GPT-4在医学知识方面的表现,并与专门为医学应用微调的模型进行了比较。

23e78bdbe699e98f17d5a7f1ce8fffdc.jpeg


性能评估研究结果显示,使用 Medprompt 的GPT-4

- 在MedQA数据集上的表现首次超过90%
- 在MultiMedQA套件的所有九个基准数据集上取得了最佳报告结果。
- 在MedQA上,与MedPaLM 2相比,GPT-4的错误率降低了27%。

dc7d42561ba94a037d93d3dbeba115d1.jpeg

Medprompt在多项基准测试中表现卓越,不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

此外,研究也进行了消融研究(Ablation Study),以评估Medprompt各组成部分的贡献度,并发现GPT-4自动生成的CoT、动态少量样本提示和选择重排集成分别对性能的提升有显著贡献。研究的意义
1、展示通用模型的领域专业性:这项研究证明了通用模型如GPT-4能够在没有特定领域微调的情况下,通过提示策略在特定领域(如医学)展现出专家级的能力。
这对于自然语言处理(NLP)领域是一个重要的进步,因为它表明通用模型可以通过适当的提示策略而不是通过昂贵的专门训练来适应特定的应用场景。

2、减少资源和成本:传统上,要使模型在特定领域表现出色,需要对其进行专门的微调,这通常涉及到使用专家标注的数据集和大量的计算资源。通过有效的提示策略,可以减少这种需求,从而为中小型组织提供了使用高级AI技术的可能性。

3、跨领域的应用潜力:研究还表明,这种提示方法在多个领域的专业能力考试中都显示出价值,这意味着其应用潜力不限于单一领域。

官方介绍:https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/论文:https://arxiv.org/abs/2311.16452

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1274167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅聊代理(应用部署)

以前很少接触过项目的上线部署, 我对前后端交互的认知还停留在前端一个请求 对应后端一个API 比如后端提供: /api/backend/categories -GET 前端则通过使用ajax或者axios组件去构建http请求, 发送到: https://host:port/api/backend/categories -GET 一、…

11-22 SSM3

书城分页查询 使用mybatis分页插件: 请完成登陆注册 -> 跳转到首页 解决前端上架时间点击切换 以及侧边栏点击由背景颜色的改变 完成超链接的绑定点击时间 -> jquery $(document).ready(function() { // 初始化上架时间状态为 true(上架&…

SQL server 基线安全加固操作

账号管理、认证授权 ELK-Mssql-01-01-01 编号 ELK-Mssql-01-01-01 名称 为不同的管理员分配不同的账号 实施目的 应按照用户分配账号,避免不同用户间共享账号,提高安全性。 问题影响 账号混淆,权限不明确,存在用户越权使用的可能。 …

【Serverless架构组成及优势适用场景】

目录 引言 一、无服务器函数(Serverless Functions) 二、事件驱动(Event-Driven) 三、自动扩展(Auto Scaling) 四、按需计费(On-Demand Billing) 五、无状态(State…

云轴科技ZStack信创云平台助力国泰君安期货实现信创改造

信创是数字中国建设的重要组成部分,也是数字经济发展的关键推动力量。作为云基础软件企业,云轴科技ZStack 产品矩阵全面覆盖数据中心云基础设施,ZStack信创云首批通过可信云《一云多芯IaaS平台能力要求》先进级,是其中唯一兼容四种…

DS八大排序之直接选择排序和堆排序

前言 上一期我们已经介绍了,排序、为什么要有排序以及排序在实际生活中的应用。并且介绍并实现了直接插入排序和它的优化即希尔排序~!本期我们再来学习一组排序 ---- "选择排序"即直接选择排序和堆排序~! 本期内容介绍 直接选择排…

使用 SDKMAN 管理多版本本地 Java 环境---Centos8 Windows

文章目录 windows 安装centos8 安装卸载sdkman使用 windows 安装 SDKMAN是一个 jdk 多版本管理工具,类似于 nodejs 中的 nvm。可以在本地存在多个 java 环境,快速切换功能,同时,他不止于 java sdk,还有maven、tomcat等…

(四)基于高尔夫优化算法GOA求解无人机三维路径规划研究(MATLAB代码)

一、无人机模型简介: 单个无人机三维路径规划问题及其建模_IT猿手的博客-CSDN博客 参考文献: [1]胡观凯,钟建华,李永正,黎万洪.基于IPSO-GA算法的无人机三维路径规划[J].现代电子技术,2023,46(07):115-120 二、高尔夫优化算法GOA简介 高尔夫优化算法…

C语言二叉树与堆的实现(一)

目录 二叉树 二叉树的分类(目前只谈两种) 满二叉树 完全二叉树 二叉树的性质(其余的可以自己总结) 选择练习 二叉树的存储结构 顺序存储方式 链式存储方式 一种完全二叉树:堆 堆的概念 堆的性质 建堆的时…

如何在服务器上运行python文件

目录 前置准备 详细步骤 一,在服务器安装Anaconda 下载安装包 上传文件到服务器 安装环境 二,创建虚拟环境 创建环境 三,测试执行python文件 执行python文件 查看进程状态 总结 前置准备 如何在个人服务器上运行python文件&#x…

熟悉SVN基本操作-(SVN相关介绍使用以及冲突解决)

一、SVN相关介绍 1、SVN是什么? 代码版本管理工具它能记住你每次的修改查看所有的修改记录恢复到任何历史版本恢复已经删除的文件 2、SVN跟Git比,有什么优势 使用简单,上手快目录级权限控制,企业安全必备子目录checkout,减少…

vivado实现分析与收敛技巧2-创建智能设计运行

智能设计运行 (IDR) 是基于标准实现运行创建的。在“ Design Runs ” ( 设计运行 ) 窗口中 , 右键单击实现运行 , 然后选择“Close Timing using Intelligent Design Runs ” ( 使用智能设计运行收敛时序 &#xff09…

深度学习手势检测与识别算法 - opencv python 计算机竞赛

文章目录 0 前言1 实现效果2 技术原理2.1 手部检测2.1.1 基于肤色空间的手势检测方法2.1.2 基于运动的手势检测方法2.1.3 基于边缘的手势检测方法2.1.4 基于模板的手势检测方法2.1.5 基于机器学习的手势检测方法 3 手部识别3.1 SSD网络3.2 数据集3.3 最终改进的网络结构 4 最后…

C++调用python: VS2017 + Anaconda + pypi第三方库

步骤一:在Anaconda中创建虚拟环境 这一点对大家来说应该很简单,简单介绍一下,不做过多解释。值得注意的是,要用conda命令创建环境,用pip install配置环境。 conda create -n c_python_env python3.9 # 用conda创建pyt…

Java 的第二十章:多线程

创建线程 继承Thread 类 Thread 类时 java.lang 包中的一个类,从类中实例化的对象代表线程,程序员启动一个新线程需要建立 Thread 实例。 Thread 对象需要一个任务来执行,任务是指线程在启动时执行的工作,start() 方法启动线程&am…

Docker 使用心得

创建一个docker 镜像,相关运行代码,放在docker镜像文件同级, pm2 不能与 docker一起使用() # node 服务docker FROM node:10.16.3LABEL author"sj"RUN mkdir -p /var/nodeCOPY ./node /var/nodeWORKDIR /va…

Vue实现图片预览(Viewer.js)

摘要: vue项目开发中遇到一个图片预览的需求,可以切换下一张,就是花里胡哨的,所以找viewer.js的插件 npm install v-viewer -S在项目main.js中加入: Viewer.setDefaults用于更改默认配置,比如我不想要显示…

基于AT89C51单片机的倒数计时器设计

1.设计任务 利用AT89C51单片机为核心控制元件,设计一个简易的数字电压表,设计的系统实用性强、操作简单,实现了智能化、数字化。 本设计采用单片机为主控芯片,结合周边电路组成LED彩灯的闪烁控制系统器,用来控制红色…

Paraformer 语音识别原理

Paraformer(Parallel Transformer)非自回归端到端语音系统需要解决两个问题: 准确预测输出序列长度,送入预测语音信号判断包含多少文字。 如何从encoder 的输出中提取隐层表征,作为decoder的输入。 采用一个预测器(Predictor&…