NLP_“预训练+微调大模型”模式和Prompt/Instruct模式的异同

NLP_“预训练+微调大模型”模式和Prompt/Instruct模式的异同

news2025/3/14 3:10:05

文章目录

“预训练+微调大模型”的模式
以提示/指令模式直接使用大模型
“预训练+微调大模型”模式和Prompt/Instruct模式的异同
小结

“预训练+微调大模型”的模式

经过预训练的大模型所习得的语义信息和所蕴含的语言知识，很容易向下游任务迁移。NLP应用人员可以根据自己的需要，对模型的头部或者部分参数进行适应性的调整，这通常涉及在相对较小的有标注数据集上进行有监督学习，让模型适应特定任务的需求。这就是对预训练模型的微调(Fine-tuning，有时也译为精调)。微调过程相对于从头训练一个模型要快得多，且需要的数据量也要少得多，这使得NLP 应用人员能够更高效地开发和部署各种NLP解决方案。
在这里插入图片描述
这种“预训练+微调大模型”的模式优势明显。首先，预训练模型能够将大量的通用语言知识迁移到各种下游任务上，作为应用人员，我们不需要自己寻找语料库，从头开始训练大模型，这减少了训练时间和数据需求。

以提示/指令模式直接使用大模型

近年来，随着GPT这种生成式大型预训练模型的突飞猛进,“预训练+微调大模型”的使用模式有被一种称为“提示”( Prompt)或者说“指令”(Instruct)的使用模式所取代的趋势。

Prompt模式和Instruct模式都基于这样一种思想:在训练阶段，这些模型通过学习大量的文本数据，掌握了语言的结构、语法和一定程度的语义知识。那么，在应用阶段，通过在输入中提供恰当的信息和指导，可以引导大型预训练模型(如GPT-3)生成相关性更强且更有用的输出。这种方法可以看作与模型进行一种“对话”，用户提供输入(Prompt或Instruct)，然后模型根据输入生成相应的输出。

在这里插入图片描述
大模型本身就是知识库,里面蕴含了你所需要的信息，不一定非得微调才能解决问题，但是你得知道怎么才能把它里面的知识“调”出来。

Prompt和Instruct这两种模式的不同之处
在这里插入图片描述
Prompt和Instruct模式

Prompt 模式:输入通常是一个词或短语，模型需要根据这个提示生成自然且连贯的文本。这种方式适用于生成式任务，如文本生成、文章摘要等。
Instruct 模式:输入是一条明确的指令，要求模型完成特定任务。这种方式适用于那些需要明确指示的任务，如回答问题、解释概念等。

“预训练+微调大模型”模式和Prompt/Instruct模式的异同

在这里插入图片描述

小结

预训练+微调大模型”模式通过在特定任务上对模型进行微调，使模型更加精确地适应任务需求;
Prompt/Instruct模式则直接利用预训练模型的生成能力，通过设计合适的提示来解决问题。

选择哪种模型取决于具体的任务需求、可用数据，以及具体的任务对精确性和灵活性的需求。

学习的参考资料：
（1）书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习（pytorch）

…

（2）机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏
…

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1439211.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

阅读《极客时间 | Kafka核心技术与实战》（一）【Kafka入门】

阅读《极客时间 | Kafka核心技术与实战》（一）【Kafka入门】

阅读《极客时间 | Kafka核心技术与实战》为什么要学习Kafka消息引擎系统ABC一篇文章带你快速搞定Kafka术语我应该选择哪种Kafka？聊聊Kafka的版本号为什么要学习Kafka 如果你是一名软件开发工程师的话，掌握 Kafka 的第一步就是要根据你掌握的编程语言去…

阅读更多...

c++阶梯之类与对象（中）＜续集＞

c++阶梯之类与对象（中）＜续集＞

前文： c阶梯之类与对象（上）-CSDN博客 c阶梯之类与对象（中）-CSDN博客前言： 在上文中，我们学习了类的六个默认成员函数之构造，析构与拷贝构造函数，接下来我们来看看剩下…

阅读更多...

探讨CSDN等级制度：博客等级、原力等级、创作者等级

探讨CSDN等级制度：博客等级、原力等级、创作者等级

个人名片： 🦁作者简介：学生 🐯个人主页：妄北y 🐧个人QQ：2061314755 🐻个人邮箱：2061314755qq.com 🦉个人WeChat：Vir2021GKBS 🐼本文由…

阅读更多...

HarmonyOS 鸿蒙应用开发(九、还是蓝海，如何贡献第三方库)

HarmonyOS 鸿蒙应用开发(九、还是蓝海，如何贡献第三方库)

快来共享第三方库吧，不但可以通过分享自己的成果，可以获得来自全球开发者的技术反馈和建议，提升自身技术能力，还有助于提高个人或团队在开源社区中的知名度和影响力。在流量时代和粉丝经济时代，获得曝光度和流量密码。…

阅读更多...

Java学习16-- 面向对象学习45. 面向对象三大特征抽象类和接口

Java学习16-- 面向对象学习45. 面向对象三大特征抽象类和接口

面向对象学习4. 面向对象三大特征 1封装：高内聚(内部细节自己用，外部不能介入)，低耦合(保留很少接口给外部使用)，信息隐藏（禁止外界直接访问内部数据(private)，如需要，可通过get/set接口访问&a…

阅读更多...

微信小程序（三十八）滚动容器

微信小程序（三十八）滚动容器

注释很详细，直接上代码上一篇新增内容： 1.滚动触底事件 2.下拉刷新事件源码： index.wxml <view class"Area"> <!-- scroll-y 垂直滚动refresher-enabled 允许刷新bindrefresherrefresh 绑定刷新作用函数bindscrollto…

阅读更多...

自然语言处理（NLP）——使用Rasa创建聊天机器人

自然语言处理（NLP）——使用Rasa创建聊天机器人

1 基本概念 1.1 自然语言处理的分类 IR-BOT：检索型问答系统 Task-bot：任务型对话系统 Chitchat-bot:闲聊系统 1.2 任务型对话Task-Bot:task-oriented bot 这张图展示了一个语音对话系统（或聊天机器人）的基本组成部分和它们之间的…

阅读更多...

各款Excel、word在线预览工具对比分析以及onlyoffice预览Excel加载时间长的解决方案

各款Excel、word在线预览工具对比分析以及onlyoffice预览Excel加载时间长的解决方案

对于onlyoffice插件预览慢的问题分析： 研究了一下onlyoffice，得出以下结论！ 对于预览慢的问题，原因出在文件类型上，文件类型为低版本xls而非新版xlsx文件，onlyoffice服务器会自动将该文件转换为xlsx文件再…

阅读更多...

【大厂AI课学习笔记】1.5 AI技术领域（6）目标检测

【大厂AI课学习笔记】1.5 AI技术领域（6）目标检测

目标检测是CV中的重要场景。在图像中定位感兴趣的目标，准确判断每个目标的类别，并给出每个目标的边界框。上图是目标检测的典型应用案例。目标检测的难点是小目标的高精度检测。目前主要的应用领域是机器人导航、自动驾驶、智能视频监督、工业检测…

阅读更多...

Java 排序

Java 排序

Java 排序 1 Collection 排序 Collections类中的: sort方法可以对List对象进行排序,该方法使用自然排序，即根据元素的自然顺序进行排序。如果需要对自定义对象进行排序，需要实现Comparable接口并重写compareTo方法。Collections类还提供了一些静态方法…

阅读更多...

提速MySQL：数据库性能加速策略全解析

提速MySQL：数据库性能加速策略全解析

提速MySQL：数据库性能加速策略全解析引言理解MySQL性能指标监控和评估性能指标索引优化技巧索引优化实战案例查询优化实战查询优化案例分析存储引擎优化InnoDB vs MyISAM选择和优化存储引擎存储引擎优化实例配置调整与系统优化配置调整系统优化优化实例实战案例…

阅读更多...

NAT——网络地址转换、NAPT

NAT——网络地址转换、NAPT

网络地址转换 NAT (Network Address Translation) 1994 年提出。需要在专用网连接到互联网的路由器上安装 NAT 软件。装有 NAT 软件的路由器叫做 NAT路由器，它至少有一个有效的外部全球 IP 地址。所有使用本地地址的主机在和外界通信时，都要在 NA…

阅读更多...

【python绘图】爱心、樱花树、饼图、折线图、雷达图

【python绘图】爱心、樱花树、饼图、折线图、雷达图

一、爱心 import turtledef curvemove():for i in range(200):turtle.speed(0)turtle.right(1) # 光标向右偏1度turtle.forward(1)# 前进1pxturtle.penup() turtle.goto(0, -70) turtle.pendown()turtle.color(red) turtle.begin_fill() turtle.left(140) turtle.forward(111…

阅读更多...

计算机网络-无线通信技术与原理

计算机网络-无线通信技术与原理

一般我们网络工程师接触比较多的是交换机、路由器，很少涉及到WiFi和无线设置，但是呢在实际工作中一般企业也是有这些需求的，这就需要我们对于无线的一些基本配置也要有独立部署能力，今天来简单了解一下。一、无线网络基础 1.1 无…

阅读更多...

[设计模式Java实现附plantuml源码~行为型]请求的链式处理——职责链模式

[设计模式Java实现附plantuml源码~行为型]请求的链式处理——职责链模式

前言： 为什么之前写过Golang 版的设计模式，还在重新写Java 版？ 答：因为对于我而言，当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言，更适合用于学习设计模式。为什么类图要附上uml 因为很…

阅读更多...

详解各种LLM系列｜LLaMA 1 模型架构、预训练、部署优化特点总结

详解各种LLM系列｜LLaMA 1 模型架构、预训练、部署优化特点总结

作者 | Sunnyyyyy 整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/668698204 后台留言『交流』，加入 NewBee讨论组 LLaMA 是Meta在2023年2月发布的一系列从 7B到 65B 参数的基础语言模型。LLaMA作为第一个向学术界开源的模型，在大模型爆发的时代具有标…

阅读更多...

基于Springboot的足球社区管理系统（有报告）。Javaee项目，springboot项目。

基于Springboot的足球社区管理系统（有报告）。Javaee项目，springboot项目。

演示视频： 基于Springboot的足球社区管理系统（有报告）。Javaee项目，springboot项目。项目介绍： 采用M（model）V（view）C（controller）三层体系结构…

阅读更多...

二分算法--模板及原理总结

二分算法--模板及原理总结

二分答案首先我们看这个图： 我们需要二分的答案就是这个临界点x。什么情况下可以使用二分呢： 具有单调性（单调递增，单调递减），二段性（整个区间一分为二，一段区间满足，一…

阅读更多...

嵌入式学习之Linux入门篇笔记——7，Linux常用命令第二部分

嵌入式学习之Linux入门篇笔记——7，Linux常用命令第二部分

配套视频学习链接：http://【【北京迅为】嵌入式学习之Linux入门篇】 https://www.bilibili.com/video/BV1M7411m7wT/?p4&share_sourcecopy_web&vd_sourcea0ef2c4953d33a9260910aaea45eaec8 目录 1.mkdir 命令 2.rmdir 3.rm 命令 4.touch 命令 5.clear…

阅读更多...

【Git教程】（一）基本概念 ——工作流、分布式版本控制、版本库 ~

【Git教程】（一）基本概念 ——工作流、分布式版本控制、版本库 ~

Git教程基本概念 1️⃣ 为什么要用 Git2️⃣ 为什么要用工作流3️⃣ 分布式版本控制4️⃣ 版本库5️⃣ 简单的分支创建与合并🌾 总结在本章中，将介绍一个分布式版本控制系统的设计思路，以及它与集中式版本控制系统的不同之处。除此之外&am…

阅读更多...

推荐文章

最新文章