【大模型有哪些训练阶段？】

【大模型有哪些训练阶段？】

news2025/4/25 15:44:19

大模型（如 GPT、BERT 等）训练一般可以分为以下 三个主要阶段，每个阶段都承担着不同的职责，共同推动模型从“语言新手”成长为“多任务专家”。

🧠 一、预训练阶段（Pre-training）

📌 核心目标：

让模型学习通用语言知识和世界常识。

✅ 特点：

数据量巨大（TB级以上），通常来自网络、书籍、百科等；
无监督或自监督学习：
- BERT 使用 掩码语言模型（MLM）
- GPT 使用 自回归语言模型（Auto-regressive）

🏗️ 技术细节：

Transformer 架构为主；
大批量并行训练；
大模型参数通常达到数十亿甚至万亿级别。

🎯 目标是：

学习语法、常识、句式结构、上下文语义等 通用能力。

🧪 二、微调阶段（Fine-tuning）

📌 核心目标：

让模型适应特定任务或领域，比如情感分析、问答、摘要、代码生成等。

✅ 特点：

有监督学习（带标签数据）；
使用比预训练小得多的语料；
不同任务、领域会分别训练（可以多任务同时也可以单任务）。

🎯 效果：

提升模型在特定领域/任务中的精度和表现力，例如：

金融领域微调后擅长分析报告；
医疗微调后能更好理解临床对话。

👥 三、对齐与指令微调（Alignment / Instruction Tuning）

📌 核心目标：

让模型行为更加“人类对齐”，安全、守规、有用。

✅ 典型方法：

指令微调（Instruction Tuning）：训练模型遵循“用户指令”，例如“写一个摘要”；
人类反馈强化学习（RLHF）：
- 收集用户偏好数据（哪个回答更好）
- 用奖励模型训练一个“人喜欢的行为”策略
还有例如 DPO（Direct Preference Optimization）、RLAIF 等新技术替代 RLHF。

🎯 结果：

让模型更加 “对人友好”；
能对话、解释、拒绝危险请求。

🧩 附加阶段（可选）

阶段	描述
Continual Learning（持续学习）	保持模型随时间更新而不过时
Retrieval-Augmented Training（检索增强训练）	融合外部知识库，提升时效性和精度
蒸馏（Distillation）	将大模型能力压缩为小模型

📊 小结

阶段	核心任务	学习方式	数据类型
预训练	学习语言本体	自监督	大规模无标签
微调	学习任务技能	有监督	中小规模标注数据
对齐	适应人类期望	人类反馈+微调	偏好/指令/打分数据

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2342530.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

动手试一试 Spring Boot默认缓存管理

动手试一试 Spring Boot默认缓存管理

1.准备数据使用之前创建的springbootdata的数据库，该数据库有两个表t_article和t_comment，这两个表预先插入几条测试数据。 2.编写数据库表对应的实体类 Entity(name "t_comment") public class Comment {IdGeneratedValue(strategy Gener…

阅读更多...

Opencv图像处理：旋转、打包、多图像匹配

Opencv图像处理：旋转、打包、多图像匹配

文章目录一、图像的旋转1、使用numpy方法实现旋转1）顺时针旋转90度2）逆时针旋转90度 2、使用opencv的方法实现图像旋转1）顺时针旋转90度2）逆时针旋转90度3）旋转180度 3、效果二、多图像匹配1、模板2、匹配对象3、代码…

阅读更多...

BOM与DOM（解疑document window关系）

BOM与DOM（解疑document window关系）

BOM（浏览器对象模型） 定义与作用 BOM（Browser Object Model）提供与浏览器窗口交互的接口，用于控制导航、窗口尺寸、历史记录等浏览器行为 window：浏览器窗口的顶层对象，包含全局属性和方法&am…

阅读更多...

数据仓库建设全解析！

数据仓库建设全解析！

目录一、数据仓库建设的重要性 1. 整合企业数据资源 2. 支持企业决策制定 3. 提升企业竞争力二、数据仓库建设的前期准备 1. 明确业务需求 2. 评估数据源 3. 制定项目计划三、数据仓库建设的具体流程 1.需求分析 2.架构设计 3.数据建模 4.ETL 开发 5.…

阅读更多...

时序约束记录

时序约束记录

一、基础知识 1、fpga的约束文件为.fdc，synopsys的约束文件为.sdc。想通过fpga验证soc设计是否正确，可以通过syn工具(synplify)吃.fdc把soc code 转换成netlist。然后vivado P&R工具通过吃上述netlist、XDC 出pin脚约束、fdc时序约束三个约束来完成…

阅读更多...

基于SpringBoot的在线抽奖系统测试用例报告

基于SpringBoot的在线抽奖系统测试用例报告

一、项目背景在线抽奖系统采用前后端分离的方法来实现，同时使用了数据库来存储相关的数据，redis来缓存验证码，RabbitMQ来缓存信息队列，同时将其部署到云服务器上。前端主要有登录页、后台管理页、活动列表页，抽奖页等…

阅读更多...

26考研|数学分析：数项级数

26考研|数学分析：数项级数

数项级数这一章的开始，开启了新的关于“级数”这一新的概念体系的学习进程，此部分共包含四章的内容，分别为数项级数、函数项级数、幂级数以及傅里叶级数。这一章中，首先要掌握级数的相关概念与定义，重难点在于掌握判断…

阅读更多...

likeadmin前端请求地址配置踩坑

likeadmin前端请求地址配置踩坑

likeadmin前端本地调试执行步骤第一步：npm i 安装项目所有依赖第二步：npm run dev 启动报错，发送的请求没通，很显然请求的地址不存在第三步：查找接口请求地址配置根目录下有个.env.production.example 文件…

阅读更多...

计算机视觉——速度与精度的完美结合的实时目标检测算法RF-DETR详解

计算机视觉——速度与精度的完美结合的实时目标检测算法RF-DETR详解

概述目标检测已经取得了长足的发展，尤其是随着基于 Transformer 的模型的兴起。RF-DETR，由 Roboflow 开发，就是这样一种模型，它兼顾了速度和精度。使用 Roboflow 的工具可以让整个过程变得更加轻松。他们的平台涵盖了从上传和标…

阅读更多...

系统思考：技术与产品协同

系统思考：技术与产品协同

在《第五项修炼》中，彼得圣吉指出：组织中最根本的问题，往往不是个别人的能力，而是思维的局限和系统之间的断裂。我最近要给一家互联网公司交付系统思考的项目，客户希望技术和产品的管理者一起参加，也问我&a…

阅读更多...

面试之消息队列

面试之消息队列

消息队列场景什么是消息队列？ 消息队列是一个使用队列来通信的组件，它的本质就是个转发器，包含发消息、存消息、消费消息。消息队列怎么选型？ 特性ActiveMQRabbitMQRocketMQKafka单机吞吐量万级万级10万级10万级时效性毫秒级…

阅读更多...

通过阿里云Milvus与通义千问VL大模型，快速实现多模态搜索

通过阿里云Milvus与通义千问VL大模型，快速实现多模态搜索

本文主要演示了如何使用阿里云向量检索服务Milvus版与通义千问VL大模型，提取图片特征，并使用多模态Embedding模型，快速实现多模态搜索。基于灵积（Dashscope）模型服务上的通义千问 API以及Embedding API来接入图片、文…

阅读更多...

使用 Spring Boot Admin 通过图形界面查看应用配置信息的完整配置详解，包含代码示例和注释，最后以表格总结关键配置

使用 Spring Boot Admin 通过图形界面查看应用配置信息的完整配置详解，包含代码示例和注释，最后以表格总结关键配置

以下是使用 Spring Boot Admin 通过图形界面查看应用配置信息的完整配置详解，包含代码示例和注释，最后以表格总结关键配置： 1. 环境准备 Spring Boot 版本：2.7.x（兼容 Spring Boot Admin 2.x）Spring Boot…

阅读更多...

【计算机视觉】CV实战项目 - 基于YOLOv5与DeepSORT的智能交通监控系统：原理、实战与优化

【计算机视觉】CV实战项目 - 基于YOLOv5与DeepSORT的智能交通监控系统：原理、实战与优化

基于YOLOv5与DeepSORT的智能交通监控系统：原理、实战与优化一、项目架构与技术解析1.1 核心算法架构1.2 学术基础二、实战环境配置2.1 硬件要求与系统配置2.2 分步安装指南三、核心功能实战3.1 基础车辆计数3.2 自定义检测类别3.3 多区域计数配置四、性能优化技…

阅读更多...

17.磁珠在EMC设计中的运用

17.磁珠在EMC设计中的运用

磁珠在EMC设计中的运用 1. 磁珠的高频等效特性2. 磁珠的参数分析与选型3. 磁珠应用中的隐患问题 1. 磁珠的高频等效特性和磁环类似，低频段感性jwL为主，高频段阻性R为主。 2. 磁珠的参数分析与选型不需要太在意磁珠在100MHz时的电阻值，选型…

阅读更多...

Mediamtx与FFmpeg远程与本地推拉流使用

Mediamtx与FFmpeg远程与本地推拉流使用

1.本地推拉流启服推流 ffmpeg -re -stream_loop -1 -i ./DJI_0463.MP4 -s 1280x720 -an -c:v h264 -b:v 2000k -maxrate 2500k -minrate 1500k -bufsize 3000k -rtsp_transport tcp -f rtsp rtsp://127.0.0.1:8554/stream 拉流 ffplay -rtsp_transport tcp rtsp://43.136.…

阅读更多...

DPIN在AI+DePIN孟买峰会阐述全球GPU生态系统的战略愿景

DPIN在AI+DePIN孟买峰会阐述全球GPU生态系统的战略愿景

DPIN基金会在3月29日于印度孟买举行的AIDePIN峰会上展示了其愿景和未来5年的具体发展计划，旨在塑造去中心化算力的未来。本次活动汇集了DPIN、QPIN、社区成员和Web3行业资深顾问，深入探讨DPIN构建全球领先的去中心化GPU算力网络的战略，该网络…

阅读更多...

Visual Studio Code 使用tab键往左和往右缩进内容

Visual Studio Code 使用tab键往左和往右缩进内容

使用VSCode写东西，经常遇到多行内容同时缩进的情况，今天写文档的时候就碰到，记录下来： 往右缩进选中多行内容，点tab键，会整体往右缩进： 往左缩进选中多行内容，按shifttab&am…

阅读更多...

HTML、XHTML 和 XML区别

HTML、XHTML 和 XML区别

HTML、XHTML 和 XML 这三兄弟的区别 HTML: 老大哥，负责网页长啥样，性格比较随和，有点小错误也能容忍。XHTML: 二哥，看着像 HTML，但规矩严，是按 XML 的规矩来的 HTML，更规范。XML: 小弟，负责存储和传输数据，非常灵活，标签可以自己随便定，但规矩最严。它们仨长啥样？（…

阅读更多...

FPGA上实现YOLOv5的一般过程

FPGA上实现YOLOv5的一般过程

在FPGA上实现YOLOv5 YOLO算法现在被工业界广泛的应用，虽说现在有很多的NPU供我们使用，但是我们为了自己去实现一个NPU所以在本文中去实现了一个可以在FPGA上运行的YOLOv5。 YOLOv5的开源代码链接为 https://github.com/ultralytics/yolov5 为了在FPGA中…

阅读更多...

推荐文章

最新文章