LLM-chatgpt训练过程

news2026/2/12 10:36:56

流程简介

主要包含模型预训练和指令微调两个阶段
- 模型预训练：搜集海量的文本数据，无监督的训练自回归decoder；
  $O_T=P(O_{t<T})$ ，损失函数CE loss
- 指令微调：在输入文本中加入任务提示，
  - 输入 “翻译文本为英文：无监督训练。译文：”，让模型输出 “Non-supervised”
  - 也是一个自回归训练的过程，损失函数和预训练一样，但是输入数据是有范式的。

指令微调

在这里插入图片描述

指令微调一般分成三个阶段
- 从用户那里收集到大量的问题，邀请专业的人士给出高质量的答案，然后用这些数据fine-tune生成模型；
- 让训练过的生成模型基于用户问题给出多次答案，并邀请真人对答案的质量进行打分，这些打分的数据用户训练reward model；
- 生成模型+reward model串起来，就可以自己生成答案，自己评价结果的好坏，不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/929658.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

注解和class对象和mysql

注解 override 通常是用在方法上的注解表示该方法是有重写的 interface 表示一个注解类比如 public interface override{} 这就表示是override是一个注解类 target 修饰注解的注解表示元注解 deprecated 修饰某个元素表示该元素已经过时了 1.不代表该元素不能用了&…

开源项目的社区建设与管理

🌷🍁 博主猫头虎带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺 &a…

Spring boot如何工作

越来越方便了 java技术生态发展近25年，框架也越来越方便使用了，简直so easy！！！我就以Spring衍生出的Spring boot做演示，Spring boot会让你开发应用更快速。快速启动spring boot 请参照官网 Spring | Quic…

开源与云计算：新的合作模式

用QT实现MVP模式

近些天用qt 作项目,遇到参数界面.偷闲写个mvp模式示例. mvp模式重要的有两点 1 低耦合: 界面与后端数据类,不直接引用,可方便替换. 2 形成界面驱动-界面更新的闭环.:通过函数指针类技术,让数据自动回流. MVP (Model-View-Presenter) 视图（View）: 接…

本地私有仓库、harbor私有仓库部署与管理

本地私有仓库、harbor私有仓库部署与管理一、本地私有仓库1.本地私有仓库简介2.搭建本地私有仓库3.容器重启策略介绍二、harbor私有仓库部署与管理1.什么是harbor2.Harbor的特性3.Harbor的构成4.harbor部署及配置5.客户端测试三、Harbor维护1.创建2.普通用户操作私有仓库3.日…

python进行数据分析：数据预处理

六大数据类型见python基本功 import numpy as np import pandas as pd数据预处理缺失值处理 float_data pd.Series([1.2, -3.5, np.nan, 0]) float_data0 1.2 1 -3.5 2 NaN 3 0.0 dtype: float64查看缺失值 float_data.isna()0 False 1 …