大模型 LLM 综述, A Survey of Large Language Models

news2024/12/24 2:40:12

大模型 LLM 综述, A Survey of Large Language Models

一、概述

一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力);
经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等;

大模型时间线, 图来自A Survey of Large Language Models,下同。
在这里插入图片描述

二、大模型,新能力

2.1 涌现

涌现, emerge(abilities), 即一般指在大模型中出现而小模型没有的能力。
一般包括上下文学习(ICL)、指令微调(IFT)、思维链(CoT)等。

2.2 指令微调(IFT)

指令微调一般可以分为两类,一种是从已知学术界等数据集构建;另外一种是构建更接近人类的,如大模型收集与手工标注。
一般认为,指令微调是通过自然语言形式给出人类指令,可以提高在未知任务上的效果(zero-shot learning)。
在这里插入图片描述

2.3 上下文学习(ICL)与思维链(CoT)

上下文学习(ICL)是指不需要微调,只需要少数几个样例作为示例,就能在未知任务上取得不错的效果(提升few-shot能力)。
思维链(CoT)是指在生成回答前,先生成中间过程(思维链),这么做会提升效果,特别是推理生成任务(尤其是数学问题)。
在这里插入图片描述

三、大模型,架构

3.1 大模型LLM基本情况(2020-2022)

大模型热潮主要时间是在2021-2022这两年,模型参数50-200B的居多,预训练Tokens在300B-1T(1-5TB corpus),GPU需要100-2000个(如A100),训练时间为1-2个月。
在这里插入图片描述

3.2 大模型LLM架构-1

大模型架构主要有Decode-Only(Causal)、Pre-LN、RoPE、GeGLU、Bais等,
L、H在100左右、d_model在1w左右、Seq大都为2048等,比较宽的模型。
在这里插入图片描述

3.3 大模型LLM架构-2

大模型LLM架构-2,其中层归一化位置有Post-LN(泛化性更好)、Pre-LN(训练更稳定)、Sandwich-LN(稳定+泛化的结合)。
层归一化方法有LayerNorm(标准LN)、RMSNorm(剔除bais减少参数与计算量)、DeepNorm(层数衰减可构建1k层)。
激活函数有Relu(梯度不会消失、阈值化计算简单)、GELU(处理负数、门控机制非线性处理大数/接近0的数、引入随即正则)、Swish、SwiGLU、GeGLU。
位置编码有Abs(绝对编码, 可训练)、Rel(相对, 展开魔改)、RoPE(相对, 引入复数)、Alibi(操控Attention、复杂)等。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KtCGL11p-1686191008683)(./survey_llm_paper/surveyLLM2023_model_v3.png)]

3.4 大模型LLM参数配置

大模型LLM的参数配置,批尺寸batch-size从32k-3.2M,学习率lr一般为10^-5级别(衰减consine decay by 10%),优化器opt一般为AdamW/Anam(warmup),
数据类型一般为FP16(或者BF16),梯度裁剪大都为1.0,Dropout大都为0.1。
在这里插入图片描述

四、大模型,数据

4.1 一些大模型预训练语料构成

一般认为,高质量预训练语料对大模型有益,所以数据清洗就很重要。来自维基百科、代码code、论文paper、书籍book、网页web等的数据。
在这里插入图片描述

五、大模型RLHF

5.1 训练大模型的方法, RLHF全流程

有监督微调(SFT) --> 奖励模型训练(RMT) --> 强化学习(对齐,基于RM、PPO)
在这里插入图片描述

参考

  • A Survey of Large Language Models
  • ChatGPT的前世今生
  • 2022年NLP突破进展
  • RWKV-LM
  • ChatRWKV
  • PromptCLUE
  • ChatYuan
  • ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习
  • ChatGPT评测观察之对话能力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/622760.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能python:Python绘图教程:将画笔移动到绝对位置的方法

Python绘图教程:将画笔移动到绝对位置的方法 Python作为一门高级编程语言,设计初衷是让编程变得简单、易学、易用,且支持多种编程范式,其中产生了让人惊艳的绘图模块——Turtle(海龟)。 在这篇教程中&…

Mybatis-plus代码生成器

官网:MyBatis-Plus (baomidou.com) 顾名思义,就是它为你生成代码,这里可以为你生成Entity、Mapper、MapperXML、Service、controller等各个模块的代码,极大的提升开发效率 环境:mysql8.0.24、mybatis-plus3.5.3.1、spr…

<<Linux多线程服务端编程>>学习之栏1————线程安全的对象生命期管理

线程安全的对象生命期管理 此章节开头的前两句话,把我点醒,原来思考功力可以这么深厚!如下: 第一句话: 编写线程安全的类不是难事, 用同步原语保护内部状态即可; 第二句话: 但是对…

【论文阅读】ControlNet

简介 目标:加入额外的条件(例如边缘图像,深度图像)控制生成的图像 现有挑战 特定领域上的数据较少,而预训练模型很大,很容易出现过拟合的情况。在资源有限的情况下,只能选择pretrain- finetun…

传统工业制造企业如何实现数字化转型?

传统工业制造企业如何实现数字化转型,以数字驱动、实现高价值管理? 传统企业实现数字化转型是一条很漫长但不得不走的道路,看到这个问题下有很多专业人士对传统企业如何做数字化转型都提出了专业的见解,所以这篇就以传统制造业为…

用ChatGPT来写高考作文,看看效果!

又是一年高考日,今天高考作文题目一出来,很多人第一时间就用AI进行写作,我这边也用gpt3和4分别生成了一篇文章,没有给他投喂范文,把要求和题目的prompt给它,让它分析和写作,来看看效果吧。 GPT4…

学习态度记录JRebel本地验证

学习态度记录JRebel本地验证 网上有两种方式。 1、直接使用其他同学提供好的远程服务器验证地址(可自行搜索) 2、设置本地反向代理,激活JRebel ps:我的IDEA升级到2023.1.2后无法使用第一种方式了。搜了半天网上都是基于windows环境的教程解说&#xff0…

html 原生js手写树 仿照antd 样式

效果如图 <!doctype html> <html><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width, initial-scale1.0"…

百度Apollo视频学习笔记

APOLLO视频学习笔记 一、总览 无人驾驶车的运作方式 五个核心部件&#xff1a; 计算机视觉&#xff1a;弄清楚周围的世界是怎样的传感器融合&#xff1a; 合并来自其他传感器的数据&#xff0c;如激光和雷达&#xff0c;更加深入了了解我们周围的环境定位&#xff1a;精确地…

一级建造师执业资格考试--工程法规--速学36记--联想法

第一记&#xff1a;法的效力层级 第二记&#xff1a;法人的分类 【速记方法】口诀&#xff1a;赚钱营利和特别 关键词&#xff1a;营利、特别 【速记内容】 1、营利法人:以取得利润并分配给股东等出资人为目的成立的法人,为营利法人; 如有限责任公司、股份有限公司。经依法登记…

什么牌子电容笔性价比高?iPad触屏笔推荐

电容笔已经成为日常生活中不可或缺的一部分。它可以用于书写&#xff0c;绘画&#xff0c;甚至玩游戏。使用电容笔可以代替传统无纸化书写&#xff0c;提高工作效率。市面上有许多不同价格的电容笔品牌可供选择。本文将介绍四款性价比高的平替电容笔&#xff0c;有需要入手的小…

常用的三种拖拽方法(内置方法 + 接口 + Event Trigger组件)

前言 在Unity中实现拖拽的方法有多种&#xff0c;以下是几种常见的方法和它们的优缺点&#xff1a; Input.GetMouseButtonDown Input.GetMouseButtonDown 方法可以监测用户鼠标按键的点击事件&#xff0c;通过检测鼠标按钮的状态来实现拖拽效果。用户通过鼠标进行拖拽操作。…

Web基本概念

一、前言 World Wide Web的简称&#xff0c;是一个由许多互相链接的超文本组成的系统&#xff0c;通过互联网访问 &#xff08;为用户提供信息&#xff09; 静态网页 仅适用于不能经常更改内容的网页&#xff1b; 动态网页 网络编程技术创建的页面&#xff1b;通过在传统的静态…

MongoDB安装与使用

目录 一、MongoDB介绍与安装 什么是MongoDB 为什么要用MongoDB MongoDB下载 MongoDB安装完成 二、MongoDB Compass MongoDB Compass使用 三、使用mongoose连接数据库 使用MongoDB Compass 创建数据库 使用mongoose 连接数据库 每日一课&#xff1a;MongoDB 常用命令…

Vue项目打包dist目录介绍

如下 CSS目录&#xff1a; ① .css文件是项目要用到的css文件,当你做webpack打包的时候&#xff0c;会把所有的css样式打包到这里 ② .css.map文件是一个Source map文件&#xff0c;Source map就是一个信息文件&#xff0c;里面储存着位置信息。也就是说&#xff0c;转换后的代…

ChatGPT扩展系列之使用pandora本地搭建ChatGPT

ChatGPT扩展系列之使用pandora本地搭建ChatGPT 1. 为什么要本地搭建 主要解决使用上的几个痛点,我们可以看一下下面就是我们最常遇到的几个问题,这里我们重点提一下就是我们本地搭建好了之后,我们获取Access Token,这个Token的有效期长达14天,也就是这14天中,我们都不需…

【沐风老师】3DMAX径向对称插件使用方法应解

3DMAX径向对称插件使用教程 3DMAX径向对称插件&#xff0c;允许你对径向结构建模并查看最终结果。它的功能类似于3dMax自带的“对称”修改器&#xff0c;但它可以在三个轴的任意角度径向对象&#xff0c;这可以创造出很多我们意想不到的建模艺术效果&#xff0c;也可以理解它是…

【前端 - HTML】第 6 课 - 表单标签

欢迎来到博主 Apeiron 的博客&#xff0c;祝您旅程愉快 &#xff01; 时止则止&#xff0c;时行则行。动静不失其时&#xff0c;其道光明。 目录 1、缘起 2、表单标签 2.1、input 标签基本使用 2.2、input 标签占位文本 2.3、单选框 radio 2.4、上传文件 2.5、多选框 …

Vue.js中的动态组件和异步组件

Vue.js中的动态组件和异步组件 在Vue.js中&#xff0c;动态组件和异步组件是两个常用的技术&#xff0c;用于处理动态加载和渲染组件的需求。虽然它们都可以实现动态加载和渲染组件的功能&#xff0c;但它们的实现方式和使用方法有所不同。本文将详细介绍Vue.js中的动态组件和…

短视频账号矩阵系统技术开发难度之.框架底层逻辑

申请流程&#xff1a;注册官方开放平台账号----申请服务商-----关联应用----申请权限-----等待审核通过 接入开发------开发功能列表&#xff1a; 数据归纳箱&#xff08;账号数据对比概览内含视频总数、播放总数、点赞总数、分享总数、粉丝总数数据统计概览统计&#xff09;…