LLM文章阅读:Baichuan 2 干货

news2025/1/17 2:56:38

如有转载,请注明出处。欢迎关注微信公众号:低调奋进。打算开始写LLM系列文章,主要从数据、训练框架、对齐等方面进行LLM整理。

Baichuan 2: Open Large-scale Language Models

原始文章链接

https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf

github

https://github.com/baichuan-inc

hugginggface 

https://huggingface.co/baichuan-inc


训练LLM的同行可以精读文章llama、llama2和baichuan2等文章,干货较多。本文不做翻译,主要罗列个人关注的重点。阅读本文的前提是已经对LLM熟悉,最好已经积累一定训练经验。本文干货较多,有的实验可以作为自己试验的指向标。

同时想阅读LLM的综述文章可以读以下文章:

A Survey of Large Language Models

https://arxiv.org/pdf/2303.18223.pdf

Large Language Models

https://arxiv.org/pdf/2307.05782.pdf

A Comprehensive Overview of Large Language Models

https://arxiv.org/pdf/2307.06435.pdf

A Survey on Evaluation of Large Language Models

https://arxiv.org/pdf/2307.03109.pdf

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

https://arxiv.org/pdf/2303.10475.pdf

模型名称

Baichuan 2-7b, Baichuan 2-13b,
Baichuan 2-7b-Chat, Baichuan 2

模型大小

7b, 13b

支持语言

多语言

模型具体参数

预训练数据

2.6 T tokens

模型tokenizer

预训练数据分类占比

预训练数据处理流程

预训练改进点

NormHead, Max-z loss

模型

SwiGLU、xFormers、RMSnorm

训练框架

Megatron-LM + deepspeed(zero3)

预训练参数

BFloat16、AdamW(β1=0.9,  β2=0.95,warm_up=2000, lr=2e-4(7b),1.4e-4(13b)

训练硬件

1024 *A800 (80G)

对齐SFT数据

100k sft (人工标注校验)

Safety工作

Pretraining stage, alignment stage

对齐RLHF流程

实验一:NormHead

实验二:7b, 13b预训练 loss

 

实验三:Scaling Laws

 


 

实验四:同尺寸预训练模型对比

实验五:同尺寸预训练模型垂直领域对比

实验六:预训练多语种

实验七:Safety 评估

实验八:chat模型safety评估

实验九:训练过程评估

训练风向标



 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/985583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Element Plus table formatter函数返回html内容

查看 Element Plus table formatter 支持返回 类型为string 和 VNode对象; 若依全局直接用h函数,无需引用 下面普通基本用法:在Element Plus中,你可以使用自定义的formatter函数来返回VNode对象,从而实现更灵活的自定…

FasterNet(PConv)paper笔记(CVPR2023)

论文:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks 先熟悉两个概念:FLOPS和FLOPs(s一个大写一个小写) FLOPS: FLoating point Operations Per Second的缩写,即每秒浮点运算次数,或…

Pytorch实现鸟类品种分类识别(含训练代码和鸟类数据集)

Pytorch实现鸟类品种分类识别(含训练代码和鸟类数据集) 目录 Pytorch实现鸟类品种分类识别(含训练代码和鸟类数据集) 1. 前言 2. 鸟类数据集 (1)Bird-Dataset26 (2)自定义数据集 3. 鸟类分类识别模型训练 (1&a…

核心实验13合集_vlan mapping 和QinQ_ENSP

项目场景一: 核心实验13合集-1_vlan高级配置_ENSP vlan mapping vlan转换 将用户端发来的vlan30-31的标签全部转换成vlan100向上发送 相关知识点: 定义: VLAN Mapping通过修改报文携带的VLAN Tag来实现不同VLAN的相互映 射。 目的: 在某些场景中&#xf…

c语言数组的用法

c语言数组的用法如下: 一维数组的定义方式 在C语言中使用数组必须先进行定义。一维数组的定义方式为: 类型说明符 数组名 [常量表达式]; 其中,类型说明符是任一种基本数据类型或构造数据类型。数组名是用户定义的数组标识符。方括号中的常量表…

原生js之dom表单改变和鼠标常用事件

那么好,本次我们聊聊表单改变时如何利用onchange方法来触发input改变事件以及鼠标常用的滑入滑出,点击down和点击up事件. 关于onchange方法 onchange方法在鼠标输入完后点击任何非输入框位置时触发.触发时即可改变原有输入框的值. out 、leave、over、down、up鼠标方法 当用…

YOLOV7改进-空洞卷积+共享权重的Scale-Aware RFE

代码 1、先把文件复制到common.py中 2、yolo.py添加类名 3、下半部分进行添加修改 4、cfg-training:新建配置文件 加了一行,后面对于序号1 5、这里选择12层替代

软件第三方测评机构简析:良好的测试环境对软件产品起到的作用

近年来,软件行业发展迅速,软件产品的质量成为用户关注的焦点。而软件的质量评估往往需要依赖专业的第三方测评机构,为了更好地了解软件测试环境对产品质量的重要性,小编整理了以下简析: 一、良好的测试环境对软件产品…

Redis是单线程Or多线程?单线程为什么反而快?

0. 从什么角度看是单线程or多线程 从总体角度来,redis是单线程的: Redis 单线程指的是: 「接收客户端请求->解析请求 ->进行数据读写等操作->发送数据给客户端」 这个过程是由一个线程(主线程)来完成的…

【Leetcode刷题】哈希

本篇文章为 LeetCode 哈希模块的刷题笔记,仅供参考。 哈希表是一种使用哈希函数组织数据,以支持快速插入和搜索的数据结构。哈希表通过哈希函数通过将任意类型的数据映射到固定大小的数据,以实现快速查找和存储数据。C 中的无序容器 unorder…

音视频编码格式-AAC ADT

1408(16进制) : 0001 0100 0000 1000 audioObjectType为 00010 , 即 2, profie (audioObjectType -1 ) AAC LC samplingFrequencyIndex为 1000 , 即 8 , 对应的采样频率为 16000 channelConfiguration为 0001 , 表示channel数量为1

10、哈希函数与哈希表

哈希函数 出现次数最多的 32G 小文件方法:利用哈希函数在种类上均分 设计RandomPool结构 设计一种结构,在该结构中有如下三个功能: insert(key):将某个key加入到该结构,做到不重复加入 delete(key):将原本在结构中的某个key移除 getRando…

电商3D资产优化管线的自动化

如果你曾经尝试将从 CAD 程序导出的 3D 模型上传到 WebGL 或 AR 服务,那么可能会遇到最大文件大小、永无休止的进度条和糟糕的帧速率等问题。 为了创作良好的在线交互体验,优化 3D 数据的大小和性能至关重要。 这也有利于你的盈利,因为较小的…

识别评估项目风险常用6大方法

提前识别和评估项目风险,有助于风险预防和规避,从而提前采取预防措施,有效避免和减少风险的发生,防止风险进一步扩大和恶化。如果没有提前识别风险,没有及时处理风险问题,往往造成项目交付延迟、成本超支等…

实时监测与优化:3D车辆状态可视化的崭新前景

当谈到车辆状态可视化时,我们进入了数字化时代的新境界。这不仅是一种技术革命,更是一种全新的智能化管理方式,为车辆运营提供了前所未有的便利和效率。以下是3D车辆状态可视化的一些关键方面,以及它如何改变了我们的交通和物流管…

RT-DETR个人整理向理解

一、前言 在开始介绍RT-DETR这个网络之前,我们首先需要先了解DETR这个系列的网络与我们常提及的anchor-base以及anchor-free存在着何种差异。 首先我们先简单讨论一下anchor-base以及anchor-free两者的差异与共性: 1、两者差异:顾名思义&…

《TCP/IP网络编程》阅读笔记--域名及网络地址

目录 1--域名系统 2--域名与 IP 地址的转换 2-1--利用域名来获取 IP 地址 2-2--利用 IP 地址获取域名 3--代码实例 3-1--gethostbyname() 3-2--gethostbyaddr() 1--域名系统 域名系统(Domain Name System,DNS)是对 IP 地址和域名进行相…

三分钟,教你做出领导满意的可视化报表

数字化已然成为社会发展的共识,企业想要在未来的竞争中占据优势,获取不断发展的数字经济,就必须将数据看作企业的战略资源,利用数据可视化将数据转化为信息,促进企业发展。 数据可视化是什么 在早期数据分析领域&…

业务安全情报第22期 | 不法分子为何盗刷企业短信?

目录 手机短信的重要性 手机短信接口被攻击的危害 社交App短信遭遇疯狂盗刷 社交App该如何防控威胁 规则上的防护措施 技术上的防护措施 近期监测发现,某知名社交平台遭遇黑灰产大规模注册账号,账号短信接口被疯狂盗用。不仅影响正常用户操作&…

TSINGSEE青犀AI视频分析/边缘计算/AI算法·人脸识别功能——多场景高效运用

旭帆科技AI智能分析网关可提供海量算法供应,涵盖目标监测、分析、抓拍、动作分析、AI识别等,可应用于各行各业的视觉场景中。同时针对小众化场景可快速定制AI算法,主动适配大厂近百款芯片,打通云/边/端灵活部署,算法一…