14 大模型微调-KitTrain

news2024/12/25 16:16:24

1 介绍

如何降低占用的显存:

  1. 梯度累计:在一个完整的模型更新周期(epoch)中,将多个小批量(mini-batches)的数据的梯度进行累加,然后在一个较大的批量(累积步数)之后进行一次模型参数更新。
  2. 梯度检查点;
  3. 优化器;
  4. 冻结模型参数;
  5. 参数高校微调;

但是模型本身的参数并无改变!

     之前提到的大模型微调技术都是冻结原模型的参数,然后添加额外的参数进行训练微调。下面我们针对大模型参数进行修正:比如4个字节的单精度调整为2个字节的;K-bit 训练是一种优化技术,主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度(如8位或更低)来存储和计算模型的权重,从而降低内存需求和加速训练过程。在深度学习领域,常见的低精度训练技术包括8位量化训练(8-bit training)和混合精度训练(Mixed Precision Training)。

1.1 K-bit 训练的主要形式

  1. 8位量化训练(8-bit Training)

    • 在8位量化训练中,模型的权重被量化为8位整数(int8),从而大幅减少内存占用。
    • 为了保持训练的准确性,通常会在前向传播时将量化后的权重反量化回高精度,然后在反向传播时使用高精度梯度进行更新。
  2. 混合精度训练(Mixed Precision Training)

    • 混合精度训练是一种使用不同精度表示模型的不同部分的技术。
    • 通常情况下,模型的权重使用16位浮点数(FP16)表示,而梯度累积和优化器状态使用32位浮点数(FP32)表示。
    • 这种技术已经在许多现代深度学习框架中得到广泛应用,如NVIDIA的 Apex 库。

1.2 K-bit 训练的优势

  • 减少内存占用:使用低精度表示可以显著减少模型的内存占用。
  • 加速训练:低精度计算通常比高精度计算更快,尤其是在支持硬件加速(如GPU)的情况下。
  • 节省计算资源:在分布式训练中,减少通信带宽需求,提高整体训练效率。

2 参数&显存

单精度(4个字节)-> 半精度(2字节)

b16取值范围: 

2**(-24) = 5.960464477539063e-08, 低于这个范围的小数,会取零!

FP16的格式

  • 符号位(Sign bit):1位
  • 指数位(Exponent bits):5位
  • 尾数位(Fraction bits):10位
编码规则
  • 指数偏移量(Exponent bias):15
  • 指数范围:2**5=32 个不同的值,即从 0 到 31,实际有效的指数范围是从(2**(5-1) - 1) −14到 15。

  • 尾数(Mantissa):10位尾数位可以表示 2**10=1024 个不同的值。

取值范围

正常数值

正常数值指的是既不是特殊值也不是无穷大或NaN的情况。对于FP16,正常数值的取值范围如下:

 2**(-10) * 2**(-14) 

  • 最小非零负数:: -65504。

  • 最大负数:与最大正数的绝对值相同,但符号相反: -5.960464477539063×10−8。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098520.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MYSQL基础练习题 619.只出现一次的最大数字 (力扣)

619.单一数字 是在 MyNumbers 表中只出现一次的数字。 找出最大的 单一数字 。如果不存在 单一数字 ,则返回 null 题目链接: https://leetcode.cn/problems/biggest-single-number/ 建表插入数据: Create table If Not Exists MyNumber…

4个方法快速恢复电脑删除文件

随着电脑的普及,我们越来越多地将重要数据存储在电脑中。然而,数据丢失的风险也随之增加。当您意外删除文件、格式化硬盘或遇到系统崩溃等情况时,如何恢复丢失的数据成为了一个待解决的问题。 一、回收站恢复 首先,最简单的恢复方…

心理咨询展示型网站渠道拓展服务

心理问题长期以来都受到关注,每个城市里也都有相关服务商家,除了进店外,线上也可以开展咨询服务,对需求者来说需要找到靠谱的品牌,而商家也需要触达到更多客户获取转化。 网站是品牌线上工具,利于商家通过…

搭建nmt部署考试系统

搭建nmt nginx --下载镜像,启动镜像,将本地的dist项目的目录挂载在容器的/usr/share/nginx/html --启动服务 --前后端分离的项目,并非所有的请求都是来自与同一个位置,设置请求的时候还是需要在hosts文件中挟持域名 --域名是…

如何通过选择合适的编程工具来提升编程效率

前言 在现代软件开发中,选择合适的编程工具和环境至关重要,它们能够帮助开发者大幅提升工作效率、代码质量和项目管理水平。对于许多程序员来说,编程工具不仅仅是一个简单的编辑器,而是一个综合性的开发环境,可以优化…

[Doc][px4][ros2][gazebo][yolov8]PX4-ROS2-Gazebo-YOLOv8

GIT地址:Https://github.com/monemati/PX4-ROS2-Gazebo-YOLOv8 apt install python3.8-venv Create a virtual environment # create python -m venv /home/xg/px4-venv# activate source /home/xg/px4-venv/bin/activate Clone repository git clone https://g…

【实用干货】5大自动化测试的Python框架!

自从2018年被评选为编程语言以来,Python在各大排行榜上一直都是名列前茅。 目前,它在Tiobe指数中排名第三个,仅次于Java和C。随着该编程语言的广泛使用,基于Python的自动化测试框架也应运而生,且不断发展与丰富。 因…

博客园-awescnb插件-geek皮肤优化-表情配置

💖简介 博客园-awescnb插件-geek皮肤下,表情配置及优化 🔗链接 官方配置:https://www.yuque.com/awescnb/user/rycpvv#KwRr4 官方配置文档 在线Emoji:https://tool.itzd.cn/ 在线获取Emoji表情 🔧配置 …

「Python程序设计」基本数据类型:字典

在python编程语言中,字典是一个名值对的组合的集合。也就是说,字典中的数据元素,都是通过名称和数值的形式出现的。字典这种数据结构,类似于C语言中的struct结构体,以及json数据格式类型。 字典的数据结构特性&#x…

MySQL第10讲--约束的介绍

文章目录 前言约束约束的演示 外键约束删除外键外键删除/更新行为 前言 在第9讲MySQL第9讲–函数的介绍中我们主要介绍了几种mysql的内置函数:字符串函数、数值函数、流程函数、日期函数,并对这些函数中常用的几种函数做了总结,如下图所示&am…

多层数组的formdata格式提交处理

一、数据结构 二、主要代码 for (var i 0; i < this.addProjectContentReqList.length; i) {formData.append(addProjectContentReqList[ i ].contentText, this.addProjectContentReqList[i].contentText);for (var k 0; k < this.addProjectContentReqList[i].co…

《深入理解JAVA虚拟机(第2版)》- 第7章 - 学习笔记

第7章 虚拟机类加载机制 7.1 概述 类的加载机制是&#xff1a;虚拟机将描述类的数据从Class文件中读取到内存中&#xff0c;再对这些数据进行检验、转换解析、初始化&#xff0c;最终生成一个可以被虚拟机直接使用的数据类型。之所以称Java是动态加载和动态连接&#xff0c;是…

如何在Windows系统上安装和配置Git客户端

&#x1f600;前言 在这篇博文中&#xff0c;我将为大家介绍如何在Windows系统上安装和配置Git客户端&#xff0c;包括Git for Windows和TortoiseGit。这些工具是进行版本控制管理的必备工具&#xff0c;特别适合开发者在日常工作中使用。通过这篇文章&#xff0c;您将学会如何…

开放式耳机的优缺点?音质好吗?分享四款开放式蓝牙耳机

作为蓝牙耳机的重度使用患者&#xff0c;我认为开放式耳机音质的好坏取决的因素有好多&#xff0c;包括不同的品牌、不同的‌型号及不同的产品所采用的声学技术&#xff0c;而且开放式耳机的音质好不好也是取决使用者的需求的&#xff0c;有些开放式耳机能提供更清晰的人声音频…

为量产而设计:自动驾驶车辆激光雷达旋转外参在线标定与异常排除策略

更多精彩内容&#xff0c;请关注公众号&#xff1a;智驾机器人技术前线 1.论文信息 论文标题&#xff1a;Fault Detection and Exclusion for Robust Online Calibration of Vehicle to LiDAR Rotation Parameter 作者&#xff1a;Jiwon Seok, Chansoo Kim, Paulo Resende, B…

黑马点评4——优惠券秒杀—分布式锁

文章目录 分布式锁什么是分布式锁分布式锁的实现基于redis实现分布式锁分布式锁初级版本redis分布式锁的误删问题分布式锁的原子性问题lua脚本解决多条命令原子性问题Java调用lua脚本改进redis的分布式锁分布式锁-Redisson功能介绍分布式锁-Redisson快速入门Redisson可重入原理…

vue3+vant4父组件点击提交并校验子组件form表单

先看效果 代码如下 父组件 <template><ChildForm ref"childFormRef" /><button click"validateForm">校验表单</button> </template> <script setup> import { ref } from vue; import ChildForm from ./ChildForm.…

【Python系列】异步任务的终止

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

如何在S7-200 SMART CPU断电后保持高速计数器的当前值

1、首先是问题描述 S7-200 SMART的断电数据保持不支持高速计数器的范围设置&#xff0c;因此高速计数器的当前值在CPU每次断电后都会复位为数值0。要使S7-200 SMART高速计数器的当前值在CPU断电重启后依然保持&#xff0c;可以通过以下的编程来实现。 在此以通过向导生成高速…

MapStruct-Java实体转换利器

MapStruct-Java实体转换利器 MapStruct 概述MapStruct 使用例子UserDTOUserEntityUserDTOConverter ( mapstruct 接口)UserModelConverterImpl &#xff08;自动生成&#xff09;Service 层使用 MapStruct 概述 MapStruct 是一个用于生成映射器接口的代码生成库&#xff0c;主…