LLM推理部署(五):AirLLM使用4G显存即可在70B大模型上进行推理

news2025/1/12 18:58:53

       众所周知,大模型的训练和推理需要大量的GPU资源,70B参数的大模型需要130G的GPU显存来存储,需要两个A100(显存为100G)。

​      在推理过程中,整个输入序列也需要加载到内存中进行复杂的“注意力”计算,这种注意力机制的内存需求与输入长度成二次方关系。

一、分层推理(Layer-wise Inference)

       分层推理是计算机科学中分而治之的基本方法。今天的大型语言模型都采用谷歌论文《Attention is all you need》中提出的多头自注意力结构,这就是人们后来所说的Transformer结构,Transformer结构如下图所示:

       大型语言模型首先是embedding投影层,之后是80个完全相同的transformer层,每个transformer层有一个LN和MLP层来预测token ID概率。

      在推理过程中,层按顺序执行,上一层的输出是下一层的输入,一次只执行一个层。因此,完全没有必要将所有层都保存在GPU内存中。我们可以在执行该层时从磁盘加载所需的任何层,进行所有计算,然后完全释放内存。这样,每层所需的GPU内存仅为一个transformer层的参数大小,即整个模型的1/80,约1.6GB。

       此外,一些输出缓存也存储在GPU内存中,最大的是KV缓存,以避免重复计算。对于70B模型,这个KV缓存大小大约是:

             2*input_length*num_layers*num_heads*vector_dim*4

输入长度为100时,此缓存=2*100*80*8*128*4=30MB GPU内存。

二、Flash Attention

       Flash attention可能是当今大型语言模型开发中最重要、最关键的优化之一,几乎所有的大型语言模型都采用该技术来优化。Flash attention思想受论文《Self-attention Does Not Need O(n²) Memory》启发,最初self-attention需要O(n²)内存(n是序列长度),论文认为实际上不需要保留O(n²)的中间结果,我们可以按顺序计算它们,不断更新一个中间结果,并丢弃其他所有结果,这将内存复杂性降低到O(logn)。

      Flash attention本质上是相似的,内存复杂度O(n)略高,但 Flash attention深度优化了cuda内存访问,实现了推理和训练的多倍加速。

       如图所示,最初的self-attention计算并存储O(n²)中间结果。Flash attention将计算拆分为许多小块,逐块计算,并将内存减少到一个块的大小。

三、模型文件共享

       原始模型文件通常被分为多个块,通常每个块10GB。我们的执行过程是一层一层的。每层只有1.6GB。如果我们基于原始10GB碎片进行加载,则每层执行都需要重新加载整个10GB文件,但仅使用1.6GB。这个过程浪费了大量用于加载和磁盘读取的内存。磁盘读取速度实际上是整个推理过程中最慢的瓶颈,所以我们希望尽可能地将其最小化。因此,我们首先对原始的HuggingFace模型文件进行预处理,并对其进行分层分割。

       对于存储,我们使用安全张量技术(https://github.com/huggingface/safetensors)。Safetensor确保存储格式和内存中格式紧密匹配,并使用内存映射进行加载以最大限度地提高速度。

四、元设备(Meta Device)

      我们使用HuggingFace Accelerate提供的Meta Device功能(https://huggingface.co/docs/accelerate/usage\\_guides/bigh\\_modeling)来实施。Meta Device是一种专门为运行超大型模型而设计的虚拟设备。当您通过Meta Device加载模型时,模型数据实际上并没有被读入,只是加载了代码,内存使用率为0。

       在执行过程中,您可以将模型的部分内容从Meta Device动态转移到CPU或GPU等真实设备。只有到那时,它才真正加载到内存中。

        使用init_empty_weights()可以通过Meta Device加载模型,代码如下:

from accelerate import init_empty_weightswith init_empty_weights():    my_model = ModelClass(...)

五、开源项目

       上述所有技术已经集成到AirLLM(https://github.com/lyogavin/anima/tree/main/air_llm)。使用参考如下:

       首先安装程序包:

pip install airllm

       像传统的Transformer模型一样执行分层推理,代码如下:

from airllm import AirLLMLlama2MAX_LENGTH = 128# could use hugging face model repo id:model = AirLLMLlama2("garage-bAInd/Platypus2-70B-instruct")# or use model's local path...#model = AirLLMLlama2("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")input_text = [        'What is the capital of United States?',    ]input_tokens = model.tokenizer(input_text,    return_tensors="pt",     return_attention_mask=False,     truncation=True,     max_length=MAX_LENGTH,     padding=True)           generation_output = model.generate(    input_tokens['input_ids'].cuda(),     max_new_tokens=20,    use_cache=True,    return_dict_in_generate=True)output = model.tokenizer.decode(generation_output.sequences[0])print(output)

       我们已经在16GB的Nvidia T4 GPU上测试了此代码。整个推理过程使用的GPU内存不足4GB。

PS:像T4这样的低端GPU的推理速度将相当慢。不太适合聊天机器人等交互式场景。更适合一些离线数据分析,如RAG、PDF分析等。目前仅支持基于Llam2的型号。

六、70B训练可以在单个GPU上进行吗?

       虽然推理可以通过分层进行优化,但训练在单个GPU上也能类似地工作吗?

       在执行下一个transformer层时,推理只需要上一层的输出,因此可以使用有限的数据进行分层执行。训练需要更多的数据,训练过程首先计算正向传播,得到每一层和张量的输出,然后进行反向传播来计算每个张量的梯度,梯度计算需要保存之前正向层的结果,因此分层执行不会减少内存。

       还有一些其他技术,如梯度检查点,可以实现类似的效果。

参考文献:

[1] https://ai.gopubby.com/unbelievable-run-70b-llm-inference-on-a-single-4gb-gpu-with-this-new-technique-93e2057c7eeb

[2] https://www.kaggle.com/code/simjeg/platypus2-70b-with-wikipedia-rag/notebook

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1281785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【WinForm.NET开发】演示:创建一个图片查看器 Windows 窗体应用

本文演示将创建一个 Windows 窗体应用程序,用于加载和显示图片。 Visual Studio 集成设计环境 (IDE) 提供了创建应用所需的工具。 1、先决条件 若要完成本教程,必须具有 Visual Studio。 请访问Visual Studio 下载页获取免费版本。 2、创建 Windows …

C语言扫雷游戏

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、扫雷游戏的分析和设计1.1扫雷游戏的功能说明1.2数据结构的分析1.3文件结构设计 二、扫雷游戏的代码实现总结 前言 详细介绍扫雷游戏的思路和实现过程。 一…

基于Java SSM框架实现美好生活九宫格日志网站系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现美好生活九宫格日志网站系统演示 摘要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人…

风险评估有什么用

风险评估就是量化测评某一事件或事物带来的影响或损失的可能程度。 为什么要做风险评估? 1.更准确地认识风险-系统地评估资产风险事件发生的概率大小和概率分布,及发生后损失的严重程度。帮助区分主要风险和次要风险。 2.保证规划的合理性和可行性-正确反映各风…

【开源】基于Vue.js的智慧社区业务综合平台

文末获取源码,项目编号: S 077 。 \color{red}{文末获取源码,项目编号:S077。} 文末获取源码,项目编号:S077。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 业务类型模块2.2 基础业务模块2.3 预…

网络安全--网络环境构成,系统的安全

2. 网络攻防环境 目标 了解攻防环境构成了解入侵检测系统(平台)的部署位置 2.1. 环境构成 2.1.1. 环境框图 一个基本的网络攻防实验环境包括:靶机、攻击机、入侵检测分析系统、网络连接四部分组成。 一个基础的网络攻防实验环境需要如下…

Java 学习之多态

多态的概念 多态 晚绑定。 所谓多态,就是父类型的引用可以指向子类型的对象,或者接口类型的引用可以指向实现该接口的类的实例。 不要把函数重载理解为多态。因为多态是一种运行期的行为,不是编译期的行为。 多态:父类型的引用可…

保育员个人简历精选7篇

想要在保育员职位的求职过程中脱颖而出吗,参考这7篇精选的保育员简历案例!无论您的经验如何,都能找到适合自己的简历样式及参考内容。 保育员个人简历模板下载(可在线编辑制作):来幻主简历,做好…

Shell循环:expect(二)

expect实战:公钥推送 一、准备工作:安装expect,装备公钥 二、通过shell循环判断主机在线 #!/bin/bash #脚本编写 #创建一个IP地址文件 >ip.txt #使用for循环ping测试主机是否在线 for i in {3..254} do{ip192.168.151.$iping -c1 -W…

矢量图形设计软件CorelDRAW 2023 mac界面说明

CorelDRAW 2023 mac是一款专业的矢量图形设计软件,由Corel公司开发。它提供了广泛的创意工具和功能,旨在满足设计师、艺术家和创意专业人士的需求。 CorelDRAW 2023具有直观的用户界面和工作流程,使用户能够轻松创建各种类型的图形设计&#…

三十六、seata的部署和集成

seata的部署和集成 一、部署Seata的tc-server 1.下载 首先我们要下载seata-server包,地址在http😕/seata.io/zh-cn/blog/download.html 当然,资料也准备好了: 2.解压 在非中文目录解压缩这个zip包,其目录结构如下…

如何开启Windows Server 2016 远端桌面

使用GUI 设定 服务器管理器–> 本地服务器–> 远端桌面 启用远端桌面 远端–> 允许远端连线至此电脑 会提示防火墙设定跟电源设定 防火墙之前已经关闭了 完成

线程中出现异常的处理

目录 前言 正文 1.线程出现异常的默认行为 2.使用 setUncaughtExceptionHandler() 方法进行异常处理 3.使用 setDefaultUncaughtExceptionHandler() 方法进行异常处理 4.线程组内处理异常 5.线程异常处理的优先性 总结 前言 在紧密交织的多线程环境中,异…

游戏配置表的导入使用

游戏配置表是游戏策划的标配,如下图: 那么程序怎么把把这张配置表导入使用? 1.首先,利用命令行把Excel格式的文件转化成Json格式: json-excel\json-excel json Tables\ Data\copy Data\CharacterDefine.txt ..\Cli…

如何从 Jira 成功迁移到极狐GitLab,看这个就够了!

内容来源:https://about.gitlab.com/blog 作者:Melissa Ushakov Atlassian 之前表示,到 2024 年 2 月会全面终止对于其服务器端产品的支持。 随着 Jira Server 的生命周期即将结束,众多组织都在考虑将其敏捷项目管理工具从Jira 迁…

Linux shell编程学习笔记32:declare 命令

0 前言 在 Linux shell编程学习笔记16:bash中的关联数组https://blog.csdn.net/Purpleendurer/article/details/134053506?spm1001.2014.3001.5501 中,我们在定义关联数组时使用了declare命令。 其实,declare命令的功能不只是定义定义关…

【蓝桥杯选拔赛真题73】Scratch烟花特效 少儿编程scratch图形化编程 蓝桥杯创意编程选拔赛真题解析

目录 scratch烟花特效 一、题目要求 编程实现 二、案例分析 1、角色分析

C#,数值计算——插值和外推,二维三次样条插值(Spline2D_interp)的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { /// <summary> /// 二维三次样条插值 /// Object for two-dimensional cubic spline interpolation on a matrix.Construct /// with a vector of x1 values, a vector of x2 values, and a ma…

Fisher信息理论与应用

一、概念介绍 Fisher信息量&#xff0c;是一次观测值所能提供的关于未知参数θ的信息量期望值的一种度量。 Fisher信息矩阵&#xff0c;是用利用最大似然函数估计来计算方差矩阵&#xff0c;表示随机变量的一个样本所能提供的关于状态参数在某种意义下的平均信息量。 Fisher…

python 运用pandas 库处理excel 表格数据

文章目录 读取文件查看数据数据选择数据筛选创建新列计算并总结数据分组统计 读取文件 Pandas 是一个强大的数据分析库&#xff0c;它提供了丰富的数据结构和数据分析工具&#xff0c;其中之一是用于读取不同格式文件的 read_* 函数系列。以下是一个简单介绍如何使用 Pandas 读…