大语言模型的工程技巧(一)——GPU计算

news2024/10/5 18:55:54

相关说明

这篇文章的大部分内容参考自我的新书《解构大语言模型:从线性回归到通用人工智能》,欢迎有兴趣的读者多多支持。
本文涉及到的代码链接如下:regression2chatgpt/ch07_autograd/gpu.ipynb

本文将讨论如何利用PyTorch实现GPU计算。本文讨论的内容将在后续的模型搭建中应用非常广泛:

  • 利用神经网络学习语言(五)——长短期记忆网络(LSTM)
  • 理解大语言模型(二)——从零开始实现GPT-2

关于GPU更多的使用技巧请参考:大语言模型的工程技巧(二)——混合精度训练

内容大纲

  • 相关说明
  • 一、概述
  • 二、CPU v.s. GPU
  • 三、代码实现

一、概述

在人工智能领域,模型运算通常涉及大量可以并行执行的操作。以简单的线性回归模型为例,如图1所示,在单个数据点的模型运算中,相应的计算节点之间并没有依赖关系,每个乘法操作都可以并行执行。从数学角度来看,这样的运算可以表示为张量的矩阵乘法,产生单一的数值输出。

图1

图1

对于只有一个输出值的矩阵乘法,都可以使用并行计算来提高执行速度。更进一步,如果考虑多个模型对多个数据点的运算,相应的矩阵乘法输出是一个张量,而这个张量中的每个元素的运算都是相互独立的,这使得并行执行更加可行。类似地,张量的其他运算,例如加法和减法,也可以通过并行执行来加速计算。在神经网络领域,这一点尤为重要,因为神经网络中包含多个线性模型。整个运算过程中涉及大量的张量运算,如何有效加速这些运算过程成为这个领域工程实现中要考虑的首要问题。

二、CPU v.s. GPU

默认情况下,在提到计算机运算时,通常指的是由中央处理器(CPU)作为计算核心执行的运算任务。然而,CPU的设计原则使它并不擅长处理并行计算。举个例子,考虑矩阵乘法,如图2所示,CPU会按顺序逐个元素相乘,导致整个运算过程时间过长。虽然我们可以利用多核CPU进行并行计算以加速任务,但多核CPU价格昂贵,在实际应用中难以普及。

图2

图2

与CPU不同,GPU(图形处理器)最初是为图形处理而设计的,属于边缘计算组件。它通常拥有大量的计算核心(有时高达上千个),可以并行地执行大量的简单计算任务。因此,使用GPU进行张量运算能够显著缩短运算时间。对于神经网络而言,这一点具有重要意义,它使得构建更大、更复杂的模型成为可能(使用GPU,模型训练时间可以从几年缩短到几天)。事实上,GPU的大规模应用是神经网络,尤其是深度学习得以迅猛发展的原因之一。因此,在涉及神经网络模型的实际应用中,总是优先考虑使用GPU作为计算的核心(这是编程领域一次重大的范式转变)。随着神经网络的迅猛发展,业界甚至在考虑重新设计计算机架构来提升GPU在硬件中的地位,以便更好地适应这一快速发展的领域。

三、代码实现

借助PyTorch(基于CUDA1)在GPU计算方面的卓越工作,GPU计算的代码实现并不复杂。如程序清单7-9所示(完整代码),只需简单地将数据移动到相应的GPU中即可。与CPU的架构设计不同,GPU无法直接读取在内存(RAM)中的数据进行运算,因此需要将数据复制到GPU专用的内存(GPU Dedicated Memory)中。同理,GPU也不支持跨计算核心的运算。这包括跨CPU和GPU的计算,因为数据一部分存放在内存中,另一部分存放在GPU专用内存中;以及跨不同GPU的计算,因为数据分布在不同的GPU专用内存中。在实际使用中,面对这样的需求,需要在进行计算之前将数据移动到同一个计算核心上。

程序清单1 GPU计算
 1 |  # 检查是否有GPU
 2 |  torch.cuda.is_available()        # True
 3 |  # GPU的个数
 4 |  torch.cuda.device_count()        # 1
 5 |  # 默认情况下,创建的张量存放在内存中,使用CPU进行计算
 6 |  x = torch.randn(2, 3)
 7 |  print(x.is_cuda)                 # False
 8 |  # 可以使用张量提供的函数,将数据移到GPU上
 9 |  # 当有n个GPU时,相应的设备id是cuda:0, cuda:0,... ,cude:n-1
10 |  print(x.to('cuda:0').is_cuda)    # True
11 |  # 在创建张量时,通过指定device将张量移到GPU上 
12 |  y = torch.randn(2, 3, device='cuda:0')
13 |  print(y.is_cuda)                 # True
14 |  print(y.to('cpu').is_cuda)       # False
15 |  # 不支持跨计算核心运算
16 |  x + y                            # error

想要正确使用GPU进行计算,关键是要充分利用其并行计算的特性,而不是仅仅进行串行计算,图3所示的例子很好地阐述了这个观点。当计算任务主要是串行的时,CPU往往比GPU更具优势。当计算任务能够被有效地并行化时,GPU的优势才能充分显现出来。

图3

图3


  1. CUDA(Compute Unified Device Architecture)是由NVIDIA开发的并行计算平台和编程模型。它允许开发者利用NVIDIA的GPU进行通用目的的并行计算,包括科学计算、机器学习、深度学习等领域的任务。CUDA的出现彻底改变了GPU的角色,使其从原本的图形渲染加速变为通用计算的利器。使用CUDA,开发者可以将计算任务分配到GPU上,并利用其大量的计算核心实现并行处理,从而大幅提升计算速度。
    为了使用CUDA,开发者需要编写基于CUDA的GPU核心代码,然后通过相应的编译工具将其与CPU代码结合起来,以充分利用GPU的计算能力。同时,许多深度学习框架(如TensorFlow、PyTorch等)也提供了对CUDA的支持,使开发者能够更方便地在GPU上进行模型训练和推断。 ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1687114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

dubbo复习: (6)和springboot集成时的条件路由

根据指定的条件,对不满足条件的请求进行拦截。 比如拦截ip地址为192.168.31.227的请求。只需要在dubbo admin中的条件路由菜单创建相应的规则 enabled: true force: true runtime: true conditions:- host ! 192.168.31.227

单例模式介绍,及其应用场景?

单例模式(Singleton Pattern)是 Java中最简单的设计模式之一,此模式保证某个类在运行期间,只有一个实例对外提供服务,而这个类被称为单例类。 单例模式也比较好理解,比如一个人一生当中只能有一个真实的身份证号,一个国家只有一个政府&#x…

【linux】深入了解线程池:基本概念与代码实例(C++)

文章目录 1. 前言1.1 概念1.2 应用场景1.3 线程池的种类1.4 线程池的通常组成 2. 代码示例2.1 log.hpp2.2 lockGuard.hpp① pthread_mutex_t 2.3 Task.hpp2.4 thread.hpp2.5 threadPool.hpp① 基本框架② 成员变量③ 构造函数④ 其余功能函数: main.cc结果演示 完整…

[Redis]常见数据和内部编码

相关命令 type (key) type 命令实际返回的就是当前键的数据结构类型,它们分别是:string(字符串)、list(列 表)、hash(哈希)、set(集合)、zset(有…

Cloneable 接口和深拷贝,浅拷贝

目录 一.Cloneable 接口 二.浅拷贝 三.深拷贝 四.comparable接口、 五.comparator接口 1.Java 中内置了一些很有用的接口 , Cloneable 就是其中之一 . Object 类中存在一个 clone 方法 , 调用这个方法可以创建一个对象的 " 拷贝 ". 2.来说说调用 clone 方法…

基于大型语言模型的游戏智能体

在人工智能领域,游戏代理的发展对于实现通用人工智能(AGI)至关重要。近年来,大型语言模型(LLMs)及其多模态版本(MLLMs)的进展为游戏代理的进化和能力提升提供了前所未有的机遇。这些…

Django自定义模板标签与过滤器

title: Django自定义模板标签与过滤器 date: 2024/5/17 18:00:02 updated: 2024/5/17 18:00:02 categories: 后端开发 tags: Django模版自定义标签过滤器开发模板语法Python后端前端集成Web组件 Django模板系统基础 1. Django模板语言概述 Django模板语言(DTL&…

Elasticsearch 分析器的高级用法二(停用词,拼音搜索)

Elasticsearch 分析器的高级用法二(停用词,拼音搜索) 停用词简介停用词分词过滤器自定义停用词分词过滤器内置分析器的停用词过滤器注意,有一个细节 拼音搜索安装使用相关配置 停用词 简介 停用词是指,在被分词后的词…

巨亏22亿还能上市?瑞幸为何越亏越值钱?剖析资本破局的商业思维

瑞幸咖啡 18个月登上纳斯达克 13个月退市 19个月,粉单市场股价再次翻了8倍 这个技术性“上市”无常的产品是谁? 其实现在这个笑贫不笑娼的社会 如果我说:我们公司上市了,悲催又退市了。我朋友会说:工资没降吧?…

信创数据库有哪些?哪家好?堡垒机支持吗?

当今时代,数据已经成为了企业最宝贵的资产,因此数据库厂商也是不断增加。这不不少小伙伴在问,信创数据库有哪些?哪家好?堡垒机支持吗? 信创数据库有哪些? 1、达梦数据库 2、openGauss 3、人大…

Mac Pro中的开源虚拟机UTM安装ubuntu(Applce M1,M2芯片)(1)

UTM安装ubuntu(Applce M1,M2芯片)(2)链接: https://blog.csdn.net/qq_38382925/article/details/139158763?spm1001.2014.3001.5502 MacPro安装UTM 1 UTM 下载UTM虚拟机链接: https://mac.getutm.app/ 建议官网下载: 下载 U…

Codesys软件做EtherNET/IP主站与HT3S-EIS-MDN网关通讯步骤

Codesys软件做EtherNET/IP主站与HT3S-EIS-MDN网关通讯步骤 打开codesys软件,新建项目,选择标准项目进入界面后选择CODESYS Control Win v3 x64 ,点击确定。 3.在桌面找到显示隐藏图标,找到如下图所示图标,右击在弹出…

查看bond接口详细信息

cat /proc/net/bonding/bondX 命令用于查看 Linux 系统中的网络绑定(bonding)接口的详细信息。在该命令中,bondX 是网络绑定接口的名称,其中 X 是数字,表示具体的网络绑定接口编号。 输出内容详解: 1. E…

java面试框架篇(Spring常见问题、SpringBoot、SpringMVC、mybatis经典问题、SpringCloud组件)

文章目录 面试专题-java框架篇1. spring常见问题1.1. spring是什么?1.2. 谈谈你对AOP的理解1.3. 谈谈你对IOC的理解1.4. Spring Boot、 Spring MVC和Spring有什么区别1.5. spring bean 生命周期1.6. spring事务传播机制有哪些?1.7. 循环依赖1.8. spring框架中使用了哪些设计模…

并网逆变器学习笔记9---VSG控制

参考文献:《新型电力系统主动构网机理与技术路径》 “构网技术一般包含下垂控制,功率同步控制,虚拟同步机控制,直接功率控制,虚拟振荡器控制 等。其中,虚拟同步机技术,即 VSG,因其物…

webgl开发家居设计软件

WebGL是一种在网页浏览器中渲染3D图形的JavaScript API,它基于OpenGL ES标准,允许开发者创建和显示交互式的3D图形。开发基于WebGL的家居设计软件可以为用户提供一种全新的、沉浸式的家居设计体验。以下是开发此类软件的一些关键步骤和特点。北京木奇移动…

【问题记录】QT“类型强制转换“:无法从“ATL::CString“转换为“LPCWSTR“

一,问题现象 环境:VS2019QT 报错提示:“类型强制转换”:无法从"ATL::CString"转换为"LPCWSTR" 二,解决方法 打开项目属性,设置字符集,如下所示:

某勾求职网逆向分析

搜索目标: aHR0cHM6Ly93d3cubGFnb3UuY29tL3duL2pvYnM/cG49MSZweD1kZWZhdWx0JmZyb21TZWFyY2g9dHJ1ZSZrZD0lRTYlOTUlQjAlRTYlOEQlQUUlRTUlODglODYlRTYlOUUlOTA= 抓包分析 请求和返回都是加密的 请求头部也有未知参数 跟栈分析 请求和返回是一个AES加密,加密的KEY是session s…

ruoyi前端获取用户信息

vue中获取当前用户信息 :头像,用户名,id,权限,token等 // 获取当前用户信息 用户名等var user this.$store.state.user;console.log("用户信息####", user);