4090 深度学习性能实测

news2025/1/11 18:39:21

测试结果 

测试平台:

显卡:影驰金属大师4090

cpu:i7 12700k

测试方法

李沐老师micro-benchmarkings

B站视频

测试

1.矩阵计算速度

transformer的核心操作是矩阵乘法,通过测试矩阵计算的tflops可以得到硬件的计算上限。

matmul_tflops = defaultdict(lambda: {})
for n in [128, 512, 2048, 8192]: #四种大小的矩阵
    for dtype in (torch.float32, torch.float16):
        a = torch.randn(n, n, dtype=dtype).cuda()
        b = torch.randn(n, n, dtype=dtype).cuda()   
        t = walltime('a @ b', var_dict(a, b))  #计算两个矩阵相乘的时间
        matmul_tflops[f'n={n}'][dtype] = 2*n**3 / t / 1e12   #计算TFLOPS:两个n*n的矩阵相乘会继续2*n**3次计算,再除以计算的时间,和1e12(1tplops=1e12),得到tflops
        del a, b
        
pd.DataFrame(matmul_tflops)

结果: 

对比:

可以得出单精度4090tflops为85TFLOPS是3090的两倍,半精度下是为144TFLPOPS是3090的1.77倍,半精度下因为Tensor Cores的原因,性能相比单精度有很大的提升。

2.向量乘法速度、带宽

深度学习训练中,带宽会限制你的训练速度。

网络训练过程中的激活函数会做的事情计算步骤类似向量乘法,这种操作会很慢,而减慢你的训练速度。

vector = defaultdict(lambda: {})
for n in [1024*64, 1024*256, 1024*1024, 1024*1024*4]:
    a = torch.randn(n).cuda()
    t = walltime('a * 1.2', var_dict(a)) #进行向量乘法操作
    vector[n]['TFLOPS'] = n / t / 1e12 #计算TFPLOS
    vector[n]['GB/s'] = 8 * n / t / 1e9 #计算带宽:进行一个向量乘法需要将数据从gpu拿得到计算单元(4byte),再从计算单元再拿回来(4byte),所以是8*n
    
pd.DataFrame(vector)

结果: 

 

可以看出TFLOPS仅为0.462

对比:

 可以看出4090向量乘法操作大约是3090ti的四倍。

3.Bert Layer Forward / Forward+Backward速度

def layer_benchmark(layer, hidden_size, seq_lens, batch_sizes, cross_attention=False):
    h = hidden_size
    results = defaultdict(lambda: {})    
    encoder_state = 'encoder_hidden_states=X' if cross_attention else ''
    for s in seq_lens:
        for b in batch_sizes:            
            ffn = 16*b*s*h*h / 1e12    #计算一个ffn层的TFLOPS
            atten = (4*b*h*s*s + 8*b*s*h*h) / 1e12    #计算一个attention层的TFLOPS       
            forward = ffn + (2 if cross_attention else 1) * atten
            
            X = torch.randn(b, s, h).half().cuda()
            results[f'batch={b}'][f'fwd seq_len={s}'] = forward / walltime(
                f'layer(X, {encoder_state})', var_dict(layer, X))
            results[f'batch={b}'][f'fwd+bwd seq_len={s}'] = 3 * forward / walltime(
                f'layer(X, {encoder_state})[0].sum().backward()', var_dict(layer, X))            
    return pd.DataFrame(results)

总结:

矩阵计算的硬件的计算上限来说,单精度4090为是3090ti的两倍,半精度下是3090ti的1.77倍。4090bertForward操作的性能是 3090ti的1.79倍,Forward+Backward是3090ti的1.63倍。

因为内存带宽、Nvidia提供的矩阵库的效率、中间的缓存的的大小,我们日常训练当中一般不可能达到理论的速度,而这些都是我们难以解决的,我们能做的是提高批量的大小、将多个按元素计算的操作合并成一个单个操作用CUDA重新实现一次。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/621558.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统实验一到实验九合集(哈工大李治军)

操作系统实验 作者寄语 操作系统实验的学习是一个循序渐进的过程,初次看linux-0.11中的代码,看着满屏的汇编语言,确实头疼。但通过学习赵炯博士的Linux内核0.11完全注释,结合着王爽老师的汇编语言一书,我逐渐理解每段…

jmeter压测数据库

1.查询数据库对应的URL可点击jmeter操作指南书的图表,找到对应的数据库url即可 2.为避免在连接数据库时会报编码/时区上的错误,可以在URL后面添加两个参数 ?useUnicode true //反正乱码 &characterEncodingUTF-8 //国际编码 &serverTimezoneUT…

非常全面的数字人解决方案(含源码)

github TheRamU/Fay: 语音互动,直播自动带货 虚拟数字人 (github.com) gitee fay: 这是一个数字人项目,包含python内核及ue数字人模型,可以用于做数字助理及自动直播,又或者作为你的应用入口也很帅 (gitee.com) 2022.10.27 补…

I/O框架知识

I/0框架 什么是流&#xff1f; 概念&#xff1a;内存与存储设备之间传输数据的通道 流的分类 按方向&#xff08;重点&#xff09; 输入流: 将<存储设备>的内容读入到<内存>中&#xff0c; 输出流&#xff1a;将<内存>中的内容写入到<存储设备>中 …

socket编程之connect()

5 connect() connect&#xff08;&#xff09; 系统调用将文件描述符 sockfd 引用的套接字连接到 addr 指定的地址。 2.1 包含头文件 #include <sys/types.h> #include <sys/socket.h>2.2 函数主体 int connect(int sockfd, const struct sockaddr *ad…

chatgpt赋能python:Python平铺图片的SEO优化

Python平铺图片的SEO优化 在网站设计中&#xff0c;图片是一个重要的元素。但是&#xff0c;使用大量的图片会导致网站加载速度变慢&#xff0c;从而影响用户的体验。为了解决这个问题&#xff0c;我们可以使用平铺图片&#xff0c;这样可以减小图片的大小&#xff0c;提高网站…

腾讯云国际版注册流程详解

作为国内三大云厂商之一的腾讯云&#xff0c;相信很多人都不会陌生&#xff0c;我们使用的微信、QQ等都是依托于腾讯云的服务器&#xff0c;实力自然是不容小觑&#xff0c;而腾讯云近年来也是在海外市场不断布局&#xff0c;影响力显著增长&#xff0c;不管是个人建站还是企业…

【Java】Java核心要点总结:58

文章目录 1. java中 怎么确保一个集合不能被修改2. 队列和栈是什么 有什么区别3. Java8开始的ConcurrentHashMap为什么舍弃了分段锁4. ConcurrentHashMap 和 Hashtable有什么区别5. ReadWriteLock和StampeLock 1. java中 怎么确保一个集合不能被修改 Java 中可以使用 Collectio…

【项目】树莓派发出WIFI热点

本文主要记录树莓派4B如何设置发出WIFI热点 我们都知道要实现多机通信&#xff0c;就需要让主机和从机同处于一个网络中&#xff0c;而处于同一个网络通常有两种方式&#xff1a; 由主机&#xff08;树莓派&#xff09;发出WIFI&#xff0c;而从机&#xff08;笔记本&#xf…

数据结构与算法之二叉树的先序、中序以及后序遍历

什么是遍历 遍历&#xff1a;按照某种次序把所有结点 都访问一遍 层次遍历&#xff1a;基于树的层次特性确定的次序规则 先/中/后序遍历&#xff1a;基于树的递归特性确定的次序规则 二叉树的遍历 二叉树的递归特性&#xff1a; 要么就是个空二叉树要么就是有“根节点左子树…

chatgpt赋能python:Python小游戏教程:打造属于自己的游戏

Python小游戏教程&#xff1a;打造属于自己的游戏 Python小游戏是一个非常有趣的项目&#xff0c;不仅可以锻炼编程基本功&#xff0c;还可以开发出自己独特的小游戏&#xff0c;提高自己在编程领域的实践能力。下面&#xff0c;我会带领大家逐步学习如何用Python打造属于自己…

SpringBoot整合Ip2region获取IP地址和定位

1.Ip2region的介绍 1.1.Ip2region 是什么 ip2region v2.0 - 是一个离线IP地址定位库和IP定位数据管理框架&#xff0c;10微秒级别的查询效率&#xff0c;提供了众多主流编程语言的 xdb 数据生成和查询客户端实现 。 1.2.Ip2region 特性 1.2.1 标准化的数据格式 每个 ip 数…

记录解决Android Studio下载gradle超时问题

大三学生&#xff0c;2023年3月19号晚&#xff0c;首次下载Android Studio2022版本并新建项目&#xff0c;发现在下载gradle总是连接超时&#xff0c;舍友则没有这个问题&#xff0c;用的是同一个安装包。 查阅文献太多&#xff0c;忘记都有哪些了&#xff0c;就不列出来了&…

MySQL 课后习题解析与笔记——学生选课数据库相关操作

文章目录 &#x1f4cb;前言&#x1f3af;题目解析1️⃣创建数据库2️⃣创建表&#x1f4d1;Student 表&#x1f4d1;Course 表&#x1f4d1;SC 表 &#x1f3af;完整答案&#x1f4dd;最后 &#x1f4cb;前言 这篇文章记录一下帮助粉丝朋友一起学习解决的 MySQL 课后习题&…

5款AI应用让你全面感受人工智能的魅力

“ AI 的出现就像燃气机和蒸汽机一样&#xff0c;极大地提高了生产力。” chatGPT ChatGPT 是由 OpenAI 公司开发的一种大型语言模型。 OpenAI 公司成立于 2015年&#xff0c;早期马斯克是该公司的创始人之一。 自 2018 年推出 GTP-1 以来&#xff0c;OpenAI 已经推出了 GPT-…

Power BI Visuals - Candlestick (K线图) 介绍文档

注&#xff1a;本文最初发布于 d-bi.gitee.io &#xff08;2020年4月&#xff09;, 2023年6月迁移至CSDN 注:本文将简要介绍新的Power BI可视化–Candlestick的使用方法 简介 Candlestick是由本人(Davis ZHANG)使用R语言开发的Power BI可视化, 它将在数日之后(取决于审核的进…

chatgpt赋能python:Python平均值:让你的数据更有说服力

Python平均值&#xff1a;让你的数据更有说服力 作为一个有10年Python编程经验的工程师&#xff0c;我非常熟悉Python程序的各种应用。其中&#xff0c;计算平均值是数据分析中最常用的计算方法之一&#xff0c;而Python作为一种广泛应用的语言&#xff0c;也可以轻松地处理平…

k8s网络模型

前言 通过《Linux网络原理》我们已据备了一定的理论知识。k8s是怎么构建网络模型的呢&#xff1f; 基础知识 交换机和路由器都是网络中常见的设备&#xff0c;它们在网络通信中扮演不同的角色。 交换机&#xff08;Switch&#xff09;是一种用于构建局域网&#xff08;LAN&a…

11 - 守护进程深度分析

---- 整理自狄泰软件唐佐林老师课程 查看所有文章链接&#xff1a;&#xff08;更新中&#xff09;Linux系统编程训练营 - 目录 文章目录 1. 会话与终端的关联1.1 思考1.2 新会话关联控制终端的方法1.3 一些相关推论1.4 一些想法1.5 编程实验&#xff1a;会话与终端 2. 守护进程…

SpringSecurity自定义认证

一. 前言 ​ 学习了SpringSecurity的使用&#xff0c;以及跟着源码分析了一遍认证流程&#xff0c;掌握了这个登录认证流程&#xff0c;才能更方便我们做自定义操作。 ​ 下面我们来学习下怎么实现多种登录方式&#xff0c;比如新增加一种邮箱验证码登录的形式&#xff0c;但…