神经网络模型的参数量和FlOPS

news2026/2/11 20:04:25

一、FLOPS、FLOPs和GFLOPs的概念

FLOPS：注意S是大写，是 “每秒所执行的浮点运算次数”（floating-point operations per second）的缩写。它常被用来估算电脑的执行效能，尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S，代表秒，而不是复数，所以不能省略掉。
FLOPs：注意s小写，是floating point operations的缩写（s表复数），意指浮点运算数，理解为计算量。可以用来衡量算法/模型的复杂度。
GFLOPs：一个GFLOPs等于每秒十亿（=10^9）次的浮点运算。

1.卷积层

参数量:

params = C_in×(C_out×K×K +1)
其中，Co代表输入的通道数，Ci代表输出的通道数，K为卷积核的大小，若卷积核有偏置项（Bias）则＋1.

flops:
FLOPs = [C_in×K×K+(C_in×K×K-1) +1]×W×H×C_out
其中C_in×K×K为一次卷积的乘法预算的计算量，C_in×K×K-1为一次卷积加法运算的计算量，+1为偏置项，W与H为特征图（feture map）的长和宽。
可简化为：
FLOPs = 2×C_in×K×K×W×H×C_out
计算机视觉中常把一次乘法和加法合在一起，所以可以去掉前面乘的2。

2.池化层

参数量:

深度学习中，参数量一般是指随着训练可以不断进行自我调节大小的参数的数量。而池化层主要是用来采样，例如：最大池化，取一个filter中的最大值。所以池化层可以不用算参数量。

flops:

3.全连接层

参数量
params = $(dim_{_{in}}+1)\times dim_{out}$
flops：
FLOPs = $N\times [dim_{in}+(dim_{in}-1)+1]\times dim_{out}=2\times dim_{in}\times dim_{out}$
乘法次数为 $dim_{in}$ ，加法次数为 $dim_{in}-1$ ，+1为加上一个偏置项，输入矩阵维度为 $N\times dim_{in}$

计算机视觉中常把一次乘法和加法合在一起，所以可以去掉前面乘的2。

4.BN层

Flops

计算机视觉中常把一次乘法和加法合在一起，所以可以去掉前面乘的2。

5.Transformer

transformer的Flops为：

对q,k,v的全连接层: $N*dim*dim*3$ 。N为token数(N=H*W)。

q,k点乘:num_heads * N * (dim // num_heads) * N

再点乘v：num_heads * N * N * (dim // num_heads)

FFN层:2 * N * dim * dim * self.mlp_ratio

6.LayerNorm

elementwise_affine如果设为False，则LayerNorm层不含有任何可学习参数。如果设为True（默认是True）则会包含可学习参数weight和bias，用于仿射变换，即对输入数据归一化到均值0方差1后，乘以weight，即bias。

由于LayerNorm默认在dim最后一维进行归一化，因此，参数量为N*2，N表示token数（N=H*W）

FLOPS：和BN的原理一样，进行一次乘法一次加法，因此，计算量为2*N*dim(N=H*W）,计算机视觉中常把一次乘法和加法合在一起，所以可以去掉前面乘的2。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/153308.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

重装系统把所有盘格式化教程

重装系统把所有盘格式化教程

在使用电脑的过程中，可能会遇到系统重装的问题，但是有些朋友就觉得之前的分区不太合理，就打算全盘格式化重装系统，那小白一键重装系统怎么把所有盘格式化呢?这需要借助U盘或光盘来引导了。下面就来看看操作教程吧。工具/原料&a…

阅读更多...

2.17 STM32 SysTick—系统定时器

2.17 STM32 SysTick—系统定时器

文章目录1、简介2、寄存器2.1 SysTick控制和状态寄存器(STK_CTRL)2.2 重载值寄存器（STK_LOAD）2.3 SysTick当前值寄存器 (STK_VAL)2.4 校准寄存器（STK_CALIB）3、SysTick 定时实验3.1 在标准库中3.2 在HAL库中的初始化4、SysTick 定…

阅读更多...

driftingblues7靶机（eyes of network漏洞)

driftingblues7靶机（eyes of network漏洞)

环境准备靶机链接：百度网盘请输入提取码提取码：49by 虚拟机网络链接模式：桥接模式攻击机系统：kali linux 2021.1 信息收集 1.arp-scan -l 2.探测靶机开放端口和服务情况 nmap -p- -A -T4 192.168.1.108 漏洞利用 1.访…

阅读更多...

为什么开发者这么看重SQL？看完这些应用场景你就明白了

为什么开发者这么看重SQL？看完这些应用场景你就明白了

看到一个有趣的比喻，用来说明SQL与Excel的差别是什么。如果把SQL比作火车，把Excel更比作卡车。卡车灵活自由，高速或乡村小道想去哪就去哪，但即便每天不停歇卡车的运载量也不大，而且容易出交通事故。火车运载量大…

阅读更多...

P2P中的NAT穿越(打洞)方案详解

P2P中的NAT穿越(打洞)方案详解

1、内容概述 P2P即点对点通信，或称为对等联网，与传统的服务器客户端模式（如下图“P2P结构模型”所示）有着明显的区别，在即时通讯方案中应用广泛（比如IM应用中的实时音视频通信、实时文件传输甚至文字聊天等…

阅读更多...

【Python基础】篇四之while、for循环及其嵌套、continue、break

【Python基础】篇四之while、for循环及其嵌套、continue、break

while循环基本格式：while 条件：条件满足时做的事1条件满足时做的事2条件满足时做的事省略注：只要条件满足就会一直执行while的条件需得到布尔类型，True表示循环继续，False表示循环结束需要设置循环终止条件&#xff0c…

阅读更多...

map 源码思考

map 源码思考

go 语言中 map 比较的说，和 slice 有什么区别？如果 map 是从 int 到 int 类型的话，差别还真不大。map 的 key 退化为 slice 的下标，而 value 退化为 slice 的值。但这样也存在很大的弊端：空间浪费严重。假设 map 中只…

阅读更多...

虹科分享 | 网络流量监控 | 构建大型捕获文件（Ⅱ）——Pcap分析仪：Allegro网络万用表的Pcap过滤器

虹科分享 | 网络流量监控 | 构建大型捕获文件（Ⅱ）——Pcap分析仪：Allegro网络万用表的Pcap过滤器

上一期我们讨论的是如何使用Wireshark工具进行结构化搜索的技术，这一期我们将为大家进行介绍，我们该如何使用 Allegro 网络万用表来加快 pcap 分析器的工作。前期回顾：构建大型捕获文件（Ⅰ）——Wireshark过滤器和其他…

阅读更多...

VIVO应用商店APP侵权投诉流程

VIVO应用商店APP侵权投诉流程

目录一、官方指引二、侵权投诉提交流程一、官方指引 https://dev.vivo.com.cn/documentCenter/doc/34 二、侵权投诉提交流程登录 vivo 开放平台：https://dev.vivo.com.cn/，点击右下角“工单系统”： 业务类型选 “投诉举报类”&#xff0…

阅读更多...

Redis-设置过期时间及淘汰策略

Redis-设置过期时间及淘汰策略

文章目录1. TTL2. 设置过期时间3. 删除过期key4. 淘汰策略Redis-设置过期时间及淘汰策略项目组使用的 Redis 服务器发出了内存不足报警，查了一些资料，记录下。 1. TTL 查看 Redis key 是否过期是 TTL 命令，或者登陆 Redis 客户端&#xff0…

阅读更多...

重点算法排序之堆排序（下篇）

重点算法排序之堆排序（下篇）

文章目录一、堆排序的概念 1、1 堆的基本概念 1、2 堆的特性二、堆排序的思路及代码实现 2、1 建堆 2、2 向下调整算法详解 2、3 建完堆后进行堆排序 2、3、1 排升序建大堆 2、3、2 建大堆后进行堆排序三、堆排序的例题 2、1 例题1：堆排序 2、2 例题2&#x…

阅读更多...

HTTP.sys远程代码执行漏洞修复

HTTP.sys远程代码执行漏洞修复

1.漏洞描述 Http.sys是Microsoft Windows处理HTTP请求的内核驱动程序。HTTP.sys会错误解析某些特殊构造的HTTP请求，导致远程代码执行漏洞。成功利用此漏洞后，攻击者可在System帐户上下文中执行任意代码。由于此漏洞存在于内核驱动程序中，攻击…

阅读更多...

VMware下的虚拟机网络设置（NAT、桥接、仅主机）

VMware下的虚拟机网络设置（NAT、桥接、仅主机）

在入门使用VMware搭建Linux的环境时，对于网络的设置时不可避免的，因为linux搭建完成后，或多或少的回去访问外部资源或者被外部资源访问。这时候设置的虚拟机网络连接方式就显得尤为重要，所以在这里整理了一下虚拟机的三种连接方式…

阅读更多...

说说压缩文件“打开密码”的两种模式

说说压缩文件“打开密码”的两种模式

我们知道，如果对压缩文件有保密需求，可以给压缩文件设置“打开密码”，通过密码才能查看压缩文件里的内容。那通过WinRAR设置的“打开密码”有两种模式，你知道吗？下面来具体说说。模式一：可以看到压缩包的…

阅读更多...

springboot集成mybatis

springboot集成mybatis

springboot集成mybatis 文章目录springboot集成mybatis前言一、初始化项目1.创建项目2.引入依赖3.创建实体类4.修改配置文件二、使用Mybatis1.纯注解方式2.使用xml文件方式三、使用pagehelper分页前言 MyBatis 是一个开源、轻量级的数据持久化框架，是 JDBC 和 Hibe…

阅读更多...

赤池信息量准则（AIC）和贝叶斯信息准则（BIC）

赤池信息量准则（AIC）和贝叶斯信息准则（BIC）

一 AIC 赤池信息量准则（Akaike information criterion，AIC）是评估统计模型的复杂度和衡量统计模型“拟合”资料之优良性(Goodness of fit)的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在信息熵的概念基…

阅读更多...

LeetCode题目笔记——面试题 02.07. 链表相交

LeetCode题目笔记——面试题 02.07. 链表相交

文章目录题目描述题目难度——简单方法一：数数，然后遍历代码/C方法二：双指针代码/C代码/Python总结题目描述给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点&#xff0c…

阅读更多...

假期无聊，不如一起刷《剑指offer》（第六天）

假期无聊，不如一起刷《剑指offer》（第六天）

剑指 Offer 41. 数据流中的中位数剑指 Offer 41. 数据流中的中位数这道题是求数据流的中位数，一般情况我们可以采用排序的方式很轻松的找出中位数。如果我们采用插入排序的话，每次插入数字的时间复杂度大概是O(N)，怎么能让这个时间更短呢&a…

阅读更多...

shell原理及Linux权限

shell原理及Linux权限

shell及Linux权限目录shell及Linux权限一、指令1.tar指令（重要）2.热键3.bc命令4.uname –r指令：5.关机6.以下命令作为扩展:二.shell命令以及运行原理三.权限1.权限的概念：2.Linux下有两种用户：超级用户（ro…

阅读更多...

一图读懂mybatis 查询接口的源码流程

一图读懂mybatis 查询接口的源码流程

图比较大：如果看着比较糊的话，可以下载高清图：https://download.csdn.net/download/langwuzhe/87376216 第一步：创建 StatementHandler、ParameterHandler、ResultSetHandler-----------(三剑客的新生) 创建 StatementHandler 对…

阅读更多...

推荐文章

最新文章