性能优化(CPU优化技术)-ARM Neon详细介绍

news2025/1/12 16:44:40

本文主要介绍ARM Neon技术,包括SIMD技术、SIMT、ARM Neon的指令、寄存器、意图为读者提供对ARM Neon的一个整体理解。

🎬个人简介:一个全栈工程师的升级之路!
📋个人专栏:高性能(HPC)开发基础教程
🎀CSDN主页 发狂的小花
🌄人生秘诀:学习的本质就是极致重复!

目录

1 并行技术的几种方式

1.2 SISD

1.3 MIMD

1.4 SIMD

1.4.1 概念和特点

1.4.2 产生的原因

1.5 MISD

1.6 SIMT

2 NEON介绍

2.1 ARM Neon 特点

2.2 ARM Neon 数据类型

2.2.1 Neon 数据类型的命名格式

2.2.2 支持的数据类型      

2.3 ARM Neon 指令

2.4 Neon 寄存器

2.4.1 Neon一般的执行流程

2.4.2 Neon 寄存器

2.5 Neon数据处理指令分类

3 一般使用ARM Neon优化的几种方式


1 并行技术的几种方式

        并行计算根据费林分类法,将指令流和数据流的几种不同的方式分成四种计算机类型:SISD、MISD、MIMD、SIMD。NVIDIA CUDA设计出SIMT技术区别于这四种。

1.2 SISD

        SISD是单指令流单数据流(Single Instruction Single Data)的缩写,是一种计算机体系结构。在SISD中,所有的指令和数据都按照一定的顺序串行执行,即每条指令只处理一个操作数,且每个操作数只在一条指令中使用。

        SISD的特点是简单、直观,但效率较低。因为所有指令和数据都必须按顺序执行,所以无法充分利用现代处理器的并行计算能力。不过,由于其实现相对简单,所以在一些简单的应用场景下仍然有一定的应用价值。

1.3 MIMD

        MIMD是多指令流多数据流(Multiple Instruction Multiple Data)的缩写,是一种计算机体系结构。在MIMD中,可以同时有多条指令在不同的处理单元中并行执行,并且每个处理单元都可以同时处理多个数据。

        与SISD和MISD相比,MIMD能够更好地利用现代处理器的并行计算能力,提高程序的执行效率。由于每个处理单元都可以独立地执行指令和处理数据,所以MIMD也被称为“真正并行”的计算机体系结构。

MIMD需要更复杂的控制逻辑来协调不同处理单元之间的操作,增加了实现难度。但是,随着多核处理器的普及和硬件技术的发展,MIMD已经成为现代高性能计算机的主要架构之一。

1.4 SIMD

1.4.1 概念和特点

        SIMD是单指令流多数据流(Single Instruction Multiple Data)的缩写,是一种计算机体系结构。在SIMD中,所有的指令都按照一定的顺序串行执行,但是每个指令可以同时处理多个数据。

        与SISD和MISD相比,SIMD能够更好地利用现代处理器的并行计算能力,提高程序的执行效率。由于每个指令可以同时处理多个数据,所以SIMD也被称为“向量化”的计算机体系结构。

        SIMD需要更复杂的控制逻辑来协调不同数据之间的操作,增加了实现难度。但是,随着硬件技术的发展,SIMD已经成为现代高性能计算机、图形处理器和数字信号处理器等领域的主要架构之一。

1.4.2 产生的原因

        许多程序需要处理大量的数据集,而且很多都是由少于32bits的位数来存储的。比如在视频、图形、图像处理中的8-bit像素数据;音频编码中的16-bit采样数据等。在诸如上述的情形中,很可能充斥着大量简单而重复的运算,且少有控制代码的出现。因此,SIMD就擅长为这类程序提供更高的性能。比如大量的数据集、2D、3D图像、视频、音频、色彩转换、流体力学、气象学、天体物理等。              

1.5 MISD

        MISD是多指令流单数据流(Multiple Instruction Single Data)的缩写,是一种计算机体系结构。在MISD中,指令和数据都按照一定的顺序串行执行,但是可以同时有多条指令在不同的处理单元中并行执行。

        与SISD相比,MISD能够更好地利用现代处理器的并行计算能力,提高程序的执行效率。但是,由于指令和数据仍然必须按顺序执行,所以仍然存在一些限制。此外,MISD需要更复杂的控制逻辑来协调不同处理单元之间的操作,增加了实现难度

1.6 SIMT

        SIMT是单指令流多线程(Single Instruction, Multiple Threads)的缩写,是一种并行计算模型。在SIMT中,所有的线程都执行相同的指令,但是每个线程可以处理不同的数据。

        与SIMD相比,SIMT能够更好地利用现代处理器的并行计算能力,提高程序的执行效率。由于每个线程可以独立地处理不同的数据,所以SIMT也被称为“线程化”的计算机体系结构。

        SIMT需要更复杂的控制逻辑来协调不同线程之间的操作,增加了实现难度。但是,随着多核处理器和硬件技术的发展,SIMT已经成为现代高性能计算机、图形处理器和游戏机等领域的主要架构之一。

        类似 CPU 上的多线程,所有的核心各有各的执行单元,数据不同,执行的命令是相同的。多个线程各有各的处理单元,和 SIMD 共用一个 ALU 不同。

SIMT

        

2 NEON介绍

         ARM NEON是ARM推出的一种CPU扩展技术SIMD,一般在Cortex-A应用处理器上和少量的Cortex-R处理器上支持Neon技术,使用SIMD方式可以在一定程度上提升CPU的运算效率。

        由于现代处理器的寄存器、ALU都是为了32位或者64为设计的,但是这些大量的数据基本都是8位和16位的,因此如果每次执行一个数据就会很浪费寄存器的宽度,由此引入了Neon 的SIMD技术,通过一条指令控制同时处理多个数据来提高效率,这样就提高了寄存器和ALU的使用效率。

2.1 ARM Neon 特点

        (1)一般每个ARM核都有一个NEON单元,CPU与NEON共用一个ALU,相对于SIMT是每个核都有一个ALU。

        (2)NEON技术最早出现在ARMv7上,ARMv7有16个128位寄存器(Q),32个64位寄存器(D)。ARMv8有32个128位寄存器(Q),64个64位寄存器(D),Q寄存器物理上不存在,但是逻辑上存在,其核心是D寄存器组成的。因此优化时注意,Q寄存器和D寄存器的不能重复使用。

        (3)ARM NEON技术是一种SIMD,即单指令多数据技术,是区别于SISD和SIMT的不同的技术,对于提高CPU运行效率,有很大的作用。

       (4) NEON技术可以用于多线程,并且共享常规CPU的内存和cache,Cache一般有三级Cache L1、L2、L3。

2.2 ARM Neon 数据类型

2.2.1 Neon 数据类型的命名格式

        (1) <type><size>x<number_of_lanes>_t

        (2)<type><size>x<number_of_lanes>x<length_of_array>_t

             例如 float32x4x2_t u1 表示定义两个128位向量寄存器数据 ,用两个128位寄存器存储,

              每个寄存器存储4个float类型数据。

               内部的构造是

                        struct float32x4x2_t

                        {

                                float32x4_t val[2];

                        }float32x4x2_t;

               取每个寄存器数据的格式:

                        u1.val[0]; u1.val[1];

2.2.2 支持的数据类型      

       对64位D寄存器或者是128位Q寄存器拆分,比如int8x16_t指的是int8类型的16个数据存储在一个128位Q寄存器中,Q寄存器是虚拟的,真实并不存在;int8x8_t指的是int8类型的8个数据存储在一个64位D寄存器中。

        主要支持的数据类型如下:

        注:F16不适用于数据处理运算,只用于数据转换,仅用于实现半精度体系结构扩展的系统。

多项式算术在实现某些加密、数据完整性算法中非常有用。

      一个向量寄存器存储数据的格式如下图,通过一次处理多个数据,可以提高效率大概10倍左右,由于寄存器之间有专门的通道,处理的速度极快,因此使用SIMD的编程方式可以使得程序的性能变得优秀。

2.3 ARM Neon 指令

ARM Neon 指令集可以分为以下几类:

        1. 加载和存储指令:用于从内存中加载数据或将数据存储到内存中。包括单精度浮点数的加载和存储指令,以及双精度浮点数的加载和存储指令。

        2. 算术运算指令:用于执行各种算术运算,包括加法、减法、乘法、除法等。这些指令可以对单精度浮点数和整数进行操作,也可以对双精度浮点数进行操作。

        3. 逻辑运算指令:用于执行各种逻辑运算,包括与、或、非等。这些指令可以对单精度浮点数和整数进行操作,也可以对双精度浮点数进行操作。

        4. 比较指令:用于比较两个值的大小关系,包括相等、不等、大于、小于等。这些指令可以对单精度浮点数和整数进行操作,也可以对双精度浮点数进行操作。

        5. 移位指令:用于将一个值向左或向右移动指定的位数。这些指令可以对单精度浮点数和整数进行操作,也可以对双精度浮点数进行操作。

        6. 向量数据处理指令:用于对多个数据进行并行处理,包括向量加法、向量减法、向量乘法等。这些指令可以对单精度浮点数和整数进行操作,也可以对双精度浮点数进行操作。

2.4 Neon 寄存器

2.4.1 Neon一般的执行流程

        第一步:从内存load数据到vector寄存器

        第二步:使用Intrinsic指令或者汇编在ALU执行相应的运算

        第三步:将执行后的结果save到内存

2.4.2 Neon 寄存器

 ARMv7上寄存器关系:

        

        

    ARMv7上寄存器的组合:(一个Q寄存器对应2个D寄存器)

  • 16×128-bit寄存器(Q0-Q15);
  • 或32×64-bit寄存器(D0-D31)
  • 或上述寄存器的组合。

    映射关系:

  • D<2n> 映射到 Q 的最低有效半部;
  • D<2n+1> 映射到 Q 的最高有效半部;

    Neon寄存器存储数据的几种形式:

2.5 Neon数据处理指令分类

        一般分为普通指令、长指令、宽指令、窄指令、饱和指令等。

        普通指令(Normal instructions 

        可以对任意类型的向量进行操作,并生成与操作数向量相同大小和通常相同类型的结果向量。
        长指令(Long instructions

        对双字向量操作数进行操作,并生成四倍长字向量结果。结果元素的宽度通常是操作数的两倍,并且类型相同。长指令使用在指令中添加字母L来指定。
        宽指令(Wide instructions)

        对一个双字向量操作数和一个四倍长字向量操作数进行操作,生成四倍长字向量结果。结果元素和第一个操作数都是第二个操作数的元素宽度的两倍。宽指令在指令中添加字母W来指定。
        窄指令(Narrow instructions)

        对四倍长字向量操作数进行操作,并生成双字向量结果。结果元素的宽度通常是操作数元素宽度的一半。窄指令使用在指令中添加字母N来指定。
        饱和变体(Saturating variants)
        在ARM中,饱和算法如下:
                对于有符号饱和运算,如果结果小于 -2^n,则返回的结果将为 -2^n;
                对于无符号饱和运算,如果整个结果将是负值,那么返回的结果是 0;如果结果大于 2^n - 1,则返回的结果将为 2^n - 1;
                在NEON中,饱和算法通过在V和指令助记符之间使用Q前缀来指定饱和指令,原理与上述内容相同。

        来自官方文档的一些参考说明图:

3 一般使用ARM Neon优化的几种方式

        a.通过使用编译选项增加-O3 和针对Neon的优化编译选项,对于一些简单的运算,让编译器

           自动优化,效果会出奇的好

        c.通过使用一些已经优化好的ARM Neon库来加速程序

        d.使用Intrinsic Instruction 来编写SIMD相关的代码优化,编写该类程序时需要注意不同的指

           令速度有所不同,选择合适的指令也是优化的一个难点,同时要对数据进行一个预取,利用

           cache的高性能来提高效率,也要注意不要做超过寄存器长度的处理。

        e.使用ARM Neon汇编来提高运行效率

🌈我的分享也就到此结束啦🌈
如果我的分享也能对你有帮助,那就太好了!
若有不足,还请大家多多指正,我们一起学习交流!
📢未来的富豪们:点赞👍→收藏⭐→关注🔍,如果能评论下就太惊喜了!
感谢大家的观看和支持!最后,☺祝愿大家每天有钱赚!!!

下一节将介绍如何在一个Android手机进行ARM Neon的优化测试,并且包括Intrinsic指令的使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1349262.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VMware虚拟机和Centos7镜像安装

文章目录 安装VMware虚拟机1、下载2、激活 安装Centos7镜像启动虚拟机 安装VMware虚拟机 1、下载 建议还是安装16版本 VMware16下载 https://www.123pan.com/s/HQeA-aX1Sh VMware15 链接&#xff1a;https://pan.baidu.com/s/11UD1hb6IydbxNNPxmh-MqA?pwd0630 提取码&am…

2022年全国职业院校技能大赛(高职组)“云计算”赛项赛卷①第一场次:私有云

2022年全国职业院校技能大赛&#xff08;高职组&#xff09; “云计算”赛项赛卷1 第一场次&#xff1a;私有云&#xff08;30分&#xff09; 目录 2022年全国职业院校技能大赛&#xff08;高职组&#xff09; “云计算”赛项赛卷1 第一场次&#xff1a;私有云&#xff0…

DDC和PLC的区别

前言 PLC与DDC控制器的比较&#xff0c;一直以来在相关领域内受到广泛关注。每个人站在不同的角度分析&#xff0c;都会有不同的结论&#xff0c;我们今天聊聊这个话题。 基本定义和功能 可编程控制器PLC与直接数字控制器DDC&#xff0c;两者都由CPU模块、I/O模块、显示模块…

张量操作与线性回归

一、张量的操作&#xff1a;拼接、切分、索引和变换 &#xff08;1&#xff09;张量拼接与切分 1.1 torch.cat() 功能&#xff1a;将张量按维度dim进行拼接 • tensors: 张量序列 • dim : 要拼接的维度 torch.cat(tensors, dim0, outNone)函数用于沿着指定维度dim将多个张量…

CGAL的AABB tree

1、介绍 AABB树组件提供了一种静态数据结构和算法&#xff0c;用于对有限的三维几何对象集进行高效的交集和距离查询。可以查询数据结构中存储的几何对象集&#xff0c;以进行交集检测、交集计算和距离计算。 交集查询可以是任何类型的&#xff0c;只要在traits类中实现了相应的…

2024.1.1 hive_sql 题目练习,开窗,行列转换

重点知识: 在使用group by时&#xff0c;select之后的字段要么包含在聚合函数里&#xff0c;要么在group by 之后 进行行转列,行转列的核心就是使用concat_ws函数拼接(分隔符,内容), -- 以及collect_list函数进行收集,list不去重, set去重无序 列转行,核心就是使用炸裂函数把东…

DSL查询语法和RestClient查询文档

目录 DSL查询语法 DLS Query的分类 DSL Query基本语法 全文检索查询 精准查询 地理查询 复合查询 Function Score Query 复合查询 Boolean Query 搜索结果处理 排序 分页 分页 深度分页问题 深度分也解决方案 高亮 RestClient查询文档 快速入门 全文检索查…

将学习自动化测试时的医药管理信息系统项目用idea运行

将学习自动化测试时的医药管理信息系统项目用idea运行 背景 学习自动化测试的时候老师的运行方式是把医药管理信息系统项目打包成war包后再放到tomcat的webapp中去运行&#xff0c;于是我想着用idea运行会方便点&#xff0c;现在记录下步骤方便以后查找最开始没有查阅资料&am…

【心得】PHP反序列化高级利用(phar|session)个人笔记

目录 ①phar反序列化 ②session反序列化 ①phar反序列化 phar 认为是java的jar包 calc.exe phar能干什么 多个php合并为独立压缩包&#xff0c;不解压就能执行里面的php文件&#xff0c;支持web服务器和命令行 phar协议 phar://xxx.phar $phar->setmetadata($h); m…

LanceDB:在对抗数据复杂性战役中,您可信赖的坐骑

LanceDB 建立在 Lance&#xff08;一种开源列式数据格式&#xff09;之上&#xff0c;具有一些有趣的功能&#xff0c;使其对 AI/ML 具有吸引力。例如&#xff0c;LanceDB 支持显式和隐式矢量化&#xff0c;能够处理各种数据类型。LanceDB 与 PyTorch 和 TensorFlow 等领先的 M…

三菱人机交互GT Designer的使用(三,指示灯,数值显示与输入,字符串显示与输入,日期|时间的显示)

今天继续对GT进行学习&#xff0c;如有不妥&#xff0c;欢迎指正&#xff01;&#xff01;&#xff01; 目录 指示灯设置 设置指示灯 位指示灯 字指示灯 数值输入&#xff0c;输出&#xff08;二者差距不大&#xff09; 数值显示与输出 数值显示&#xff08;只能显示&…

【Maven】工程依赖下载失败错误解决

在使用 Maven 构建项目时&#xff0c;可能会发生依赖项下载错误的情况&#xff0c;主要原因有以下几种&#xff1a; 下载依赖时出现网络故障或仓库服务器宕机等原因&#xff0c;导致无法连接至 Maven 仓库&#xff0c;从而无法下载依赖。 依赖项的版本号或配置文件中的版本号错…

【计算机毕业设计】ssm+mysql+jsp实现的在线bbs论坛系统源码

项目介绍 jspssm&#xff08;springspringMVCmybatis&#xff09;MySQL实现的在线bbs论坛系统源码&#xff0c;本系统主要实现了前台用户注册登陆、浏览帖子、发布帖子、个人信息管理、消息通知管理&#xff0c;积分管理&#xff0c;后台管理功能有&#xff1a;友情链接管理、…

怎么设计一个简单又直观的接口?

文章目录 问题的开端为什么从问题开始&#xff1f;自然而来的接口 一个接口一件事情减少依赖关系使用方式要“傻” 小结 开放的接口规范是使用者和实现者之间的合约。既然是合约&#xff0c;就要成文、清楚、稳定。合约是好东西&#xff0c;它可以让代码之间的组合有规可依。但…

Stable Diffusion API入门:简明教程

Stable Diffusion 是一个先进的深度学习模型&#xff0c;用于创造和修改图像。这个模型能够基于文本描述来生成图像&#xff0c;让机器理解和实现用户的创意。使用这项技术的关键在于掌握其 API&#xff0c;通过编程来操控图像生成的过程。 在探索 Stable Diffusion API 的世界…

爱思唯尔的KBS——模板、投稿、返修、接收的总结

第二篇论文终于是接受了QAQ&#xff0c;被审稿人疯狂拖时间&#xff0c;KBS是真难绷啊 由于之前发布过关于爱思唯尔旗下的ESWA博客&#xff0c;KBS和ESWA是类似的&#xff0c;因此本篇博客主要说下区别以及期间碰到的各种情况&#xff0c;有疑问依然可以在评论区说&#xff0c;…

【C语言】函数

函数是什么&#xff1f; “函数”是我们早些年在学习数学的过程中常见的概念&#xff0c;简单回顾一下&#xff1a;比如下图中&#xff0c;你给函数 f(x)2*x3 一个具体的x,这个函数通过一系列的计算来返回给你一个结果(图示如下)。 这就是数学中函数的基本过程和作用。但是你…

48、激活函数 - 梯度消失和梯度爆炸

简单介绍下梯度消失和梯度爆炸,这个不是重点,但是我觉得有必要再深入了解这个概念,以及很多激活函数为什么是可以防止梯度消失的。 梯度消失和梯度爆炸实际上是在神经网络训练过程中经常会遇到的两类问题,这两类问题都与梯度有关。 什么是梯度 在神经网络训练中,梯度是指…

Final Cut 视频剪辑快速入门,小白上手视频课的制作

本文是一个快速入门教程&#xff0c;如果您是0视频处理基础&#xff0c;又想录制网课或是一些对效果要求不高的视频那么这篇教程足够使用了。 本文主要用Final Cut处理视频课&#xff0c;本文是笔者在制作视频课过程中逐渐摸索的&#xff0c;如果您想制作一些比较专业的视频&a…

mysql原理--Explain详解

1.概述 一条查询语句在经过 MySQL 查询优化器的各种基于成本和规则的优化会后生成一个所谓的 执行计划 &#xff0c;这个执行计划展示了接下来具体执行查询的方式&#xff0c;比如多表连接的顺序是什么&#xff0c;对于每个表采用什么访问方法来具体执行查询等等。设计 MySQL 的…