【研发日记】嵌入式处理器技能解锁(六)——ARM的Cortex-M4内核

news2024/9/19 7:39:55

文章目录

前言

背景介绍

指令集架构

ARM起源

ARM分类

Cortex-M4

内核框架

指令流水线

实践应用

总结

参考资料


前言

        见《【研发日记】嵌入式处理器技能解锁(一)——多任务异步执行调度的三种方法》

        见《【研发日记】嵌入式处理器技能解锁(二)——TI C2000 DSP的SCI(串口)通信》

        见《【研发日记】嵌入式处理器技能解锁(三)——TI C2000 DSP的C28x内核》        

        见《【研发日记】嵌入式处理器技能解锁(四)——TI C2000 DSP的Memory》

        见《【研发日记】嵌入式处理器技能解锁(五)——TI C2000 DSP的中断系统》

背景介绍

        ARM内核最典型的应用就是STM32,也是ARM内核出货量最大,应用最广泛的一个地方,如下图所示:

指令集架构

        理论上指令集分为复杂指令集(Complex Instruction Set Computer,CISC)和精简指令集(Reduced Instruction Set Computer,RISC)。CISC出现的较早,典型的代表是x86架构。CISC里边的每个指令通常包含多个操作(指令长度在几字节到十几字节不等),这些操作可以在单个指令中完成,这样就可以通过一条指令完成复杂的操作,减少了内存访问次数实现更高的代码执行效率,同时也提高了代码密度减少了软件开发人员编写代码的时间和工作量。随着技术的发展,指令数量越来越多,CISC处理器的设计和优化变得越来越困难,并且大部分的指令的使用频率非常低,导致了硬件资源的浪费。所以就出现了RISC,慢慢更加流行起来。RISC的特点是每个指令只执行一个操作(指令长度在2字节或4字节),指令数量精简掉很多,提高了处理器的可靠性。软件开发人员组合使用这些指令,也可以实现复杂的功能,同时也更容易对复杂操作进行设计和优化。

        下面以伪汇编指令举例,说明一个简单加法运算:地址[0001]的数据,和地址[0002]的数据相加,结果存到地址[0003]里。

        ACC形式的伪汇编指令如下:

LOAD ACC [0001]  //地址[0001]的数据,加载到累加器ACC

ADD ACC [0002] ACC  //ACC加地址[0002]的数据,结果存到ACC

STOR ACC [0003]  //ACC的数据存到地址[0003]

        LOAD_ STORE形式的伪汇编指令如下:

LOAD R1 [0001]    //地址[0001]的数据,加载到R1寄存器

LOAD R2 [0002]    //地址[0002]的数据,加载到R2寄存器

ADD R3 R1 R2       //R1+R2,结果存到R3寄存器

STORE R3 [0003]   //R3寄存器的数据存到地址[0003]

        ACC形式的微控制器只有一个ACC(累加器,ACC可以认为是一个寄存器),数据可以直接从RAM到ACC进行累加,但是运算结果需要还存回RAM里,ACC才能放入新数据。运算速度的瓶颈卡在ACC寄存器数量太少。

        LOAD_ STORE形式的微控制器没有ACC,而是增加了多个内部运算寄存器R1、R2、R3、…、R12等等,多形参函数不用反复的压栈和出栈,降低了内核和外部数据的耦合程度(同时也增加了调度难度)。运算速度的瓶颈卡在LOAD环节太多。

        总的来讲CISC和RISC各有优缺点,现代计算机处理器通常采用混合指令集。现实中的嵌入式系统芯片大多是以RISC为主体(有利于平台化通用化),少量补充一些专用CISC(有利于专项性能极致发挥),所以很难把一个厂商的处理器明确地划分为CISC或者RISC。当前影响比较大的两类是ARM(Advanced RISC Machines)和RISC-V(Reduced Instruction Set Computer -Five)。

        ARM是一种基于RISC架构的处理器架构,采用了Thumb简化指令集和Thumb-2扩展指令集。Thumb简化指令集是一种基于RISC的指令集,指令长度为16位,比原本的32位指令集要短,占用空间更小,能够在存储和传输数据时提高效率。Thumb-2扩展指令集则是在Thumb简化指令集的基础上扩展而来的,指令长度包括16位和32位两种,支持更多的指令和操作,满足不同领域应用的需求。除了RISC之外,ARM还采用了一些特殊的技术,如流水线、分支预测等,以提高指令的执行速度和效率。ARM的部分指令集如下图所示:

        RISC-V是基于RISC的一个开放,免费的指令集架构,具有灵活、可扩展定制、跨平台、广泛适用等特点。RISC-V指令集设计的目标是提供一种通用的指令集架构,适用于各种计算机系统和嵌人式系统,包括高性能服务器、个人计算机、移动设备、物联网、机器人、汽车电子等领域。RISC-V包括基本指令集(RV32I、RV64I)和标准扩展指令集(RV32G、RV64G),以及可选的专用扩展指令集,如浮点指令集(RV32F、RV32D、RV64F、RV64D),向量指令集(RV32V、RV64V)等,开发者可以根据实际需求选择合适的指令集。RISC-V的特性点决定了其在未来计算机系统和嵌人式系统发展趋势中的重要地位,是我国芯片领域自主创新的一个重要方向,以华为麒麟710、北京兆易GD32V系列为代表的国产RISC-V芯片,已经开始广泛用于各种领域。

        Tips1:MIPS(Microprocessor without Interlocked Pipeline Stages)也是采取RISC的一种指令集架构。

        Tips2:TI C2000 DSP的C28x内核官方宣称是RISC,实际上也包含了CISC。

ARM起源

        1978年,物理学家Hermann Hauser和工程师Chris Curry在英国剑桥创办了CPU(Cambridge Processing Unit)公司,主要业务是为当地市场供应电子设备。后来公司改名为ACG(Acorn Computer Group)公司。

        1983年,ACG公司开始研发一种新的处理器架构,命名为ARM(Advanced RISC Machine)。两年时间就开始被应用在自家的新一代计算机Archimedes上。

        1990年,ACG公司正式改名为ARM计算机公司,吸引了很多大公司的投资。苹果公司、芯片厂商VLSI公司,加上ACG本身的资金和知识产权,一起人股做了一家这样的ARM计算机公司。起初由于业务不景气,ARM公司被迫放弃自己制造芯片,把芯片的设计方案授权给其他公司来生产。正是因为这个因祸得福的模式,使ARM的芯片遍地开花。这个迫于无奈的决定,在今天看来意义非常深远,奠定了ARM公司长久以来的发展模式。

        近年来,ARM 继续推出了一系列高性能、低功耗的处理器,如Cortex-A76、Cortex-A77和Cortex-A78等,被广泛地应用于智能手机、物联网和自动驾驶等领域。同时,ARM还在人工智能、机器学习等领域不断进行探索。

        现在的ARM公司是全球嵌人式处理器领域的领导者,在嵌入式领域有着巨大的影响。ARM公司基本不生产处理器芯片,而是专注于设计处理器内核和架构,然后再授权给其他芯片厂商,赚取首次的授权费和后续销售每颗处理器芯片的知识产权费。ARM合作商遍布全球,根据ARM公司发布的数据,其处理器架构在全球处理器市场份额已经超过50%,特别是在智能手机和平板电脑等领域,几乎是市场的独霸者。由于ARM刚好赶上了移动设备爆发式发展的时代,最终造就了它的辉煌。

        未来,虽然ARM公司宣称其基本统一了全球的智能手机领域,但在手机领域里并不轻松,有被边缘化的可能性。手机行业的客户非常强大又强势,且客户的研发实力更强,也不想受制于人,都开始着手做自己的微架构(国内的手机公司也准备抛弃ARM公司的微架构)。苹果、高通等手机芯片厂家,并不采用ARM公司的微架构,仅购买其指令集,所以不同手机处理器厂家有不同的处理速度、扩展硬件和扩展指令。

        Tips:ARM起初是一家英国公司,2016年被日本软银集团收购了,到了2020年美国NVIDIA(英伟达)想再次收购ARM,因垄断调查没有成功。

ARM分类

        ARM处理器产品分为传统经典系列和较新的Cortex处理器系列,并且根据应用范围的不同又分为应用处理器、实时处理器、微控制处理器三种类别。如下图所示:

        Cortex-A系列:这是一种ARMv7、ARMv8(64位)或ARMv9(64位)版本的应用处理器架构,采用了超标量流水线设计,能够实现更高的性能和效率。适用于高性能的移动设备、智能电视、网络设备、云计算和服务器等场景。

        Cortex-R系列:这是一种针对实时系统的ARM架构,增加了一些安全机制,具有强实时性和高可靠性,支持容错和纠错机制。适用于汽车、工业自动化、航空航天和医疗设备等领域中的专项应用,相比A系列和M系列它的市场应用窄很多。

        Cortex-M系列:这是一种专门为嵌入式系统和微控制器设计的ARM架构,具有低功耗、低成本和微实时性等特点,可以实现小型、低功耗的嵌入式系统设计。适用于智能家居、物联网、汽车、工业自动化、航空航天和医疗设备等领域的广泛应用。Cortex-M系列逐渐有覆盖R系列和A系列部分特性的发展趋势,其子系列非常丰富,包括:

1、低速度和低功耗定点系列:MO、M0+;

2、中端定点系列:M3;

3、中端含有DSP功能的可选浮点系列:M4;

4、高端含有DSP功能的浮点系列:M7;

5、加人安全机制系列:M23、M33、M35P。

        Tips:这里缺少了M1系列,因为M1系列只适用于运行在FPGA上,不是通用的微控制器内核。

Cortex-M4

        ST(意法半导体),由意大利和法国的两家半导体公司合并而成。ST公司以STM32为前缀的32位微处理器,就是采用ARM的内核。其中最为人熟知,最主流也是性价比最高的,就是入门级别的STM32 F1系列和中端级别STM32 F3系列。F1系列与F3系列最主要的不同之处就是,Cortex-M4比Cortex-M3多了浮点处理单元和DSP单元,如下图所示:

        DSP(Digital Signal Process)特性:

Single-cycle 16/32-bit MAC(Combined Multiply and Accumulate);

Single-cycle dual 16-bit MAC;

8/16-bit SIMD(Single Instruction, Multiple Data) arithmetic;

Hardware support for conversion, addition, subtraction, multiplication with optional accumulate, division(2-12 cycles), and square root;

        FPU(Floating-Point Unit)特性:

Optional single precision floating point unit;

IEEE 754 compliant;

内核框架

        Cortex-M4的内核框架如下图所示:

指令流水线

        Cortex-M4采用3级Pipeline(流水线)如下图所示:

实践应用

        👍点赞过100,下一篇文章继续

总结

一个处理器要向更高性能升级,常用的主要途径是:

1、采用更先进的nm制程工艺水平;

2、降低内核电压,从而降低功耗获得更快的工作频率

3、增加多级流水线

4、多核,但也带来代码复杂性的急剧上升;

5、增加更宽的位数,从而一次性处理多个数据,即单指令多数据流(SIMD);

6、添加新的独立硬件单元,并添加新指令。与此同时,仍要保持系统的向下兼容性,保留原先大多数的旧指令。

        随着指令的增加,要保持系统仍是精简指令集,是一件困难的事情。有程序员感叹:这个世界到底有没有指令很少的精简指令集系统?虽然多数书籍时髦的人云亦云地说,RISC架构的指令更少,实际上不断增长的ARM指令非常多,绝对不比CISC指令少。

        以上就是本人在研发中使用ARM Cortex-M4处理器时,一些个人理解和分析的总结,主要介绍了ARM的起源和发展,展示了ARM Cortex-M4内核的工作原理,并分析了它的特点和应用场景。

        后续还会分享另外几个最近解锁的嵌入式处理器新技能,欢迎评论区留言、点赞、收藏和关注,这些鼓励和支持都将成文本人持续分享的动力。

        另外,上述例程使用的Demo工程,可以到笔者的主页查找和下载。

参考资料

        Arm-Cortex-M4-Processor-Datasheet.pdf


        版权声明,原创文章,转载和引用请注明出处和链接,侵权必究!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145805.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

管理依赖版本-maven工程parent项目巧配置

本文目标:开发人员,在了解pom文件properties、dependencyManagement标签用法的条件下,进行依赖包版本统一维护,达到统一维护项目依赖jar包版本的程度。 文章目录 1 场景2 要点3 总结/练习 1 场景 maven工程多模块项目,…

数据库基础知识---------------------------(2)

MYSQL的存储过程 就是数据库 SQL 语言层面的代码封装与重用 语法格式 delimiter 自定义结束符号 create procedure 存储名({in,out,inout} 参数名,数据类型...) begin sql 语句 end 自定义结束符 delimiter; 变量定义 局部变量 用户自定义 仅在begin / end 块中有效 当将查询…

高效开发,从暗藏玄机的文件系统开始—合宙Air201资产定位模组LuatOS

超低功耗、精准定位、快速量产——迷你小巧的合宙Air201,正给越来越多的行业客户带来高效开发体验。 4G-Cat.1模组的文件系统关乎数据传输速度、存储效率,以及数据安全性等等诸多因素,在应用开发中极为重要。 本期,我们来学习合…

微型导轨在3D打印设备中的应用与实践

微型导轨的应用范围非常广泛,尤其在追求高精度、高效率及低噪音的现代打印技术中扮演着重要角色。微型导轨在3D打印机等精密设备中是常用元件,以提高打印质量和效率。 在打印机中,无论是喷墨式、激光式还是3D打印机,都需要精确的打…

JDBC编程详细总结

一、JDBC编程 JDBC编程有标准步骤(八股文) 注册驱动 将sql语句的运行环境加载到JVM 连接数据库 获得执行SQL的对象 执行SQL语句,获得结果 关流 1、 注册驱动 Class.forName("com.mysql.jdbc.Driver");//5.7版本 加载驱动 Class.forName("com.mysql.cj.jdb…

为什么收录是谷歌seo的底子?

收录是谷歌SEO的基础,因为它决定了网站页面能否被用户找到。只有被谷歌收录的页面,才有机会在搜索结果中出现。如果页面没有被收录,谷歌根本就不知道它的存在,这意味着即使内容再好、关键词再精准,也不会有任何排名 被…

fo-dicom,第一个基于.NET Standard 2.0 开发的DICOM开源库

1. 简介: fo-dicom是一个基于C#开发的库,用于处理DICOM(Digital Imaging and Communications in Medicine)格式的数据。DICOM是一种用于医学影像和相关信息的标准格式,广泛应用于医学领域。fo-dicom提供了多平台支持&…

华为OD机试 - 报数问题 - 约瑟夫环(Python/JS/C/C++ 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试真题(Python/JS/C/C)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加入华为OD刷题交流群,…

浸没边界法精度相关的论文的阅读笔记

Convergence proof of the velocity field for a stokes flow immersed boundary method https://doi.org/10.1002/cpa.20233 研究对象的选取 他这里为什么能够选取一个周期性边界的流场啊?为什么不是狄利克雷边界或者诺伊曼边界? 方形流场的边界值 …

keil里sprintf的用法

代码&#xff1a; #include<stdio.h> int main(void) {float i-123.45;char zifu[10];sprintf(zifu,"%f",i);while(1);return 0; } 仿真结果 代码&#xff1a; #include<stdio.h> int main(void) {float i123.45;char zifu[10];sprintf(zifu,"%f…

ReKep——李飞飞团队提出的新一代机器人操作方法:基于视觉语言模型和关键点约束

前言 由于工厂、车厂的任务需求场景非常明确&#xff0c;加之自今年年初以来&#xff0c;我司在机器人这个方向的持续大力度投入(包括南京、长沙两地机器人开发团队的先后组建)&#xff0c;使得近期我司七月接到了不少来自车厂/工厂的订单&#xff0c;比如柔性上料、物料分拣、…

Linux嵌入式相机 — 项目总结

main函数执行流程 1、初始化触摸屏 Touch_screen_Init();struct tsdev *ts NULL; ts ts_setup(NULL, 0); //以阻塞打开2、初始化 LCD LCD_Init(void); 通过 ioctl 函数获取 LCD 的固定参数、可变参数&#xff0c;得到分辨率、bpp、一行的长度&#xff08;以字节为单位&a…

如何创建和编辑抖音百科词条,不会的找我们代创建!

如何创建和编辑抖音百科词条&#xff0c;不会的找我们代创建&#xff01; 如何创建抖音百科个人词条&#xff0c;个人抖音百科的创建 #抖音百科 #百科 #推广 做过百度百科的老板们注意了&#xff0c;等一下别划走。 2024 年品宣新风口出现了&#xff0c;抖音百科正在替代百度…

Unity Behavior Designe 可视化有限状态机(Composites篇)

对有限状态机这一个概念你可以看看这两篇文章&#xff1a; Unity 一个比较适合学习的FSM状态机(汉化和功能简述)-CSDN博客 C# x Unity面向对象补全计划 设计模式 之 实现一个简单的有限状态机-CSDN博客 当时我对代码下的有限状态机只有一个想法&#xff0c;设计巧妙&#…

数据结构与算法学习day21-回溯法

一、组合 1.题目 . - 力扣&#xff08;LeetCode&#xff09; 2思路 把组合问题抽象成树形结构&#xff08;N叉树&#xff09; 每次从集合中选取元素&#xff0c;可选择的范围随着选择的进行而收缩&#xff0c;调整可选择的范围。 图中可以发现n相当于树的宽度&#xff0c…

Linux(6)--CentOS目录

文章目录 1. 根目录2. cd目录切换命令3. CentOS目录介绍4. pwd命令介绍5. ls命令介绍5.1 ls5.2 ls -a5.3 ls -l 1. 根目录 Windows电脑的根目录是计算机(我的电脑)&#xff0c;然后C盘、D盘。 Linux系统的根目录是/&#xff0c;我们可以使用cd /进入根目录&#xff0c;然后使…

客户端/服务器的简易实现

目录 一,网络编程套接字 二,UDP/TCP的区别(​编辑) 三,UDP API使用 四,TCP API使用 一,网络编程套接字 socket socket(操作系统给应用程序的API,起了一个名字,就成为socket API) socket API提供了两套API分别为UDP和TCP: 二,UDP/TCP的区别() TCP有链接,可靠传输,面向字…

图解view_transformation(可视化BEV视角转换的过程)

BEV视图生成的流程总结&#xff1a; &#xff08;1&#xff09;生成视锥 &#xff08;2&#xff09;将视锥由uv坐标系转到EGO坐标系 &#xff08;3&#xff09;视锥体素化 &#xff08;4&#xff09;bev_pool &#xff08;1&#xff09;生成视锥 长宽数量: 模型输入图片尺寸//…

Winform登录实现及工具栏切换

1、登录实现 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace LoginApp {public par…

峟思传感器在水库坝体渗漏防治措施中的应用

在水库工程管理中&#xff0c;坝体渗漏是一个不容忽视的问题&#xff0c;它不仅影响水库的正常运行&#xff0c;还可能对下游地区造成严重的安全隐患。因此&#xff0c;采取有效的渗漏防治措施至关重要。在这一过程中&#xff0c;传感器作为关键的技术手段&#xff0c;发挥着不…