【STM32开发笔记】STM32H7S78-DK上的CoreMark移植和优化--兼记STM32上的printf重定向实现及常见问题解决

news2025/1/13 9:34:29

【STM32开发笔记】STM32H7S78-DK上的CoreMark移植和优化--兼记STM32上的printf重定向实现及常见问题解决

    • 一、CoreMark简介
    • 二、创建CubeMX项目
      • 2.1 选择MCU
      • 2.2 配置CPU时钟
      • 2.3 配置串口功能
      • 2.4 配置LED引脚
      • 2.5 生成CMake项目
    • 三、基础功能支持
      • 3.1 支持记录耗时
      • 3.2 支持printf输出到串口
      • 3.3 支持printf输出浮点数
    • 四、移植CoreMark源码
      • 4.1 添加CoreMark源码
      • 4.2 修改 core_portme.c 文件
      • 4.3 修改 core_portme.h 文件
      • 4.4 修改 core_main.c 文件
      • 4.5 修改 main.c 文件
      • 4.6 修改 CMakeLists.txt 文件
      • 4.7 编译、下载、运行
    • 五、优化CoreMark跑分
      • 5.1 修改CMake构建类型
      • 5.2 修改编译优化选项
      • 5.3 打开ICache和DCache
      • 5.4 解决换行不对齐问题
      • 5.5 项目最终版源代码
    • 六、参考链接

本文首介绍CoreMark是什么,然后使用CubeMX创建空的STM32H7S7L8HxH项目,并生成基于CMake的项目代码;接着一步步将CoreMark源码移植到项目中;最后一步步优化CoreMark跑分,将跑分从106.4最终优化到2410.2分,实现了近23倍的提升。本文实验过程中介绍了如何使用STM32 HAL库接口进行计时,以及如何将printf输出重定向到UART,并通过ST-Link调试器接收UART输出。另外,本文还介绍了如何解决使用gcc工具链时STM32上的printf无法输出浮点数问题,以及如何解决STM32上printf输出换行不对齐问题。因此,无论你对STM32H7S上的CoreMark跑分感兴趣,还是对STM32上的printf重定向方法及常见问题感兴趣,本文都值得一看。

一、CoreMark简介

什么是CoreMark?

来自CoreMark首页的解释是:

CoreMark is a simple, yet sophisticated benchmark that is designed specifically to test the functionality of a processor core. Running CoreMark produces a single-number score allowing users to make quick comparisons between processors.

翻译一下就是:

CoreMark是一个简单而又精密的基准测试程序,是专门为测试处理器核功能而设计的。运行CoreMark会产生一个“单个数字”的分数,(从而)允许用户在(不同)CPU之间进行快速比较。

简单来说,就是一个测试CPU性能的程序,类似PC上的Cinebench、CPU-Z之类的CPU性能测试工具。

了解了CoreMark是什么之后,接下来我们尝试在STM32H7S78-DK开发板上跑一下CoreMark,看看分数是多少。

接下来就可以开始进行CoreMark移植了,为了让移植步骤清晰明确,这里我把移植分为两大部分:

  • 基础功能支持,即创建一个支持printf打印和计时的项目
  • CoreMark移植,即将CoreMark源码添加到项目中,并修改CoreMark源码,使其能够正常运行

二、创建CubeMX项目

2.1 选择MCU

首先,启动CubeMX,Commercial Part Number 收入H7S7,回车搜索:

image-20240826131959287

选中Board一行有STM32H7S78-DK的,然后点击右上角的Sart Project,开始创建项目。

2.2 配置CPU时钟

然后,STM32CubeMX进入配置界面,切换到Clock Configuration标签页,将To CPU Clocks修改为600并回车,CubeMX软件将会自动计算其他参数:

image-20240810215519566

按Ctrol+S保存,选择适当的位置保存ioc文件。

2.3 配置串口功能

开发板上自带了ST-Link V3调试器,该调试器带有虚拟串口功能。通过查阅原理图,我们知道主控MCU和ST-Link之间的连接关系如下图:

image-20240826132658150

可以看到,ST-Link的虚拟串口和主控芯片的连接关系为:

  • VCP_RX连接到主控芯片的 PD0上;
  • VCP_TX连接到主控芯片的 PD1上;

接下来,需要修改这两个引脚的功能。

修改PD0为UART4_RX功能:

image-20240826133132134

修改PD1为UART4_TX功能:

image-20240826133235547

启用UART4功能,设置为异步,并分配到Boot子项目:

image-20240826133504346

2.4 配置LED引脚

为了方便观察CoreMark执行完成了,我们把红色LED的控制引脚也配置一下。查阅原理图,找到USER LED对应部分:

image-20240826133841473

可以看到,红色LED对应的是PM2引脚。

修改PM2引脚为GPIO_Output功能:

image-20240826134044704

将其分配到Boot子项目,并为其设置用户标签(User Label):

image-20240826134639829

2.5 生成CMake项目

接下来,CubeMX软件切换到Project Manager标签页,Project Structure勾选 Boot Project,Toolchain/IDE下拉到 CMake:

image-20240826134832077

Code Generator部分,勾选Generate peripheral initialization as a pair of ‘.c/.h’ files per peripherals:

image-20240826135042245

最后,点击右上角的Generate Code,生成代码:

image-20240826135232378

VSCode导入项目等等操作,本文不再赘述,具体可参考我上一篇帖子:

【STM32H7S78-DK评测】搭建基于ST官方VSCode扩展的STM32开发环境 - STM32团队 ST意法半导体中文论坛 (stmicroelectronics.cn)

三、基础功能支持

基础功能支持主要包括两个功能:

  • 支持记录耗时
  • 支持printf打印(包括浮点数打印)

下面分别介绍如何实现这两个功能。

3.1 支持记录耗时

STM32上,使用HAL库记录耗时非常简单,只需要用:

  • HAL_GetTick() 获取Tick数即可,默认的Tick频率是1000Hz;
  • 需要注意的是: HAL_GetTickFreq() 返回的枚举值,并不是实际的频率(例如默认的HAL_TICK_FREQ_1KHZ,其值为1,而不是1000)。

因此,记录使用HAL_GetTick记录耗时,代码类似:

uint32_t start = HAL_GetTick();

// 需要记录耗时的代码

uint32_t end = HAL_GetTick();
float cost_s = (end - start) / 1000.0f;  // 实际耗时(单位:秒)

3.2 支持printf输出到串口

CubeMX选择CMake项目后,默认已经生成了 syscalls.c文件,已经实现了支持gcc工具链的printf输出的一半功能。另外一半功能需要手动添加到usart.c文件的末尾的USER CODE区域:

/* USER CODE BEGIN 1 */
#ifdef __GNUC__
// GCC
int __io_putchar(int ch)
{
  if (HAL_UART_Transmit(&huart4, (uint8_t*) &ch, 1, HAL_MAX_DELAY) != HAL_OK)
  {
    return -1;
  }
  return ch;
}
#endif

/* USER CODE END 1 */

完成以上修改之后,就可以适用printf打印了,可以修改main.c,找到其中的循环进行测试:

  /* Infinite loop */
  /* USER CODE BEGIN WHILE */
  int count = 0;
  printf("Hello, from STM32H7S78-DK!\r\n");
  while (1)
  {
    printf("Hello, from STM32H7S78-DK %d!\r\n", ++count);
    HAL_Delay(1000);
    /* USER CODE END WHILE */

    /* USER CODE BEGIN 3 */
  }
  /* USER CODE END 3 */

如无意外,编译、下载、运行可以通过ST-Link的虚拟串口看到如下输出:

image-20240826140723588

3.3 支持printf输出浮点数

默认生成的CMake项目不支持浮点数打印,需要修改链接选项,修改文件Boot\CMakeLists.txt

在末尾添加如下代码片段:

target_link_options(${CMAKE_PROJECT_NAME} PRIVATE
    -u _printf_float
)

之后,再次编译,就可以输出浮点数了。

类似的,为了验证可以正常输出浮点数,修改main.c中的循环:

  /* Infinite loop */
  /* USER CODE BEGIN WHILE */
  int count = 0;
  printf("\r\n");
  printf("Hello, from STM32H7S78-DK!\r\n");
  while (1)
  {
    ++count;
    printf("Hello, from STM32H7S78-DK %d %f!\r\n", count, 1.0 / count);
    HAL_Delay(1000);
    /* USER CODE END WHILE */

    /* USER CODE BEGIN 3 */
  }
  /* USER CODE END 3 */

如无意外,编译、下载、运行,可以在串口看到如下输出:

image-20240826141055571

四、移植CoreMark源码

4.1 添加CoreMark源码

CoreMark代码仓:https://github.com/eembc/coremark.git

将代码下载下来之后,将其中的如下文件到项目的Boot\Core\Src子目录下:

image-20230528153906822

拷贝后,Boot项目文件结构如下:

image-20240826141818905

4.2 修改 core_portme.c 文件

core_portme.c文件中,需要修改的是计时的几个宏定义,具体如下:

// 注释(或者删除)原来的这三个宏定义
//#define CORETIMETYPE               clock_t
//#define GETMYTIME(_t)              (*_t = clock())
//#define EE_TICKS_PER_SEC           (NSECS_PER_SEC / TIMER_RES_DIVIDER)

// 添加以下代码:
#include "stm32h7rsxx_hal.h"
#define CORETIMETYPE               uint32_t
#define GETMYTIME(_t)              (*_t = HAL_GetTick())
#define EE_TICKS_PER_SEC           (1000)

4.3 修改 core_portme.h 文件

core_portme.h文件,开头部分需要新增如下代码:

#define ITERATIONS 1600    // 这个值需要保证能够运行至少10秒,可以先写一个值,运行不足10秒会报错,再回来修改
#define FLAGS_STR ""       // 这个值根据实际的编译优化选项进行填写,在最终输出种原样输出,根据实际用的编译选项修改
#define MAIN_HAS_NOARGC 1   // coremark main不使用参数
#define MAIN_HAS_NORETURN 1 // coremark main不使用返回值

void core_main(void);       // coremark main 函数原型

4.4 修改 core_main.c 文件

coremark源码的core_main.c中定义了main函数,CubeMX生成的main.c中也有main函数,直接编译会产生冲突,因此需要修改core_main.c文件,重命名其中的main函数,并在main.c中调用它。

在core_main.c中,找到main函数,并将其修改为core_main:

image-20240826142531601

4.5 修改 main.c 文件

接下来,修改 main.c 文件,开头出添加:

image-20240826143017863

找到while循环,并将其修改为:

  /* Infinite loop */
  /* USER CODE BEGIN WHILE */
  printf("\r\nHello, from STM32H7S78-DK!\r\n");
  core_main();
  while (1)
  {
    HAL_GPIO_TogglePin(RED_GPIO_Port, RED_Pin);
    HAL_Delay(1000);
    /* USER CODE END WHILE */

    /* USER CODE BEGIN 3 */
  }
  /* USER CODE END 3 */

4.6 修改 CMakeLists.txt 文件

完成以上修改后,还差最后一步,就是让新增的coremark的几个源码文件参与到编译、链接过程中。因此,需要修改Boot\CMakeLists.txt文件,

找到其中的target_sources代码片段,将其修改为:

# Add sources to executable
target_sources(${CMAKE_PROJECT_NAME} PRIVATE
    # Add user sources here
    ./Core/Src/core_list_join.c
    ./Core/Src/core_main.c
    ./Core/Src/core_matrix.c
    ./Core/Src/core_state.c
    ./Core/Src/core_util.c
    ./Core/Src/core_portme.c
)

4.7 编译、下载、运行

完成上述所有修改后,编译构建,可以看到如下输出:

image-20240826144545961

下载、运行,可以看到串口输出如下:

image-20240826145625309

跑分结果为 106.425 分,这个分数太低了。另外,输出结果中的换行没有从头对齐,但这个问题不大,可以最后再处理,具体处理方法见本文的5.4节。

五、优化CoreMark跑分

前面CoreMark跑分较低,接下来尝试通过不同方法提升跑分。

5.1 修改CMake构建类型

仔细观察4.7节的构建输出,可以看到Build type为Debug。接下来,将其修改为Release,尝试再次运行CoreMark。

修改Boot\CMakeLists.txt文件,将其中的CMAKE_BUILD_TYPE修改为Release:

image-20240826150158094

再次编译,可看到FLASH占用少了很多:

image-20240826150631410

下载、运行,可以看到串口输出如下:

image-20240826150314942

这次的分数为230.81,但出现了报错,提示执行时间不足10秒。

修改前面提到的 core_portme.h 中的 ITERATIONS ,将其修改为 3200, 再次编译、下载、运行,串口输出如下:

image-20240826150748473

跑分还是230.81,执行时间变成了13秒多了。

5.2 修改编译优化选项

CMAKE_BUILD_TYPE修改为Release后,实际的编译优化选项是-Os,可以在生成的compile_commands.json中找到具体编译命令:

image-20240826151031175

接下来,修改 Boot\CMakeLists.txt 文件,在其中添加如下代码段:

target_compile_options(${CMAKE_PROJECT_NAME} PRIVATE
    -Ofast
)

顺便修改core_portme.h中的FLAGS_STR"-Ofast"

再次编译,可以看到FLASH占用如下:

image-20240826151453554

再次下载、运行,可以看到串口输出如下:

image-20240826151707203

这次分数来到了447.43,可喜可贺!

然而,按照过往经验,600MHz Cortex-M7 CPU的CoreMark跑分不应该只有400多!

5.3 打开ICache和DCache

接下来,修改main.c,在main函数的开头添加如下代码:

  /* USER CODE BEGIN 1 */

  /* Enable the CPU Cache */
  /* Enable I-Cache---------------------------------------------------------*/
  SCB_EnableICache();

  /* Enable D-Cache---------------------------------------------------------*/
  SCB_EnableDCache();
  /* USER CODE END 1 */

再次编译下载运行,可以看到串口输出如下:

image-20240826152451816

执行时间变成了2秒多,有报错。

重新修改 ITERATIONS 为 32000,再次编译下载运行,可以看到串口输出如下:

image-20240826152657836

分数跑到了2410.18,好了,这次的分数差不多可以了。

5.4 解决换行不对齐问题

由于CoreMark结果输出使用的换行仅为\n,而在串口终端中,需要使用\r\n才能保证换行对齐。

为了让没有\r的一行文本输出也可以正常对齐,我们可以修改 syscalls.c 中的 _write 函数。

修改前为:

__attribute__((weak)) int _write(int file, char *ptr, int len)
{
  (void)file;
  int DataIdx;

  for (DataIdx = 0; DataIdx < len; DataIdx++)
  {
    __io_putchar(*ptr++);
  }
  return len;
}

修改后为:

__attribute__((weak)) int _write(int file, char *ptr, int len)
{
  (void)file;
  int DataIdx;

  static int cr = 0;  // 是否遇到 \r 状态
  for (DataIdx = 0; DataIdx < len; DataIdx++)
  {
    if (*ptr == '\r') {
      cr = 1;
    }
    if (*ptr == '\n') {
      if (!cr) {
        __io_putchar('\r');
      }
      cr = 0;
    }
    __io_putchar(*ptr++);
  }
  return len;
}

完成上述修改后,再次编译下载运行,可以看到串口输出如下:

image-20240826153448839

好了,这下看起舒服多了。

最终成绩:2410.183023 分,和CoreMark官网上查到的STM32H72x/73x系列使用IAR编译器的成绩差不多了:

image-20240826153720804

毕竟IAR是收费的,使用免费的GCC编译,能够跑到这个分数,已经可以了。

5.5 项目最终版源代码

整个项目代码,已分享至GitHub: https://github.com/xusiwei/STM32H7S78-DK-CoreMark.git

六、参考链接

  1. CoreMark官方页面: https://www.eembc.org/coremark/
  2. CoreMark源代码仓: https://github.com/eembc/coremark.git
  3. CoreMark分数查询网页: https://www.eembc.org/coremark/scores.php
  4. STM32H7S78-DK原理图: https://www.st.com.cn/resource/en/schematic_pack/mb1736-h7s7l8-d01-schematic.pdf
  5. STM32CubeMX下载页面: https://www.st.com.cn/zh/development-tools/stm32cubemx.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三个令人破防的真理

1、所有的人都倡导正义这是不是一件好事呢&#xff1f; 答案肯定是否定的&#xff0c;因为倡导正义不等于践行正义&#xff0c;很多人都倡导&#xff0c;那你做好事是很不容易拿到结果的&#xff0c;相反&#xff0c;你如果做坏事&#xff0c;你是非常容易拿到结果的。 我们的…

stm32f103c8t6 pid算法控制温度详解

目录 1. 硬件准备 必要的硬件组件: 接线示例: 2. PID算法简介 3. 软件实现 初始化和配置 PID控制算法实现 4. 调试和优化 调试步骤: 参数调整技巧: 5. 结论 在使用STM32F103C8T6微控制器进行温度控制时,PID(比例-积分-微分)算法是一种常见且有效的控制方法。…

深度学习——大模型分词

1. 前言 自从chatgpt出现&#xff0c;大模型的发展就进入了快车道&#xff0c;各种各样的大模型卷上天&#xff0c;作为一个在大模型时代的科研人&#xff0c;即使你不向前&#xff0c;也会被时代裹挟着向前&#xff0c;所以还是自己走快一点比较好&#xff0c;免得被后浪拍死…

黑神话悟空配置要求高吗? 配置要求介绍

《黑悟空神话》这款游戏从实机演示中可以看出对配置要求并不低&#xff0c;可以根据当前上市的游戏来推断出该游戏的配置要求。 1、推荐配置&#xff1a; 操作系统:Windows 7, Windows 8.1, Windows 10(均为64位) 处理器: Intel Core i5-6600K / AMD Ryzen 5 1600 内存: 16 …

vue后台项目打包成桌面应用程序(.exe)

目录&#xff08;本项目基于vue2&#xff09; 1、打包成功后的样子​ 2、开发环境 3、开发流程&#xff08;serve build 基础设置 系统托盘&#xff09; 4、插件下载地址 5、打包后的配置文件: 6、镜像 1、打包成功后的样子 2、开发环境 node&#xff1a;14.18.1 elec…

“等保”??到底保什么?简单了解信息安全等级保护

若已部署了畅云管家的企业需要做“等保”&#xff0c; 我们可提供注册等保所需材料 若有需求请咨询所属服务商 等级保护&#xff08;简称“等保”&#xff09; 简单总结&#xff1a;等保就是信息安全等级保护&#xff0c;网络安全法要求网络运营者应当按照网络安全等级保护…

告别复杂编程,低代码平台如何简化列表页多模型数据配置

在现代企业管理和信息系统建设中&#xff0c;随着业务复杂度的不断提升&#xff0c;单一数据模型往往难以满足复杂的数据展示需求。特别是在构建企业级应用或管理平台时&#xff0c;经常需要在一个界面上综合展示来自多个数据模型的信息&#xff0c;以便用户能够更全面地理解业…

OCR智能合同比对工具——快速比对合同差异点

在现代商业活动中&#xff0c;合同是确保交易双方权益和责任的重要法律文件。随着商业活动的复杂性增加&#xff0c;合同版本更新和修订变得越来越频繁。法务、采购等合同经办部门在处理合同时&#xff0c;往往面临着以下挑战&#xff1a; 1.版本一致&#xff1a;随着合同的不…

操作系统面试真题总结(一)

文章收录在网站&#xff1a;http://hardyfish.top/ 文章收录在网站&#xff1a;http://hardyfish.top/ 文章收录在网站&#xff1a;http://hardyfish.top/ 文章收录在网站&#xff1a;http://hardyfish.top/ 什么是用户态和内核态 用户态和内核态是操作系统的两种运行状态。…

Redis_AOF持久化

AOF持久化 在AOF持久化的过程中&#xff0c;会以日志的方式记录每个redis“写”命令&#xff0c;并且redis服务器重启时重新执行AOF日志文件中的命令&#xff0c;从而达到“恢复数据”的效果 AOF故障恢复 当redis因发生故障而重启时&#xff0c;redis服务器会按照如下步骤根据…

演绎法推理

cp规则&#xff1a;给前提集合&#xff0c;给结论&#xff0c;要求推导前提推导结论。把结论化成蕴含式&#xff0c;里面的蕴含前件为真拿下来做补充条件&#xff0c;再和前提集合里面那么多条件一起推&#xff0c;最后推出那个结论为真。

【吊打面试官系列-Redis面试题】Redis 的数据类型?

大家好&#xff0c;我是锋哥。今天分享关于 【Redis 的数据类型&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; Redis 的数据类型&#xff1f; 答&#xff1a;Redis 支持五种数据类型&#xff1a;string&#xff08;字符串&#xff09;&#xff0c;hash&#x…

常见的服务器容器和漏洞类型汇总

常见的服务器容器和漏洞有哪些&#xff1f;常见的服务器容器包括KubeSphere、Tomcat、Nginx、Apache等&#xff0c;它们在提供便捷的服务部署和灵活的网络功能的同时&#xff0c;也可能存在着一定的安全风险。这些容器的漏洞可能导致数据泄露、权限被非授权访问甚至系统被完全控…

深入京东API世界:商品详情返回值的秘密

京东API世界中的商品详情返回值是一个复杂而精细的数据体系&#xff0c;它承载着商品的全面信息&#xff0c;对于商家、用户以及开发者而言&#xff0c;都具有极高的价值。下面&#xff0c;我们将深入探索京东商品详情API返回值的秘密。 基本结构概述 京东商品详情API的返回值…

【工控】线扫相机小结 第二篇

背景 上一篇中《线扫相机小结》中介绍了一些基础知识和注意事项&#xff0c;这一篇是对上一篇的进一步补充。 会介绍线扫相机的一些调试技巧。 如何在线调试&#xff1f; 我们知道&#xff0c;线扫相机不能像面阵相机一样实时的呈现图像&#xff0c;只能一行行的扫描&#x…

谷歌的搜索语法

谷歌搜索常用语法 谷歌提供了多种搜索语法&#xff0c;帮助用户更精确地查找所需内容。以下是一些常用语法的介绍和示例&#xff1a; 1. 精确匹配&#xff1a;使用双引号 " " 在搜索内容时&#xff0c;如果需要精确匹配某个词组&#xff0c;可以将其放在双引号内。 …

BaseCTF 高校联合新生赛 Week1

Week1 Web [Week1] HTTP BaseCTF{4248fc3d-a280-4de0-b5e6-6ff0ecaa1fca} [Week1] 喵喵喵•&#xfecc;• [Week1] md5绕过欸 [Week1] A Dark Room [Week1] upload 什么过滤都没有&#xff0c;上传一句话木马即可 [Week1] Aura 酱的礼物 卡在SSRF那里&#xff0c; 我想用…

SpringCloud之二注册中心(Eureka)

一、Eureka概述 Eureka是Netflix公司开源的一个服务注册与发现的中间组件。 在微服务架构系统之中&#xff0c;我们经常提三个角色&#xff1a;注册中心 (Register)、服务提供者(Provider)、服务消费者(Consumer)。 1.注册中心&#xff1a;服务提供者可以将服务发布到注册中心…

亚马逊aws的弹性与可扩展性解析

欢迎来到雲闪世界。可以使用各种服务和工具在 AWS 上实现可扩展性和弹性。例如&#xff0c;AWS Application Auto Scaling 是一种可以自动调整容量以低成本实现出色应用程序性能的服务。这允许轻松设置跨多个服务的多个资源的应用程序扩展。让我们来谈谈弹性和可扩展性之间的区…

数据结构基础详解(C语言): 树与二叉树的基本类型与存储结构详解

文章目录 1.树2.二叉树2.1 二叉树的基本概念2.2 满二叉树2.3 完全二叉树2.4 二叉排序树2.5 平衡二叉树 3.二叉树的存储结构3.1 二叉树的顺序存储3.2 二叉树的链式存储 1.树 树的基本概念 结点的度&#xff1a;指该结点的分支个数&#xff0c;如结点A的度为2 树的度&#xff1a;…