编译器优化是现代编译器的重要功能,旨在提升程序的执行效率和性能。然而,在某些特定的测试或精确计算场景中,我们需要禁用这些优化以确保所有计算按预期执行。下面研究在 Keil 编译器中禁用和启用优化对执行多次次浮点除法运算时间的影响。
设计了一个实验:计算a=a+b的值与运算时间,进行1000次重复的加法浮点运算。
部分代码如下:
void float_operations_test(void)
{
float a = 1.23f;
float b = 4.56f;
uint32_t start_time, end_time;
// 开始定时器
HAL_TIM_Base_Start(&htim2);
// printf("其中a=1.23 b=4.56,重复运算,在170Mhz每个时钟周期为: %lu ns\n", 6);
// 测试加法
start_time = __HAL_TIM_GET_COUNTER(&htim2);
for (int i = 0; i < 1000; i++)
{
a= a +b;
}
end_time = __HAL_TIM_GET_COUNTER(&htim2);
printf("加法时间: %lu 个时钟周期\n", end_time - start_time);
printf("加法结果: %f\n", a);
// 停止定时器
HAL_TIM_Base_Stop(&htim2);
}
一、浮点数加法的时间
首先,去掉编译器优化,通过DEBUG,查看浮点数加法对应的汇编指令:
上面是ARM Cortex-M4处理器的浮点运算指令,分别对应于浮点数加法操作和浮点数传送操作,
第一条指令将S16
和S17
中的浮点数相加,结果存储在S0
中,第二条指令将S0
中的结果复制回S16
中。
在DEBUG里执行这两条汇编指令的时间大约十几ns,只进行一次加法时间更短。
下面我通过另一种方式:串口发送运算前后定时器计数值CNT的差值。
先看对应的汇编指令:
在DEBUG里执行这五条汇编指令的时间大约八十几ns。
串口打印计算一次加法运算的结果如下。
一个时钟周期为1/170MHZ=5.88ns,16个对应94ns,与调试的时间差不多,可以认为在keil debug中单步调试得到的时间有可信度。
二、编译器优化前后对计算浮点加法运算时间的影响
1.未启用优化的结果,1000次
分析:这样得到的单次加法时间为8个时钟周期,大约为47ns。这是为什么?通过在keil里单步调试发现执行for循环(对应的汇编指令0x08003E52 1C40 ADDS r0, r0, #1),循环每次需要40ns。
2.未启用优化的结果,100次
3.启用优化的结果,100次
4.启用优化的结果,1000次
分析:编译器可能识别出循环体内的计算模式,并进行循环展开或其他优化,减少了实际执行的指令数量。例如,如果计算结果具有某种重复性,编译器可能会提前计算结果或减少不必要的计算,减少计算时间。
结论:一条浮点数加法指令计算时间大约十几ns。