实际场景:
项目中数据拷贝慢(使用的是memcpy),希望能加速拷贝,所以尝试了使用avx的流方式,和openmp方式处理
问题1:
调用avx是报错
error: inlining failed in call to always_inline ‘__m512i _mm512_stream_load_si512(void*)’: target specific option mismatch
原因:
需要配置cmakeLists
set(CMAKE_CXX_FLAGS "-std=c++17 -mfma -mavx2 -mavx512f")
不同函数配置的-mxxx不同,如果出现类似上述错误,需要去查看
https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html#expand=3828,301,2553&text=_mm512_stream_si512&ig_expand=6643,6655
注意配置的时候是小写
问题2:
openmp无效
代码中使用了上述openmp语句,但是运行无效
原因:
CMakeLists需要配置
set(CMAKE_CXX_FLAGS "-std=c++17 -fopenmp -mfma -mavx2 -mavx512f")