C++深度优化——cacheline测试

news2024/11/12 15:26:39

cacheline是内存调度的基本结构,其大小一般为32B或者64B。关于本机具体的配置信息可以在配置文件中看到:

这里可以看到我的这台机器的cacheline大小是64B。对于cacheline在多核处理器中有一个伪共享的状态,具体可以参考以下博客:高速缓存伪共享 - 知乎(这个大佬写了1K多篇文章,我感觉需要好好消化消化。)

所谓“伪共享”实际上是主存中的一个cacheline中的内容,在同一时刻只能被多核中的一个捕获处理。

程序如下:

#include <unistd.h>
#include <stdio.h>
#include <string>
#include <vector>
#include <string.h>
#include <thread>
#include <chrono>
#include <iostream>
#include <atomic>

struct common
{
    volatile unsigned long a;
    volatile unsigned long b;
};
struct common_fulfill
{
    volatile unsigned long a;
    unsigned long az[7];
    volatile unsigned long b;
    unsigned long bz[7];
};

using namespace std;
int main(int argc, char** argv)
{
    cout << "no-fulfill" << endl;
    do{
        common c;
        c.a = 0;c.b=0;
        volatile bool brun = true;
        thread t1([&c,&brun]()
	{while(brun)c.a+=1;});
        thread t2([&c,&brun]()
	{while(brun)c.b+=1;});
        std::this_thread::sleep_for(std::chrono::seconds(1));
        brun=false;
	//std::atomic_thread_fence(std::memory_order_seq_cst);
        t1.join();t2.join();
        cout << "a:" << c.a << "\t b:" << c.b << endl;
    }while(0);

    cout << "fulfill" << endl;
    do{
        common_fulfill c;
        c.a = 0;c.b=0;
        volatile bool brun = true;
        thread t1([&c,&brun](){while(brun)c.a+=1;});
        thread t2([&c,&brun](){while(brun)c.b+=1;});
        std::this_thread::sleep_for(std::chrono::seconds(1));
        brun=false;
	//std::atomic_thread_fence(std::memory_order_seq_cst);
        t1.join();t2.join();
        cout << "a:" << c.a << "\t b:" << c.b << endl;
    }while(0);

    cout << "add-per-second" << endl;
    do{
        common_fulfill c;
        c.a = 0;c.b=0;
        volatile bool brun = true;
        thread t1([&c,&brun](){while(brun)c.a+=1;});
        std::this_thread::sleep_for(std::chrono::seconds(1));
        brun=false;
	//std::atomic_thread_fence(std::memory_order_seq_cst);
        t1.join();
        cout << "a:" << c.a << endl;
    }while(0);
    return 0;
}

注意,我在struct c中的a和b都增加了volatile关键字,这个关键字的作用在于将缓存和主存硬绑定,有点同步打开文件描述符的意思。这样,可以预期到内存会被以cacheline为单位上锁。然后进行编译。

这里用的是O2进行优化,然后执行,结果如下:

这个地方可以发现,在没有填充的情况下,1秒内访问的速度是3.5*10^8;而将struct c填充到128字节的访问次数是4.9*10^8。几乎同样的代码,将最后的单CPU每秒能进行加法数量的统计去掉之后,结果如下:

可以看到,两次的情况,不填充的速度总是要远远逊色于填充的情况。我们在做服务器程序深度优化的时候,要注意这个硬件细节,有时候能够极大地加快程序的运行速度。可以注意到,伪共享状态只是影响了CPU的运行时间,服务器的大量CPU时间会在等待锁中消耗,所以现在无锁代码非常流行。另外为什么增加或者修改代码的大小就会影响CPU的执行效率呢?这个问题还是没有得到答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1014215.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

正则表达式 - 语法

目录 正则表达式 - 语法 普通字符 测试工具 非打印字符 特殊字符 限定符 定位符 选择 以下列出 ?、?<、?!、? 反向引用 实例 实例 正则表达式 - 语法 正则表达式是一种用于匹配和操作文本的强大工具&#xff0c;它是由一系列字符和特殊字符组成的模式&#…

Python绘图系统19:添加时间轴以实现动态绘图

文章目录 时间轴单帧跳转源代码 Python绘图系统&#xff1a; &#x1f4c8;从0开始的3D绘图系统&#x1f4c9;一套3D坐标&#xff0c;多个函数&#x1f4ca;散点图、极坐标和子图自定义控件&#xff1a;绘图风格&#x1f4c9;风格控件&#x1f4ca;定制绘图风格坐标设置进阶&a…

深入理解Docker容器化技术:从入门到精通

&#x1f482; 个人网站:【工具大全】【游戏大全】【神级源码资源网】&#x1f91f; 前端学习课程&#xff1a;&#x1f449;【28个案例趣学前端】【400个JS面试题】&#x1f485; 寻找学习交流、摸鱼划水的小伙伴&#xff0c;请点击【摸鱼学习交流群】 Docker已经成为了现代应…

Windows开机密码破解

Windows11以及Windows10(21H2)以上版本 先开机&#xff0c;不进行任何操作&#xff0c;静静的等待登录界面 按住Shift重启 进入“选择一个选项”界面&#xff0c;点击疑难解答 点击高级选项 点击命令提示符 输入两行命令 copy C:\windows\system32\uti1man.exe C: \Window…

苹果电脑Mac系统运行速度又卡又慢是怎么回事?

通常大家处理Mac运行速度慢的方法不是重启就是清空废纸篓&#xff0c;但是这两种方法对于Mac提速性能的效果是微之甚微的&#xff0c;想要彻底解决Mac运行速度慢&#xff0c;你应该试试一下三种方法~ 1、清理磁盘空间 硬盘空间过少是Mac运行变慢很大的一个因素&#xff0c;各…

分享一个uniapp+springboot基于微信小程序的线上维修预约系统 在线维修小程序源码 lw 调试

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人七年开发经验&#xff0c;擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等&#xff0c;大家有这一块的问题可以一起交流&#xff01; &#x1f495;&…

八股文学习三(jvm+线程池+锁)

1. jvm (1)概念 JVM是可运行 Java 代码的假想计算机 &#xff0c;包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收&#xff0c;堆 和 一个存储方法域。JVM 是运行在操作系统之上的&#xff0c;它与硬件没有直接的交互。 java运行过程&#xff1a; 我们都知道 Java…

ELK 企业级日志分析系统 ELFK

目录 一、概述 二、组件介绍 2.1、ElasticSearch 2.2、Kiabana 2.3、Logstash 2.4、可以添加的其它组件&#xff1a;Filebeat 2.5、缓存/消息队列&#xff08;redis、kafka、RabbitMQ等&#xff09; 2.6、Fluentd 三、ELK工作原理 四、实例演示 1.ELK之 部署"E&q…

【Git】万字git与gitHub

&#x1f384;欢迎来到边境矢梦的csdn博文&#x1f384; &#x1f384;本文主要梳理在git和GitHub时的笔记与感言 &#x1f384; &#x1f308;我是边境矢梦&#xff0c;一个正在为秋招和算法竞赛做准备的学生&#x1f308; &#x1f386;喜欢的朋友可以关注一下&#x1faf0;&…

接入日志收集平台前需恶补的必备知识

作者 观测云 产品服务部 技术经理 赵刚 一 前言 日志是系统中的重要数据来源之一&#xff0c;包含了丰富的信息&#xff0c;可以帮助我们更好地了解系统的运行状况和问题。本指南参照观测云文档&#xff08;https://docs.guance.com/&#xff0c;以下简称官网文档&#xff09…

【Spring Boot系列】- Spring Boot侦听器Listener

【Spring Boot系列】- Spring Boot侦听器Listener 文章目录 【Spring Boot系列】- Spring Boot侦听器Listener一、概述二、监听器Listener分类2.1 监听ServletContext的事件监听器2.2 监听HttpSeesion的事件监听器2.3 监听ServletRequest的事件监听器 三、SpringMVC中的监听器3…

万象奥科参展“2023 STM32全国巡回研讨会”—武汉站

9月13日&#xff0c;万象奥科参展“2023 STM32全国巡回研讨会”— 武汉站。此次STM32研讨会将会走进全国11个城市&#xff0c;展示STM32在智能工业、无线连接、边缘人工智能、安全、图形用户界面等领域的产品解决方案及多样化应用实例&#xff0c;深入解读最新的产品技术、解决…

【微信小程序开发】宠物预约医疗项目实战-环境配置与Vant UI集成

第一章 宠物预约医疗项目实战-环境配置与Vant UI集成 文章目录 前言一、Vant UI是什么&#xff1f;二、使用步骤2.1 安装 node.js2.2 通过 npm 安装vant2.3 修改 app.json2.4 修改 project.config.json2.5 构建 npm 包2.6 使用组件全局引入和局部引入全局引入局部引入 前言 Va…

linux驱动开发---day3(自启动创建设备节点进行点灯实验、ioctl函数实现点灯实验)

自动创建设备节点udev机制的实现过程 udev是自动创建设备节点&#xff0c;逻辑在用户空间过程&#xff1a;1&#xff09;首先注册字符设备驱动&#xff0c;得到标识设备的设备号 2&#xff09;获得设备信息后&#xff0c;先创建一个设备类&#xff0c;向上提交目录…

微服务如何改变软件开发:实战经验与最佳实践分享

文章目录 什么是微服务&#xff1f;微服务实战经验1. 定义明确的服务边界2. 使用API网关3. 自动化部署和持续集成4. 监控和日志记录 微服务最佳实践1. 文档和通信2. 弹性设计3. 安全性4. 版本控制5. 监控和警报 微服务的未来 &#x1f389;欢迎来到架构设计专栏~微服务如何改变…

【Redis专题】一线大厂Redis高并发缓存架构实战与性能优化

目录 前言为什么要用Redis前置知识一、缓存问题1.1 缓存击穿1.2 缓存穿透1.3 缓存雪崩 二、缓存方案2.1 普通缓存2.2 冷热分离2.3 多级缓存2.4 缓存预热 *课程内容一、一个案例引发的思考&#xff08;电商场景&#xff09;二、代码优化方案的演进2.1 问题一&#xff1a;纯【读】…

自动生成bug异常追踪-SRE与开发自动化协同

作者&#xff1a;观测云 数据智能部 产品方案架构师 范莹莹 简介 生产环境 bug 的定义&#xff1a;RUM 应用和 APM 应用的 error_stack 信息被捕捉后成为 bug。 以 APM 新增错误巡检为例&#xff0c;当出现新错误时&#xff0c;在观测云控制台的「事件」模块下生成新的事件报…

比elk还香的日志平台

作者 观测云 产品技术专家 深圳办公室 黄小龙 写在前面的话 日志是开发人员记录系统运行状态的最佳手段&#xff0c;是一个系统的重要组成部分。日志通常不属于系统的核心功能&#xff0c;但却是我们了解系统运行用的最多的功能。对于开发和运维人员来说&#xff0c;好的日志可…

LeetCode【28. 找出字符串中第一个匹配项的下标】

不要用珍宝装饰自己&#xff0c;而要用健康武装身体 给你两个字符串 haystack 和 needle &#xff0c;请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标&#xff08;下标从 0 开始&#xff09;。如果 needle 不是 haystack 的一部分&#xff0c;则返回 -1 。 …

微软亚洲研究院:给张图片普通人也能轻松完成图片编辑

效果 代码 https://github.com/Fantasy-Studio/Paint-by-Example 问题 之前图像编辑使用语言引导&#xff0c;作者研究使用example作为引导来进行图像编辑&#xff0c;直接融合&#xff08;复制粘贴&#xff09;会导致明显的融合伪影 利用生成先验&#xff1a;从预训练的文…