C/C++代码性能优化技巧的书籍及资料

news2024/12/17 6:23:45

  使用C/C++开发的场景,大多对代码的执行的速度,实时性有较高的要求,像嵌入式系统的开发,资源还受限。在算力存储空间有限的MCU上写出简洁又高效的代码实际是一种艺术。软件工程师在代码设计上的这种差距,会反映在产品的性能(能用和好用差着十万八千里)和成本(选择配置低更便宜的MCU)上,最终成为产品成败的关键。
  这里插播一段为人津津乐道的故事。Quake-III Arena (雷神之锤3)是90年代的经典游戏,游戏不但画面和内容不错,而且即使计算机配置低,也能极其流畅地运行。这要归功于它3D引擎的开发者约翰-卡马克(John Carmack)。John Carmack编写的一段快速求解平方根的算法,比传统使用标准库函数 sqrt() 来计算的方法快了4倍而且计算非常精确。代码其他部分不重要,其中最让人费解的是那个神奇的数字 0x5f3759df,没人知道他是怎么得到这个数字的。普渡大学的数学家Chris Lomont看了以后觉得有趣,决定研究一下这个魔法数字有什么奥秘。Lomont 也是个神人,潜心研究后得到了一个理论值 0x5f37642f。Lomont 拿自己算出的值和 Carmack 的神奇数字比较,看谁的值能更快更准地求得平方根,结果仍然是 Carmack 赢了。Lomont 忿忿不平,采用暴力法挨个数字试过去,才终于找到一个比 Carmack 要好上那么一点点的数字。后来 Lomont 为此写下一篇论文 Fast Inverse Square Root(论文的链接附上),很多人将 0x5f3759df 称为了神的数字。下面附上大神的代码。

float Q_rsqrt( float number )
{
    long i;
    float x2, y;
    const float threehalfs = 1.5F;

    x2 = number * 0.5F;
    y   = number;
    i   = * ( long * ) &y;   // evil floating point bit level hacking
    i   = 0x5f3759df - ( i >> 1 ); // what the fuck?
    y   = * ( float * ) &i;
    y   = y * ( threehalfs - ( x2 * y * y ) ); // 1st iteration
    // y   = y * ( threehalfs - ( x2 * y * y ) ); // 2nd iteration, this can be removed

    #ifndef Q3_VM
    #ifdef __linux__
     assert( !isnan(y) ); // bk010122 - FPE?
    #endif
    #endif
    return y;
}

英文版《Hacker’s Delight》中文版《算法心得:高效算法的奥秘》

作者是在IBM工作50余年的资深计算机专家Henry S. Warren,曾参与多个军事指挥与控制系统工程。书中总结了大量高效、优雅和奇妙的算法,并从数学角度剖析了其背后的原理。

《C程序性能优化 20个实验与达人技巧》

Software optimization resources

  Agner Fogde应该属于跨学科的复合型人才,他是丹麦进化人类学家和计算机科学家。他目前是丹麦技术大学(DTU)计算机科学副教授,他最出名的是创造了术语“帝王理论(Regality Theory)",并为运行x86架构的机器编写了大量的优化手册。
  链接是他的个人网站能下载到他的书籍。
《Optimizing software in C++》
《Optimizing subroutines in assembly language: An optimization guide for x86 platforms》
《The microarchitecture of Intel, AMD and VIA CPUs: An optimization guide for assembly programmers and compiler makers》
《Instruction tables: Lists of instruction latencies, throughputs and micro-operation breakdowns for Intel, AMD and VIA CPUs》
《Calling conventions for different C++ compilers and operating systems》

世面上讲c++性能优化的书其实不少了,但是很多都停留在架构、算法、数据结构层面,大都是些老生常谈了。而从语言本身、操作系统、硬件层面系统阐述性能优化的技术书则少了很多。而《optimizing software in c++》正是这样的一本书。

Bit Twiddling Hacks

  Bit Twiddling Hacks 的外国网站收集了几乎所有位操作的黑科技玩法,卡内基梅隆大学计算机科学主任,Randal Bryant教授已经用他的Uclid code verification system测试了。你能找到bug奖励你10$。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FlightAD 解读

一 文章相关信息 出处:ICPADS CCF C 会议(代码未开源),COUTA 研究团队的另一研究 二 Methodology 1. 整体架构: 2. Multi-Scale Sampling(多尺度) 实际上,就是对每个单通道作 “多…

20241216软考架构-------软考案例23答案

每日打卡题案例23 23.【2015年真题】 难度:一般 阅读以下关于系统设计建模的说明,回答下列问题。(共25分) 【说明】 某公司拟研制一款高空监视无人直升机,该无人机采用遥控一自主复合型控制实现垂直升降。该直升机飞行…

170页ppt解读如何进行大型集团信息安全管理体系优化咨询

文档为甲方集团信息安全管理体系优化咨询项目的信息安全建设规划报告,重点围绕信息安全建设的规划与设计展开。报告首先进行了信息安全建设需求分析,明确了当前信息安全现况存在的问题、信息安全发展趋势及具体需求汇整,为后续建设提供了坚实…

RK3576 Android14,内存大于4G时UVC应用无法申请内存

最近有个项目需要将Linux虚拟成UVC摄像头,开发过程中遇到一个奇怪的事情,通过V4l2框架接口申请内存时,相同的板子,只是内存一个4G一个8G。4G的内存可以申请成功,8G就不行。提示“内存不足” 内存更大反而内存不足&…

TimesFM(Time Series Foundation Model)时间序列预测股市价格的数据研究(4)

TimesFM(Time Series Foundation Model)时间序列预测的数据研究(3)-CSDN博客文章浏览阅读846次,点赞19次,收藏12次。1. **表示预测区间**:在很多预测任务中,模型给出的不只是一个单一的预测值(比…

opencv所有常见函数

一、opencv图像操作 二、opencv图像的数值运算 三、opencv图像的放射变换 四、opencv空间域图像滤波 五、图像灰度化与直方图 六、形态学图像处理 七、阈值处理与边缘检测 八、轮廓和模式匹配

常见漏洞—SSRF_FastCGI

FastCGI协议 简介 Fast CGI源自旧版本的CGI 路由/结构图 # 访问url --> 浏览器生成HTTP请求报文 --> web server解析请求(例如nginx) web server 是内容的分发者 当访问静态页面时,web server 会直接返回资源,例如index.htm…

【游戏设计原理】10 - 科斯特的游戏理论

科斯特的游戏理论强调了游戏与学习之间的关系,认为“玩得开心”与“学习”是紧密相连的。换句话说,游戏的核心魅力在于通过适当的挑战和不断的学习进程激发玩家的内啡肽循环,这让玩家在不断的探索和进步中找到乐趣。 科斯特的理论通过游戏是…

ES-IndexTemplate和DynamicTemplate

IndexTemplate 什么是IndexTemplate 索引模板,帮助你设定Mappings和Settings,并按照一定的规则,自动匹配到新创建的索引之上 模板仅在一个索引被新建的时候,才会产生应用,索引被修改不会影响已创建的索引可以设定多…

【大语言模型】ACL2024论文-27 Mementos:一个全面的多模态大型语言模型在图像序列推理上的基准测试

【大语言模型】ACL2024论文-27 Mementos:一个全面的多模态大型语言模型在图像序列推理上的基准测试 目录 文章目录 【大语言模型】ACL2024论文-27 Mementos:一个全面的多模态大型语言模型在图像序列推理上的基准测试目录文章摘要研究背景问题与挑战如何…

CSS基础与应用详解

​🌈个人主页:前端青山 🔥系列专栏:Css篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来Css篇专栏内容:CSS基础与应用详解 前言 CSS(层叠样式表)是网页设计中不可或缺的一部分&am…

C/S软件授权注册系统(Winform+WebApi+.NET8+EFCore版)

适用软件:C/S系统、Winform桌面应用软件。 运行平台:Windows .NETCore,.NET8 开发工具:Visual Studio 2022,C#语言 数据库:Microsoft SQLServer 2012,Oracle 21c,MySQL8&#xf…

国标GB28181网页直播平台EasyGBS国标EasyGBD对讲音频demo

近年来,随着信息技术的飞速发展,视频监控领域正经历从传统安防向智能化、网络化安防的深刻转变。在此过程中,GB28181标准凭借其强大的功能和灵活性,成为了推动视频监控系统互联互通和高效管理的重要一环。通过支持GB28181协议&…

session 共享服务器

1.安装 kryo-3.0.3.jar asm-5.2.jar objenesis-2.6.jar reflectasm-1.11.9.jar minlog-1.3.1.jar kryo-serializers-0.45.jar msm-kryo-serializer-2.3.2.jar memcached-session-manager-tc9-2.3.2.jar spymemcached-2.12.3.jar memcached-session-manager-2.3.2.jar …

【蓝桥杯国赛真题15】python质因数个数 蓝桥杯青少年组python编程国赛真题详细解析

目录 python质因数个数 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python质因数个数 第十二届蓝桥杯青少年组python比赛国赛真题详细解析 …

智能硬件「百团大战」:AI驱动的周期来了吗?

要想在竞争激烈的市场中打造出真正的AI硬件“爆款”,并非简单地在现有硬件上堆砌AI功能就能实现,而是需要深刻理解AI的本质,用AI技术从底层逻辑出发,彻底重塑硬件产品的设计、功能与用户体验。 作者|斗斗 编辑|皮爷 出品|产…

Linux核心概念与常用命令

文章目录 一、Linux概述1、常见的操作系统2、Linux发展史3、Linux目录结构 二、文件和目录操作1、pwd - 显示当前目录2、cd - 切换目录3、ls - 列出目录内容4、mkdir - 创建目录5、touch - 创建空文件6、cp - 复制文件或目录7、mv - 移动或重命名文件8、rm - 删除文件或目录9、…

uniappp配置导航栏自定义按钮(解决首次加载图标失败问题)

1.引入iconfont的图标,只保留这两个文件 2.App.vue引入到全局中 import "./static/fonts/iconfont.css"3.pages.json中配置text为图标对应的unicode {"path": "pages/invite/invite","style": {"h5": {"…

vue组件开发:构建响应式快捷导航

前言 快捷导航不仅能够显著提升系统的灵活性和用户交互性,还极大地增强了用户的操作体验。本文将展示如何在 vue 中实现一个既可自定义又具备响应式特性的快捷导航菜单。 一、实现思路 列表页 结构设计 定义页面结构,包含一个导航卡片和一个对话框组件&a…

基于 Spring Boot 实现图片的服务器本地存储及前端回显

??导读:本文探讨了在网站开发中图片存储的各种方法,包括本地文件系统存储、对象存储服务(如阿里云OSS)、数据库存储、分布式文件系统及内容分发网络(CDN)。文中详细对比了这些方法的优缺点,并…