nodejs+wasm+rust debug及性能分析

news2024/10/5 21:24:51

文章目录

    • 背景
    • v8引擎自带的profile
    • linux的perf采集
    • wasm三方库性能分析
      • 编译debug版本wasm
      • rust程序debug调试
        • 异常模型
        • 正常模型
        • 结论
        • 优化

参考
Node使用火焰图优化CPU爆涨 - 掘金
【Node.js丨主题周】理解perf 与火焰图-腾讯云开发者社区-腾讯云
Easy profiling for Node.js Applications | Node.js
Diagnostics - Flame Graphs | Node.js
perf性能分析工具使用分享

背景

一个node服务在处理模型的时候,发现超时了,并且超过了3分钟的上限触发了报警。行吧,一般来说十几秒足够处理了,初步定位是mikktspace-wasm库的性能问题。

wasm正逐渐走进我们的程序生活,不少计算库都在用高性能语言重写,并通过wasm作为第三方包提供能力。例如博主最近用到的渲染相关的计算包,基本都是用c++和rust实现的,然后web端直接调用wasm即可。

写这篇博客呢,是因为博主一开始只是定位到三方库有问题就暂停了,毕竟是做后端的,也是存在一定的认知障碍吧,对不熟的东西也存在敬畏之心。然而根因不找到实在是难受,一路debug和性能分析下来,回头看看也没那么难。希望以后遇到类似的问题也可以乘风破浪,一路追下去,技术都是相通的,不应该存在壁垒。

v8引擎自带的profile

1、运行程序并采集
node --prof index.js xxx
v8会自动采集,并生成isolate-xxx文件
2、生成txt
node --prof-process isolate-xxx > processed.txt
vim直接打开,就可以查看采集的结果。采集结果分析参考以上链接。
3、查看火焰图

npm install -g flamebearer
node --prof-process --preprocess -j isolate-xxx | flamebearer

安装flamebearer,并执行上面的命令,会自动打开浏览器,查看生成的火焰图。

image.png

注意
运行node程序需要带两个参数:
–perf-basic-prof


通过--perf-basic-prof或 --perf-basic-prof-only-functions我们都可以启动支持
perf_events 的Node.js 应用程序。
--perf-basic-prof-only-functions产生较少的输出,因此它是开销最小的选项。
生成的文件在/tmp/perf-PID.map

–interpreted-frames-native-stack

Node.js 8.x 及更高版本对 V8 引擎中的 JavaScript 编译管道进行了新的优化,这有时会导致
性能无法访问函数名称/引用。使用以上参数可以解决。

linux的perf采集

1、perf采集
perf record -F 99 -g -- node --perf-basic-prof-only-functions index.js

会在本地目录生成perf.data文件。

2、生成火焰图
perf script | /home/xxx/FlameGraph/stackcollapse-perf.pl | /home/xxx/FlameGraph/flamegraph.pl > perf.svg

下载FlameGraph项目,然后使用该项目提供的脚本生成火焰图即可。

3、浏览器打开
python -m http.server 8000
浏览器访问ip:8000/perf.svg即可

4、运行的时候查看cpu占用
perf top -p pid

使用js的三方库生成火焰图

1、采集perf (同上)
2、安装stackvis库
npm install -g stackvis

3、script解析perf.data
perf script > perf.out

4、生成火焰图的html
stackvis perf < perfs.out > flamegrap.htm

5、浏览器查看(同上)

image.png

wasm三方库性能分析

如上所示,有些库使用wasm,导致只能看到库函数占用了97%的cpu,但是却看不到细节。针对这种情况可以考虑编译对应第三方库版本的debug版wasm文件,替换一下,重新采样。

编译debug版本wasm

例如:https://github.com/donmccurdy/mikktspace-wasm 这个库,是用rust编译成wasm的
(1)安装rust环境
https://developer.mozilla.org/zh-CN/docs/WebAssembly/Rust_to_Wasm
(2)编译debug版本

1、编译target为nodejs,对应commonjs标准
~/.cargo/bin/wasm-pack build --dev --target nodejs -d ./pkg/main --out-name mikktspace_main

解释:
	--dev: 编译debug版本
	-d : 指定输入结果目录,设置为pkg/main
	--out-name: 指定生成的文件名前缀,wasm文件会自动加上_bg.wasm后缀

2、编译target为bundler,对应打包工具的导入标准
~/.cargo/bin/wasm-pack build --dev -d ./pkg/bundler --out-name mikktspace_module

3、查看编译的wasm是否是debug的
	(1)安装wabt
  	sudo pacman -Si wabt
  	wabt自带的有wasm-objdump,可以查看wasm的头信息
   (2)wasm-objdump -h mikktspace_main_bg.wasm

mikktspace_main_bg.wasm:        file format wasm 0x1

Sections:

     Type start=0x0000000e end=0x000000fa (size=0x000000ec) count: 35
   Import start=0x00000100 end=0x00000268 (size=0x00000168) count: 7
 Function start=0x0000026e end=0x00000542 (size=0x000002d4) count: 722
    Table start=0x00000548 end=0x0000054d (size=0x00000005) count: 1
   Memory start=0x00000553 end=0x00000556 (size=0x00000003) count: 1
   Global start=0x0000055c end=0x00000565 (size=0x00000009) count: 1
   Export start=0x0000056b end=0x000005fb (size=0x00000090) count: 7
     Elem start=0x00000601 end=0x00000663 (size=0x00000062) count: 1
     Code start=0x00000669 end=0x00048a07 (size=0x0004839e) count: 722
     Data start=0x00048a0d end=0x0004d858 (size=0x00004e4b) count: 1
   Custom start=0x0004d85e end=0x0005b3f4 (size=0x0000db96) "name"
   Custom start=0x0005b3fa end=0x0005b475 (size=0x0000007b) "producers"
   Custom start=0x0005b47b end=0x0005b4a7 (size=0x0000002c) "target_features"

可以看到没有debuginfo信息。

4、配置cargo.toml
参考:https://rustwasm.github.io/docs/wasm-pack/cargo-toml-configuration.html

[package.metadata.wasm-pack.profile.dev.wasm-bindgen]
dwarf-debug-info = false

5、重新编译并查看
Custom start=0x00062694 end=0x0014bc2d (size=0x000e9599) ".debug_info"

多了一些debuginfo信息。

(3)替换node_moudles中的mikktspace/dist下的main和module目录
(4)重新perf采集数据,生成svg
image.png
成功采集到mikktspace这个库的调用栈以及cpu耗时。

(5)对比正常和异常情况下的火焰图

正常
image.png
相比上面的火焰图,可以发现正常的火焰图:

  1. cpu耗时分布较合理
  2. 无长时间耗时函数分布
  3. 异常火焰图耗时较久的函数DegenEpilogue在正常火焰图中并没有。

因此重点看下DegenEpilogue函数即可。

rust程序debug调试

参考:https://github.com/fucking-translation/blog/blob/main/src/lang/rust/14-%E4%BD%BF%E7%94%A8GDB%E8%B0%83%E8%AF%95Rust%E5%BA%94%E7%94%A8.md

1、编译debug版本
cargo默认编译出来的就是debug版本。指定编程生成的程序名为debug
cargo build --example debug

2、rust-gdb调试
rust-gdb调试指令和gdb一样。
(1) 进入gdb
rust-gdb debug
(2) 设置断点
b xxx.rs:10

(3) 开启可视化
layout src
如果页面乱了,ctrl+l 可以恢复代码页面

(4) 调试
n : 下一步
s : 进入函数内部
c: 运行到下一个断点
异常模型

1、generateTspace部分,iNrActiveGroup = 19w,循环19w次,速度较快,10s执行完整个函数。
2、运行到DegenEpilogue, iNrTrianglesIn = 24w,
while t < iTotTris {} 这个循环耗时90s

// iDegenTriangles = 32412
// iDegenTriangles代表不合法的三角形面
iNrTrianglesIn = iTotTris - iDegenTriangles;

while t < iNrTrianglesIn {} 不耗时

正常模型

1、generateTspace部分,iNrActiveGroup = 172w,16s运行完整个函数
2、运行到DegenEpilogue, iNrTrianglesIn = 58w
while t < iTotTris {} 这个循环没走
原因是不符合whilet条件,t= iTotTris ,关键就在上一步传过来的iNrTrianglesIn和iTotTris

// iDegenTriangles = 0
// iDegenTriangles代表不合法的三角形面
iNrTrianglesIn = iTotTris - iDegenTriangles;

while t < iNrTrianglesIn {} 不耗时

结论

异常的模型中,不合法三角形的数量较多,需要通过DegenEpilogue函数进行辅助处理。正常的模型因为不合法三角形面数量较少,因此不需要进行DegenEpilogue函数处理。

mikktspace计算切面算法有多种语言实现,其中rust程序和c++程序对比来说,c++使用了二分来提升性能,rust和c程序均采用遍历的方式。可以考虑使用hash表减少循环层数或者二分提升查询性能。

mikktspace的c++库:https://github.com/naetherm/mikktspace
mikktspace的c库:https://github.com/mmikk/MikkTSpace

优化

rust程序中,存在双层循环如下:

// iTotTris - t = 3w
while t < iTotTris {
  // iNrTrianglesIn * 3 = 72w
	while bNotFound && j < 3i32 * iNrTrianglesIn {

  }
}

双层循环情况下,性能较差。内部的循环使用hash表代替,直接通过key去获取。优化后单次循环耗时从ms级
优化到ns级。

优化前耗时:90s
优化后耗时:27ms

end

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1125395.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nature子刊|3D视角看肠道菌群空间结构

人肠道菌群不仅种类复杂&#xff0c;且在肠道中有特异的组织结构&#xff0c;这些组织结构对肠道菌群的功能和宿主的健康具有重要的作用。目前对肠道菌群组成的研究已经比较多&#xff0c;但菌群的空间组织结构研究尚浅。今天给大家分享一篇发表在Nature Communications的最新研…

哪些洗地机比较好?清洁力强的洗地机

洗地机是当代先进的科技清洁产品&#xff0c;拥有出色的清洁效果&#xff0c;无论是家庭使用还是商业场所&#xff0c;洗地机都能轻松应对各种地面类型和污渍。不仅如此&#xff0c;洗地机经过不断的迭代&#xff0c;还具有人性化的设计&#xff0c;使操作更加便捷和舒适。无论…

osg实现物体沿着控制点生成的Cardinal样条轨迹曲线运动

目录 1. 前言 2. 预备知识 3. 用osg实现三维Cardinal曲线 3.1. 工具/ 原料 3.2. 代码实现 4. 说明 1. 前言 在设计矢量图案的时候&#xff0c;我们常常需要用到曲线来表达物体造型&#xff0c;单纯用鼠标轨迹绘制显然是不足的。于是我们希望能够实现这样的方法&#xff1a;…

ChatGPT AIGC 人工智能Excel计算业绩提成

公司业绩提成是一种激励措施,通常是指根据公司的业绩表现,对员工的绩效进行评估,然后给予相应的奖励或提成。 这种激励措施可以鼓励员工努力工作,提高团队的竞争力和生产效率,从而推动公司的业绩增长。 不过具体的提成计算方式和金额是根据公司政策和个人表现而定的。 …

[java进阶]——线程池的使用,自定义线程池

&#x1f308;键盘敲烂&#xff0c;年薪30万&#x1f308; 目录 一、线程池的存在意义 二、线程池的使用 2.1线程池的核心原理 2.2线程池的代码实现 三、自定义线程池 3.1线程池的参数详解 3.2线程池的执行原理 3.3灵魂两问 3.4线程池多大合适 3.5拒绝策略 一、线程池…

基于springboot实现分布式架构网上商城管理系统项目【项目源码+论文说明】计算机毕业设计

基于springcloud实现分布式架构网上商城演示 摘要 首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要…

linux进程管理,一个进程的一生(喂饭级教学)

这篇文章谈谈linux中的进程管理。 一周爆肝&#xff0c;创作不易&#xff0c;望支持&#xff01; 希望对大家有所帮助&#xff01;记得收藏&#xff01; 要理解进程管理&#xff0c;重要的是周边问题&#xff0c;一定要知其然&#xff0c;知其所以然。看下方目录就知道都是干货…

AWTK实现汽车仪表Cluster/DashBoard嵌入式GUI开发(六):一个AWTK工程

一个AWTK工程基于C/C++编写,可以分为如下几步: 结合下图,看懂启动的部分。一般一个AWTK工程,需要实现哪些部分,就是其中开始之后白色的部分,比如调用main函数和gui_app_start时会做一些操作,比如asset_init和application_init时要做一些设置,还有退出的函数application…

《软件方法》2023版第1章(11)1.4.3 具体工作步骤

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 1.4 应用UML的建模工作流 1.4.3 使用UML建模的工作流步骤 图1-17中“工件形式”一列所列出的图就是本书推荐的在建模工作流ABCD中的UML用法&#xff0c;我用活动图进一步表示建模的步…

(三)(Driver)驱动开发之双机调试环境搭建及内核驱动的运行

文章目录 1. 驱动开发环境搭建2. 驱动开发新建项目及项目属性配置和编译3. 双机调试环境搭建3.1 安装虚拟机VMware3.2 配置Dbgview.exe工具3.3 基于Windbg的双机调试 4. 内核驱动的运行4.1 临时关闭系统驱动签名校验4.2 加载驱动 1. 驱动开发环境搭建 请参考另一篇:https://bl…

Mysql中MyISAM和InnoDB 引擎的区别

MyISAM 和 InnoDB 都是 Mysql 里面的两个存储引擎。 在 Mysql 里面&#xff0c;存储引擎是可以自己扩展的&#xff0c;它的本质其实是定义数据存储的方式以及数据读取的实现逻辑。而不同存储引擎本身的特性&#xff0c;使得我们可以针对性的选择合适的引擎来实现不同的业务场景…

初识Java 15-1 文件

目录 文件和目录路径 选择Path的片段 分析Path 添加或删除路径片段 目录 文件系统 监听Path 查找文件 读写文件 本笔记参考自&#xff1a; 《On Java 中文版》 更多详细内容请查看官方文档。 Java 7优化了Java的I/O编程&#xff0c;具体的表现就是java.nio.file。其中…

【王道代码】【2.3链表】d3

关键字&#xff1a; 奇偶序号拆分、a1&#xff0c;b1&#xff0c;a2&#xff0c;b2...an&#xff0c;bn拆分a1&#xff0c;a2...&#xff0c;bn&#xff0c;...b2&#xff0c;b1、删除相同元素

以人物画像谈测试员如何半道介入一个新项目

最近在带新人了解项目&#xff0c;这已经不是第一次带新人&#xff0c;由此引发了我关于新进项目的测试人员如何能够快速介入一个新项目的思考。这里我特指的是项目已经运行一段周期&#xff0c;新进员工或其他项目测试人员中途进入该项目的情况。对于项目一启动&#xff0c;测…

Apache Doris (四十六): Doris数据更新与删除 - 批量删除

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录

分享一个python无人超市管理系统django项目实战源码调试 lw 开题

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人七年开发经验&#xff0c;擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等&#xff0c;大家有这一块的问题可以一起交流&#xff01; &#x1f495;&…

文件存储空间管理(空闲表法,空闲链表法,位示图法,成组链表法)

1.存储空间的划分与初始化 1.文件卷&#xff08;逻辑卷)的概念 存储空间的划分:将物理磁盘划分为一个个文件卷&#xff08;逻辑卷、逻辑盘). 2.目录区与文件区 存储空间的初始化&#xff1a;将各个文件卷划分为目录区、文件区。 目录区包含文件目录、空闲表、位示图、超级…

嵌入式养成计划-46----QT--简易版网络聊天室实现--QT如何连接数据库

一百一十九、简易版网络聊天室实现 119.1 QT实现连接TCP协议 119.1.1 基于TCP的通信流程 119.1.2 QT中实现服务器过程 使用QTcpServer实例化一个服务器对象设置监听状态&#xff0c;通过listen()函数&#xff0c;可以监听特定的主机&#xff0c;也可以监听所有客户端&#x…

Unity读取写入Excel

1.在Plugins中放入dll&#xff0c;118开头的dll在Unity安装目录下&#xff08;C:\Program Files\Unity\Editor\Data\Mono\lib\mono\unity&#xff09; 2.写Excel public void WriteExcel(){//文件地址FileInfo newFile new FileInfo(Application.dataPath "/test.xlsx…

v-on 可以监听多个方法吗?

目录 ​编辑 前言&#xff1a;Vue 3 中的 v-on 指令 详解&#xff1a;v-on 指令的基本概念 用法&#xff1a;v-on 指令监听多个方法 解析&#xff1a;v-on 指令的优势和局限性 优势 局限性 **v-on 指令的最佳实践** - **适度监听**&#xff1a; - **方法抽离**&#x…