ORT(ONNX runtime)GPU 问题总结

news2024/11/25 11:04:23

现象

bt的堆栈信息

standard io上的错误输出

从报错信息上看是非法的内存访问,但是报错的位置不一定是真实的位置,因为GPU都是异步发起的,错误可能会被在后面的op捕捉。例如cudaEventDestory:

 debug方式

思维方式  

  1. 复现,解决问题一定要复现问题,不能复现的问题不能确定正真解决。所以首先要做的是复现。
  2. 定位,定位范围是逐渐缩小,优先排查自定义的代码。对于cuda-kernel,默认都是异步的操作,很多时候捕获错误的位置在抛出错误位置的后面。这种情况可以在可能出错的op后面加上下面代码:
 CUDA_RETURN_IF_ERROR(cudaStreamSynchronize(stream));

 cuda-memcheck

命令行,使用cuda-memcheck的工具memcheck,当然它还有另外的三个工具,详情看文档。

cuda-memcheck --tool memcheck [application application-option]

结果返回发生越界的thread号和block号。 

然后通过block和thread的坐标信息,借助cuda-gdb工具,定位到具体的位置。

cuda-gdb

在编译时,给nvcc加上-g -G标识(cmake中是CMAKE_CUDA_FLAGS),就可以得到device的debug符号信息,其中的-G是标识开启device的debug编译。

set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} -g -G")

Debug的操作指令: 

# switch to the forced thread and block
cuda kernel 0 block (3,103,0) thread(0,0,0)

# condition breakpoint
b file:498 if blockIdx.y==103 && blockIdx.x==3

# set conditions for an existing breakpoint
condition 1 blockIdx.x == 0 && n > 3

 找到了具体越界的位置。

printf定位具体位置

对于代码比较简单,但是并发度很高的cuda-kernel-func,采用这个方式比较高效。但是需要注意:

  1.  ort里的cuda代码默认是开启了O3的优化等级的。如果注释掉一些代码,相关的一些代码可能被优化掉。解决方法:把删除的代码中的变量,用printf加上,可以屏蔽这个优化,当然也可以开启nvcc的debug模式。
  2. cuda-kernel里的printf要注意数据的字节数,例如,int64的类型,在打印的时候需要加l(%ld),不然会引起错位,该字符串后面的输出,都会出现错误。

参考文档

https://on-demand.gputechconf.com/gtc/2014/presentations/S4580-cuda-gdb-cuda-memcheck-debugging-tools.pdf

https://ece.northeastern.edu/groups/nucar/Analogic/cuda-gdb.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/58022.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python中matplotlib为多个列表数据绘制小提琴图

本文介绍基于Python中matplotlib模块与seaborn模块,利用多个列表中的数据,绘制小提琴图(Violin Plot)的方法。 小提琴图作为一种将箱型图与核密度图分别所能表达的信息相结合的数据可视化图,在数据分析中得以广泛应用&…

【电动车】电动汽车两阶段优化调度策略(Matlab代码实现)

目录 1 概述 2 数学模型 3 运行结果 4 结论 4 Matlab代码实现 1 概述 在当前阶段,电动汽车通常被视为即插即充的常规负荷,这浪费了其可观的储荷能力"。研究表明,非快充需求的电动汽车停靠时间远大于其充电时间[2,因此可通过充电站管理电动汽车的充放 电功率,使电动…

数据分析必备的5个工具,你用过几个?

数据有了,但是怎么让它们“听话”且输出为好看的图表呢?相信这是每一个做数据的人都思考过的问题吧。我们在工作、学习中经常进行会借助一些表格或者图表来进行信息的展示,一般大家最常用的是Excel表格或者PPT,但是随着近些年物联…

震惊,一个csdn小编用Python语言写了一个足球游戏,成功模拟世界杯决赛现场

前言 halo,包子们下午好 最近世界杯不是很火呀 很多小伙伴应该都知道球赛反正买,别墅靠大海! 今天就给大家实现一个类似世界杯的足球小游戏,咱就说真的堪比国足了! 哈哈哈~ 好啦 直接开整!!&am…

39-65-javajvm-运行时数据区-pc-栈

39-javajvm-运行时数据区: 运行时数据区 内存是非常重要的系统资源,是硬盘和CPU的中间仓库及桥梁,承载着操作系统和应用程序的实时运行JVM内存布局规定了Java在运行过程中内存申请、分配、管理的策略,保证了JVM的高效稳定运行。不…

支付宝支付项目

文章目录🚏 支付宝支付项目🚀 支付宝介绍🚬 1、支付宝平台🚬 2、支付宝开放平台🚬 3、支付能力🚭 条码支付应用场景🚭 扫码支付应用场景🚭 App 支付🚭 手机网站支付&…

【CSS3】media,伪类与伪元素,outline,font-face,resize,svg,多列布局

❤️ Author: 老九 ☕️ 个人博客:老九的CSDN博客 🙏 个人名言:不可控之事 乐观面对 😍 系列专栏: 文章目录media例子resolution属性orientation属性aspect-ratio属性伪类与伪元素:target:disable/:enable:…

[附源码]计算机毕业设计校园生活服务平台Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【SQL教程|01】SQL简介——什么是SQL

什么是SQL SQL是一门语言 SQL是Structured Query Language的简写,中文译为“结构化查询语言”;SQL是一种用来查询和处理关系性数据库的语言,使用SQL我们可以: 增(INSERT):可以向数据库中插入记…

图神经网络关系抽取论文阅读笔记(六)

1 一个新颖的关系元组抽取级联二元标记框架(A Novel Cascade Binary Tagging Framework for Relational Triple Extraction) 1.1 引言 本文提出了关系三元组重叠的问题(一个sentence中有多个三元组,其中三元组中有的实体是同一个)。本文将其…

TTL反相器和CMOS

CMOS电路的动态特性: 1.传输延迟特性 在输入电压发生变化的时候,因为电容得存在,输出时间就得到了延迟 2.交流噪声容限 交流噪声容限是大于直流噪声容限 3.动态功耗 输入电压在二分之一,所以瞬间会流过很大的电流,会有瞬间很…

python练习题集锦之一

python练习题集锦之一 python练习题集锦之一,包括:1.限制输入的整数范围1到10之间、2.输出100以内素数(质数)及其和、3.求两个数最大公约数、最小公倍数 1.限制输入的整数范围1到10之间 源码如下: 提示 输入错误&…

时间复杂度(Time Complexity)

预计阅读时间:5分钟 一、简介 时间复杂度,又叫时间复杂性,也就是我们常说的大O。时间复杂度是不容忽视的衡量算法好坏的重要指标。 时间复杂度是一个函数,用于描述该算法的运行时间。 举个简单的例子:一个20米的木头&…

基于FPGA开发板使用Verilog设计PWM呼吸灯实验

基于FPGA开发板使用Verilog设计PWM呼吸灯实验 1,实验原理2,实验模块设计2.1 RTL设计,呼吸灯模块设计2.2,测试数据,下载到FPGA开发板板级的数据2.3,两个模块综合的netlist3,管脚约束4,FPGA开发板上的`led1` 灯上显示,一个复位键`key1`5,testbench6,前仿真,波形仿真验…

Mac os 如何安装SVN

环境: Mac os X 问题描述: Mac os 如何安装SVN 解决方案: 1.从App Store上下载SnailSVNLite 2.下载完成,打开软件,在【SVN设置】下,看下面提示设置好3个路径 ~/.ssh 查找对应的文件夹,如…

AprilTags论文翻译

AprilTag三篇论文的简单翻译.2011,2016,2019GitHub - AprilRobotics/apriltag: AprilTag is a visual fiducial system popular for robotics research. AprilTag:一个健壮而灵活的视觉基准系统 摘要-虽然使用自然出现的特征是机器感知的重点,但人工特征在创建可控…

【SpingBoot定时任务】Spring自带@Scheduled、异步多线程@Async、quartz框架 定时任务示例

文章目录springboot定时任务1、基于注解(Scheduled)2、异步多线程使用定时任务3、使用quartz实现定时任务使用Springboot整合Quartz定时任务框架springboot定时任务 在springboot环境中,实现定时任务有两种方案: 使用 Spring 自带的定时任务处理器 Sched…

程序员,阿里 P8java 大神讲的 Spring 大家族原理汇总,你确定不看?

之前分享的 java 核心面试知识点已经花了三篇文章的篇幅讲完了 java 多线程并发。作为程序员来讲,多线程并发要学的东西确实挺多的,那天跟阿里程序员朋友聊天的时候,被绝对技术碾压了,多线程并发里的内容,能够全面的讲…

太硬核!用大数据技术预测足球胜率

点个关注👆跟腾讯工程师学技术引言| 足球作为世界第一运动,充满了速度和力量的结果,团队与谋略的对抗。人们也说,足球是圆的,恰恰也表明了足球比赛的不可预知性,一切结果都皆有可能。强如巴萨,也…

JavaScript 简单介绍和使用

JS 环境搭建 基本语法: 注释: // 单行注释 /* 多行注释 */ 输入输出语句 // 输入输出语句 document.getElementById("btn").onclick function(){// 输入语句var message prompt("输入信息")var insure confirm("是否确认…