Vulkan下多线程渲染设计

news2025/1/24 17:36:48

1 Vulkan 视角下的多线程渲染

首先我们需要从vulkan api的顶层框架上来看一下,它在哪些地方可以让我们并行。

Vulkan API的基本框架

Vulkan不同于Gles只有一个(不被API暴露出来的)单一链条的cmdbuffer处理,它最大的特点是允许多个、多种类型的cmdbuffer同时在多个设备线程上被处理

上图可以看到vk拥有多个physical device(或gpu,当然也可以是支持的其他处理器),只要是同一个physical device group中的physical device,就可以联合起来一起来创建出一个device(就是你的app 实例),而每个physical device上又有多个queue,这些queue属于三种queuefamily(gfx,cs,translate),每个queuefamily Qn都可以创建一个command pool Pn,每个Pn又可以创建一些cmdbuffer,这些cmdbuffer可以独自被处理,独自被提交给Qn的任意一个queue上。cmdbuffer是vk显示暴露的数据结构,它是cpu同gpu传输信息的桥梁,cpu将渲染指令记录到cmdbuffer上,然后通过提交给queue交由gpu执行。在一个cmdbuffer内部又包含了renderpass,指令被记录在renderpass里面或外面,记录在renderpass里面的指令还可以被封装成次级cmdbuffer,即secondarycmdbuffer的形式被主cmdbuffer执行。。。

总的来说,vulkan里面有并行的GPU设备,并行的queue,并行的cmdbuffer。

那么哪些阶段可以被并行执行?

Cpu一侧有两个主要的可被并行处理的阶段:

  1. Cmdbuffer的Record:所有vkcmd***类型的API都可以认为在进行cmdbuffer的record。我们可以拆解出多个独立的cmdbuffer,由不同的RHI线程进行api调用。(这其实是一般游戏的主要瓶颈,即drawcall数量瓶颈)
  2. Cmdbuffer的submit:不同的cmdbuffer可以被提交到各自单独的queue中。可以根据设备提供的queue的数量,创建多个queue,在不同的rhi线程中将不同的cmdbuffer submit到不同的queue。(在实际项目中submit占用的时间非常短,少于1ms,且多数情况一帧只需要提交1次,做这个优化性价比不高)
  3. 将cmdbuffer的record和submit并行,submit和record两个步骤又可以在不同线程执行,cmdbuffer在当前帧record,在下一帧submit。(同样因为submit不是瓶颈,且又需要延迟一帧渲染,性价比不高)
  4. 为Translate,Gfx,CS独立各自单独的queue和cmdbuffer,这样,图形drawcall,cs的dispatch,图形资源的准备这三种不同工作将在不同的线程上处理,减少drawcall被其他工作block的机会。(这个是有意义的,ue新版本有async compute shader,实际上就是使用了同gfx不同的cs queue,至于translate,则可以将很多非dc性质的api调用同dc的分离,提高dc的吞吐效率,这个在gles也可以模拟实现,可以见https://km.woa.com/group/24861/articles/show/489959,只不过vk下可以往一个单独的queue去提交。)

本文主要讨论cmdbuffer的并行record,他用来解决大量drawcallapi瓶颈。

结构如下,我们在多个线程调用api填充cmdbuffer,全部cmdbuffer准备好后从一个线程进行最终的submit。

 

关于并行粒度

讨论这个问题前我们需要了解vulkan API的一些设计限制。Vulkan有如下的API规范:

一个renderpass必须被包含在同一个cmdbuffer (即renderpass不能跨越cmdbuffer

这意味着我们不能将一个renderpass中的drawcall拆分到多个cmdbuffer中,而移动端游戏为了带宽的最小化,都是尽量减少合并renderpass的,既然这样是不是意味着在控制带宽(renderpass数量)和并行drawcall之间难以兼得?

不是的,vulkan考虑了这个问题,并引入secondarycommandbuffer的概念来解决这个问题,下面会详细讲述。

我们的设计支持两种类型的并行。

  1. 整个pass级别的并行(本文称为Async Pass

每个cmdbuffer里面封装1个或几个renderpass,renderpass完整的嵌入在一个cmdbuffer里面。如下图,每个thread上的cmdbuffer上有完整的renderpass,每个renderpass并行的调用API。因为renderpass之间相互隔离,它的实现最为简单,每个thread上就是正常的启动,结束一个pass和drawcall。

 

但是当一个renderpass里面的drawcall太多时,我们就必须实现drawcall级别的并行了。

     2.支持draw call级别的并行(本文称为Async Drawcall

正如前面提到的vulkan API限制renderpass不能跨越cmdbuffer,所以需要依靠secondary command buffer支持。

Secondary command buffer是中特殊的command buffer:

  • 它内部不能执行renderpass相关的操作,只能执行drawcall相关的API。
  • 它不能直接submmit给queue,只能被正常的command buffer(或称为primary command buffer)通过vkexecutecmdbuffer的形式执行
  • Vkexecutecmdbuffer必须在该primary commandbuffer结束记录状态前(vkendcommandbuffer)执行

这种级别的并行实现上就显得比较复杂,如下图,对thread1上的renderpass中的300个drawcall进行等分拆分到3个线程上。1.1-1.3的线程上都使用的secondary cmd buffer,他们填充好后,交给1线程的primary cmdbuffer execute,最后1线程才能执行endcmdbuffer。

但是这是不是说1线程要依赖1.1-1.3三个线程执行完才能继续下去?为了解决这个问题,可以在1线程上创建多个primary cmdbuffer,只有内嵌了secondary cmd buffer的那个primary cmdbuffer才需要等待,每当1线程上的一个primary cmd buffer (n)需要内嵌secondary cmd buffer时,就再重新开辟一个新的primary cmd buffer (n+1)即可,这样1线程上后续的dc在primary cmd buffer (n+1)上记录,primary cmd buffer (n)则负责等待它的所有secondary thread完成再end,我们最终在提交的时候只要保证在提交列表中primary cmd buffer (n)在primary cmd buffer (n+1)之前即可保证渲染顺序。

 

基于secondary cmdbuffer,可以将drawcall的并行拆到最细,理论上所有的drawcall都可以并行,只需要在最终submit之前保证所有thread的工作完成即可。

2 UE4现有的多线程渲染框架与改造目标

现有的UE4多线程渲染框架

逻辑,渲染指令生成和API调用三大任务分开

项目引擎之前在UE4现有版本加入了auxiliary rhi机制

将资源生成类型的任务放到一个单独的rhi线程,允许与小核,减少资源准备类api对drawcall 类api的block

现在新的目标是,在vulkan下将drawcallAPI并行处理:

  • 依然保留主rhi(main rhi thread),用来进行那些不适合拆分到子线程的api以及做最终的submit和present。
  • 对于相对独立,无法前后复用的pass,做并行的async render pass处理
  • 对于其他pass,如果体量较大,将其中的部分分拆出来做async draw call 处理
  • 为了能够异步的填充rhi command,每个rhi thread也要对应一个单独的render thread,即render thread 本身也被拆开并行

移动端对于线程数目的考量:

我们常说对于移动端不要肆意的使用多线程优化,因为最好的android设备也就4个大核,所以前面我们描绘的架构虽然可以让你拥有无限多的线程,任意分拆drawcall,但那是脱离实际的完美情况。

因为考虑到已经存在的game,main render,main rhi3个大线程,所以最终我们手机上实际上只会增多一个异步的rhi线程(本文称task rhi thread)和一个异步的render 线程(本文称task render thread),更多的异步线程数量测试上都会导致效率变差。也就是说我们其实只是给原有单链条的渲染API增加了一条新路,变成两条而已。

最终版本移动端的vulkan多线程渲染框架如下

 

在上图中,实时的csm shadow作为async pass放在了task上(因为他永远是单独的pass,是的因为drawcall变的廉价,甚至可以尝试不用csm shadow cache~),而static mesh部分因为原本就有可能同其他部分共用pass而被作为async drawcall放在task上。

 

3 render thread rhi thread改造的更多细节

vksecondary command buffer相关机制支持:

  • secondary command buffer的创建:和primary 不一样,创建时需要一个特殊的flag,需要为它维护一个单独的cmdbuffer pool

 

 

  • secondary command bufferbegin,这里涉及到vulkan的如下设计规范:

      

secondary cmdbufferbegin的时候就要传入它所被嵌入的renderpass

和primary cmdbuffer不一样的是,secondary cmd buffer在begin的时候需要指定它所在的renderpass,这意味着虽然primary和secondary是在各自独立的线程记录,但是renderpass这个信息是api record的时候唯一必备的外部信息(事实上文档上说如果能提供primary的framebuffer则更有利于优化,不提供也可),而在目前ue的框架下,renderpass是有可能在primary的cmd beginrenderpass时才创建的,所以secondary cmd buffer的执行至少要在primary command buffer的begin pass 执行之后执行,这是一个同步点。但是如果我们有了rendergraph之类的,能够在一帧开始前就先验的知道这帧要用到的所有renderpass,这里面就不需要这个等待了。

此外Secondary command buffer begin的时候还需要设置begin flag为renderpass_continue_bit,(表示它作为一个secondary buffer,完全在另一个cmdbuffer的pass内执行

  • secondary command buffer内部的渲染状态,这里涉及到vulkan的如下设计规范:

secondary cmdbuffer内部不能感知包含它的primarycmdbuffer的渲染状态

vulkan并没有在官方文档很明显的地方提到这个问题,只在一些角落暗示过,实际上它意味着你在primary cmdbuffer级别里面设置的各种渲染状态,如shader,stencil什么的,对于它里面包含的secondary cmdbuffer是无效的,你必须在secondary cmdbuffer里面重新设置过。

  这要求你在record一个secondary cmd buffer的时候要能在程序中获取到它所处的primary 的一些外部渲染环境,设置进去,在程序实现的时候这可能是要特别小心的。

  • 需要灵活支持一个 renderpasssubpass_content_secondary还是subpass_content_inline状态,这是非常麻烦的一个改造。这里又涉及到vulkan的一个设计规范:

Vulkanrenderpass在一个subpass之内只能处于以下两种模式之一:要么里面完全只能执行secondary cmdbuffer(所有非vkexecutesecondaryapi皆为非法),要么里面完全不能执行secondary cmd buffer

看下面的这个图,第一种情况是ok的,subpass之内都是统一的内容状态,但是第二种是不行的,因为它杂糅了普通drawcall和secondaryexecute 

这是非常麻烦的一个点,为什么这样说?

通常我们移动端游戏为了减少render pass的切换,需要尽量复用一个renderpass,而一个大的renderpass它可能只是部分drawcall需要被拆出来到task rhi上异步执行,那就不可避免的出现这种“杂糅”状况。

为了解决这种杂糅,一种是如上图第一种形式插入更多的nextsubpass,用subpass做篱笆将不同种类分开,但是这是有损gpu性能的,我们不能确定硬件在切subpass的时候对于相同的rt情况下是否有优化,有可能将产生rt内容的load/store。另一种是如下图所示,只要一个renderpass中有任何一个drawcall被拆出来放到taskrhi上,那么整个renderpass的所有drawcall都需要被拆成secondary cmd buffer的形式在,只是说有个secondary cmd buffer在task上异步填充,有的依然在当前primary的main rhi上填充。

 

从上面这个图能够看出来,pass内部全都是vkexecutesecondary了,注意这里不意味着secondary4 要等待异步线程吧secondary 2和3处理完,他们依然是并行的,你只需要记住在4前面还有个2和3,只需要在最终submmit的之前end这个pass,在endpass的时候按照1 2 3 4的顺序执行这个execute就可以的。

  •       带有async drawcallrenderpassend

对于内嵌了secondary的renderpass在end的时候有个新的问题,因为executesecondary必须要发生在endpass之前,而mainrhi想endpass的时候task rhi可能还没有执行完,这会导致asyn rhi对main rhi的阻塞,因为main rhi还有后续的renderpass要begin。

一种解决方案是,此时重新begin一个新的primary cmd buffer,用于begin后续的renderpass,而之前的那个primary cmd buffer会等待它的secondary都执行完。这意味着我们的设计思路是:所有的renderpass都会延迟到最终submmit之前才进行帧的endpass(endpass前要按顺序execute secondary),每当一个renderpass被要求endpass的时候,如果他内含secondary,就马上启动一个新的的primary cmd buffer记录后续renderpass。

 

如上面图所示endpass只是加了一个mark,后面会开启新的primary cmd buffer,我们知道一次submit的时候可以submit多个primay cmd buffer,你只需要保证他们在submitinfo中的列表顺序就能保证他们的渲染顺序。

这样原本ue4中submmit的一个单一的primary cmd buffer可能被碎解成多个,因此vkcmdbuffer的结构也需要做些改造,里面增加了previous cmd buffer的数组,此外因为primary cmdbuffer还可能包含一些secondary cmd buffer,所以还增加了一个children 数组。

改造后的结构是如下:

 

  • Primary Cmd bufferSubmmit提交,提交是最终的一步操作,也是整个结构唯一需要同步等待所有线程工作完成的地方,在main rhi上对于每个primary cmd buffer,依次调用vkexecutecmdbuffer执行它的每个secondary cmd buffer(这个执行顺序很重要,它就是gpu的处理顺序),再执行相应的nextsubpass,endpass,endcmdbuffer这操作,当然primary cmdbuffer要按照渲染顺序放入submitinfo中。

Thread-safe

首先考虑到任何renderthread上的逻辑都有可能被在异步执行,所以一些不thread-safe的渲染线程代码都要改造,例如去掉一些单例的使用。

Task rendermain Render 之间的关系

在每帧render结束前,main render会等待task render执行完毕,所以要合适的分配main 和task的任务,尽量让main的工作量稍多一些。

其他问题

负载均衡

我们需要很好的平衡main 和task 两个渲染线程间的任务量,让main的任务稍多与task一点点,最好的方式是基于frame graph预先知道当前帧需要绘制哪些东西,才能做到最佳的负载均衡

GPU负载同HSR失效

我们发现在一些Adreno设备上,当使用secondary command buffer进行多线程提交时,gpu时间会大大增长,很像是硬件的深度筛选(即adreno的LRZ技术)失效,导致了更多的overdraw。

通过翻阅官方文档,确实找到了官方的说法,在文档https://blogs.igalia.com/dpiliaiev/adreno-lrz/和https://developer.qualcomm.com/sites/default/files/docs/adreno-gpu/developer-guide/gpu/overview.html#lrz中都有明确提到:

 

在sdp 855及以下的设备上,因为lrz机制基于的ztest方向跟踪是在cpu一侧做的,并行的api提交会让他紊乱,这样会导致lrz失效,进而gpu不能准确找到每个pixel最靠前的primitive进行渲染,出现更多的overdraw。而865以后因为在gpu上进行跟踪,所以解决了这个问题。但是我们的实际测试数据发现一些865 870的设备依然存在这个问题,保险起见,secondary cmd buffer只能运行在888及以上的设备上,这真的是一个令人悲伤的事情,说明硬件的发展还没有很好的为vulkan做好优化啊。

但是好消息是mali的所有设备不存在这个问题!~~

5 性能分析

 

从android的trace上可以看到有两条并行提交的队列,相比只有一条提交队列,总的渲染的cpu耗时被大大缩减,在我们项目中大部分情况下rhi线程的时间被缩短30%左右,有意思的一点是在大部分设备上,gpu的耗时也略微减少,目前还不能很好的解释。

6.结语

Vulkan作为现代的图形API,有着更加强大复杂的特性,同gles相比,更像是C++对比lua,它可以使我们从更底层的视角去看待图形编程,自己掌握多线程,内存分配,同步等,我们就不能像应用古老的gles一样去搭建渲染框架,那样就只是用着vulkan的皮囊而没有发挥它真正的威力,不过这对编程人员是没有那么友好的,且移动端的前人经验不多,就需要深入分析vulkan的文档,多尝试,另外vulkan作为一个追求性能的api,不太在api层次做校验,这导致对api的调用极易引起gpu的device lost,必须擅用它的validation layer及时发现潜在的问题。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/77706.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里巴巴内部:2022年全技术栈PPT分享(架构篇+算法篇+大数据)

我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心…

Linux中裸机串口通信的基本方法

大家好, 今天主要和大家聊一聊,如何使用串口进行通信的方法。 目录 第一:串口的基本简介 第二:UART的特点 ​第三:UART的配置步骤 第一:串口的基本简介 串口又叫做串行接口,通常叫做COM接…

农业灌区量测水流量在线监测系统解决方案-灌区信息化管理系统-灌区水网智慧化

平升电子农业灌区量测水流量在线监测系统解决方案/灌区信息化管理系统/灌区水网智慧化,对灌区的渠道水位、流量、水雨情、土壤墒情、气象等信息进行监测,同时对泵站、闸门进行远程控制,对重点区域进行视频监控,实现了信息的采集、…

Docker系统性入门(五)

文章目录Podman安装&基操pod多架构CI/CD容器安全监控Podman Podman 是 Red Hat 在2018年推出的,源代码开放是一个基于 Linux 系统的 daemon-less 的容器引擎;可以运行在root或者非root用户模式最近总听到这个要代替docker什么的,可以参考…

甲骨文蟾蜍 Toad for Oracle 16.2 注册版

使您的 Oracle 数据库操作现代化以实现业务敏捷性。 Toad for Oracle 是唯一一款可帮助您简化工作流程、减少代码缺陷并提高代码质量和性能同时支持团队协作的开发人员工具。自动化管理任务并主动管理您的数据库,同时实现性能优化和风险缓解。快速轻松地定义、搜索…

硬核干货,带你一文掌握 MySQL 的binlog 、redo log、undo log

​hello,大家好。 在MySQL 中我们经常会接触到三个核心日志,它们分别是:binlog 、redo log、undo log。 好多同学对于它们可能并不陌生,但是具体区分起来各自的功能用途以及实现原理,那可能认知就会比较模糊了&#x…

Web前端开发技术课程大作业_ 关于美食的HTML网页设计——HTML+CSS+JavaScript在线美食订餐网站html模板源码30个页面_

👨‍🎓静态网站的编写主要是用HTML DIVCSS JS等来完成页面的排版设计👩‍🎓,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode 、Webstorm、Animate等等,用的最多的还是DW,当然不同软件写出的…

Git基础|配置Git账号信息,Git存储的原理详解【建议收藏】

Git作为分布式版本管理,就需要对用户进行认证,账号名和邮箱,方便开发者从不同的电脑进行登录。同时,要想真的记住Git的命令,也必须要清楚Git的存储、上传原理。 Git基础2一、用户签名1、打开命令界面2、进入到用户管理…

CleanMyMac2023最新版软件功能及使用心得教程

电脑明明有100G,但是只剩下几个G,明明已经清理了很多,但是还是没有释放出内存,怎么办?可以试试CleanMyMac X,怎么使用呢?来看看吧!CleanMyMac X是一款颇受欢迎的专业清理软件&#x…

【2022.12.10】备战春招Day5——每日一题 + 96. 不同的二叉搜索树

【每日一题】1691. 堆叠长方体的最大高度 题目描述 给你 n 个长方体 cuboids ,其中第 i 个长方体的长宽高表示为 cuboids[i] [widthi, lengthi, heighti](下标从 0 开始)。请你从 cuboids 选出一个 子集 ,并将它们堆叠起来。 如…

​创新不是公司的救命良药

阅读本文大概需要1.06 分钟。之前问说当整个大环境都差的时候,公司还有项目可做就不错了,不要觉得只能赚点小钱就看不上,现在已经从伸手抓钱,变成弯腰捡钱的时代了。 开始赚的钱是不多,但能验证方向,先把跑…

web前端期末大作业 基于HTML+CSS+JavaScript学生宿舍管理系统

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

SSM+Mysql实现的仿网盘系统(功能包含注册登录,文件上传、所有文件、分类资源查看、用户管理、分享资源等)

博客目录SSMMysql实现的仿网盘系统实现功能截图系统功能使用技术代码完整源码SSMMysql实现的仿网盘系统 本系统是一个模拟百度网盘的系统,通过实现了图片/文本文件/视频等资源上传,并且分类管理、资源分享,实现了资源的在线管理。 (文末查看…

Vue2.0开发之——Vue组件-组件属性(34)

一 概述 为Count组件添加自定义属性为自定义属性添加v-bind自定义属性props是只读的自定义属性default默认值自定义属性type值类型自定义属性required必填值 二 为Count组件添加自定义属性 2.1 组件的props props 是组件的自定义属性,在封装通用组件的时候&#…

【Vue核心】6.数据代理

1.回顾Object.defineProperty方法 Object.defineproperty Object.defineproperty 的作用就是直接在一个对象上定义一个新属性,或者修改一个已经存在的属性。Object.defineproperty方法需要传递3个参数,1.属性所在的对象 2.属性的名字 3.一个描述符对象…

Wireshark TS | PMTU 问题实例

前言 PMTU,说到网络上的 PMTU 所能实现的功能,网工对它的原理自然是如数家珍,不熟悉的可能就感觉高大上了,觉得路径 MTU 能自动发现了,自然端到端数据包传输就能避免数据包分片了。可是理想很丰满,现实很骨…

防火墙NAT综合实验——nat控制,豁免,远程,DMZ区域(带命令)

作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一.实验 实验要求 实验命令 前言 本章将会进行NAT的综合配置…

编程零基础转行Python,往这个方向走,绝对没有错

近几年Python的受欢迎程度可谓是扶摇直上,当然了学习的人也是愈来愈多。一些学习Python的小白在学习初期,总希望能够得到一份Python学习路线图,小编经过多方汇总为大家汇总了一份Python学习路线图。 对于一个零基础的想学习python的朋友来说…

对造轮子Say NO!如何移植并使用Linux内核的通用链表?(附源代码)

1. 什么是链表 链表是一种常用的组织有序数据的数据结构,它通过指针将一系列数据节点连接成一条数据链,是线性表的一种重要实现方式。 相对于数组,链表具有更好的动态性,建立链表时无需预先知道数据总量,可以随机分配…

字节跳动技术总监整理的这份MySQL学习文档,看完才发现要学的可太多了!

对于程序员来说,去任何一家公司面试,数据库是避不开的。开发人员对MySQL掌握的越深入,你能做的事情就越多。 完成业务功能,要懂基本的Sql语句。做性能优化,要懂索引,懂引擎。做分库分表,要懂主从…