视频拼接融合产品的产品与架构设计(二)

news2024/10/5 21:20:10

视频拼接融合产品的产品与架构设计一
以上是第一期,以前思考的时候还是比较着急,现在思考的更多了,现实世界的拼接更加需要我们沉下心来做,尤其是对于更多画面,画面更加清晰怎么做

本篇章不在于其他功能,在于说明选型和效率问题

重中之重-选型

使用什么硬件
我来清除地阐述现在所有的硬件平台,绝无虚言,
1 nvidia 英伟达的cuda
     英伟达的产品好用,主要在于cuda生态,同时细节处理丰满,运用简单,他的gpu解码器和编码器和tensor core 分别为不同的芯片,可以流水线处理,windows下可以使用dlss 进行超分处理,可以同时使用cuda技术解码和directx 11 技术解码,vulcan技术解码,可以在gpu中直接处理所有算法,而不用下放到cpu,拼接完成,编码完成后发出rtsp流,后面我会证明为什么要使用cuda。
2 amd
     amd的显卡解码在windows下可以直接使用directx11,至于其他可以使用opencl 去做,这一部分需要熟悉opencl的kernel,也是可以的,效率会稍稍差一些,如果是没有什么选择,尽量使用nvidia的夏卡
3 intel 显卡
     intel的核显很强大,编解码非常厉害,同时intel出的独立显卡也是很好用的,同样可以使用他的独立显卡,如出的arc A750 ,arcA770,都是可用的,图像处理也没有问题,可以选,但是慎重
4 瑞芯微3588
瑞芯微3588 可以用,解码芯片和编码芯片也很突出,有硬件的rga处理
不过技术文档不友好,但是还是可以用,记住流程,使用rga硬件,使用opencl都可以的
5 树莓派
可以硬件解码,图像处理可以使用opencl
6 华为昇腾(Ascend)
暂时对图像处理不友好,可以使用opencv高版本进行处理,npu可以使用
7 其他国产显卡
暂时不要进行研究处理,通用性还没有那么好,等待各个图像处理和AI处理都可以了,再进行下一步

至于国内的显卡,我为什么现在不推荐做,因为现在还不成熟,而对于amd 和 intel 显卡我们要排在英伟达的后面,因为英伟达确实通用性非常强。
以上希望其他研究者,学者与我联系,如果可能,我会尽我所能进行测试分析,或者纠正我说的错误

分布式架构

在这里插入图片描述
下面我就nvidia显卡进行分析,说明cuda的效率

cuda nv12 和 bgr 互相转化

为什么要使用bgr 和 nv12 的转化?因为我们都知道大名鼎鼎的opencv,处理图像和滤波算法以及AI算法推理,可以使用bgr方式,这样,使用cuda转化,使用bgr 和 rgb方式进行AI算法推理和普通算法处理图像,结束后立即编码,

__global__ void BGR2NV12Kernel(const uchar3* srcBGR, unsigned char* dstY, unsigned char* dstUV, int width, int height, int srcStep, int dstYStep, int dstUVStep) {
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;

    if (x < width && y < height) {
        int srcIndex = y * srcStep + x ;
        int dstYIndex = y * dstYStep + x;
        int dstUVIndex = y / 2 * dstUVStep + x;

        // BGR to NV12 conversion
        uchar3 pixel = srcBGR[srcIndex];
        dstY[dstYIndex] = 0.299f * pixel.x + 0.587f * pixel.y + 0.114f * pixel.z; // Y component
        //以下为uv分量转化
    }
}

结果出来的图像是这样的
在这里插入图片描述
考虑x周横向是3个像素,修改一下
int srcIndex = y * srcStep + x *3;
在这里插入图片描述
离目标有点远,仔细分析cuda代码,应该是这样

uchar3* ppixel = (uchar3*)((unsigned char*)srcBGR + y * srcStep) + x;

这下正确了,cuda的好用就在于像素并行操作!在这里插入图片描述
右边是原图,左边是cuda转硬件的bgr 到 nv12,再次使用 nv12 转成bgr ,进行显示,耗费时间,我们加几行代码进行计算

    double startTime = cv::getTickCount();
    // 在这里执行你需要测量耗时的操作
    // 例如,这里模拟一个延时操作
    
    // 记录结束时间
    double endTime = cv::getTickCount();
    //bgr 转nv12
     bgr_to_nv12_cuda(reinterpret_cast<uchar3*>(gpu_input_image.data), frame->data[0],
     frame->data[1], w, h, gpu_input_image.step, frame->linesize[0], frame->linesize[1]);
    
    //nv12 转 bgr
     nv12_to_rgb24_cuda(frame->data[0], frame->data[1], memory, m1.step, frame->linesize[0], frame->linesize[1], frame->width, frame->height, 3);
 
     // 计算时间差,单位为毫秒
    double elapsedTimeMs = (endTime - startTime) / cv::getTickFrequency() * 1000.0;
    std::cout << "Elapsed time in milliseconds: " << elapsedTimeMs << std::endl;

在这里插入图片描述
nvidia 1650 显卡,使用cuda ,花费0.946 毫秒,1毫秒不到完成2次转化,图片太小,我们加一个2k的图像进行转化:如下所示
在这里插入图片描述
花费1.27 毫秒,性能开始下降,比较危险,看看是否能够提高
线程块修改
dim3 block(16, 16);
dim3 block(32, 32);
在这里插入图片描述
基本上提高了一点,不大,4k画面估计要到2-3毫秒,我们再次测试一下
在这里插入图片描述
果然到了2.478 毫秒,这个时间有些超量,希望可以优化到1毫秒多。
对于一秒钟视频25帧画面来说,4k画面需要2.5 * 25 = 62.5 毫秒,说实话有点多了。
如果我们使用ffmpeg cpu swscale, 后果不堪设想。

总结

总之效率是最重要的,还有一点一直是我所思考的,如果死磕gpu,那么cpu 会浪费,所以对gpu 和 cpu 除了要分布式处理,还要进行分担,所以我决定从多点出发,需要进行cpu 前处理插件点,gpu处理插件点,gpu下拉后插件点 ,利用cpu 多核处理能力,同时分担gpu的任务。

未完,待续。。。。。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1660019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot的图片上传

简介 该文档旨在介绍一个基于Spring Boot框架的简单文件上传功能的实现方式。本文档将详细介绍相关代码的功能和配置以及如何使用它们。 样例 技术栈 Spring Boot&#xff1a;一个用于快速开发基于Spring的应用程序的框架。Thymeleaf&#xff1a;一个用于在Web应用程序中创建…

孔板流量计和孔板流量计真的不一样

孔板流量计和孔板流量计真的不一样&#xff0c;无论您是追求品质&#xff0c;还是注重实用功能&#xff0c;我们的产品都能让您心动不已。让您轻松享受到现代科技所带来的便利&#xff0c;尽情展现自己不一样的魅力。 用途【1-5-9】 孔板流量计为煤矿瓦斯抽放而设的计算瓦斯抽…

vue3.0(五) reactive全家桶

文章目录 1 reactive1.1 reactive的应用1.2 reactive的特点1.3 reactive的注意1.4 reactive的局限性 2 toRefs3 isReactive4 shallowReactive5 readonly5.1 readonly 详细信息5.2 readonly函数创建一个只读的响应式对象5.3 如何修改嵌套在只读响应式对象中的对象? 6 isReadonl…

SG3225EEN在PAM4光模块和400G,QSFP-DD光模块中的应用

爱普生晶振SG3225EEN&#xff0c;156.25MHz在PAM4光模块和QSFP-DD光模块中的应用。光模块市场已发展至400G光模块&#xff0c;那么PAM4光模块和400G QSFPDD光模块有哪些区别呢?SG3225EEN又是怎么应用在PAM4光模块和QSFP-DD光模块中的呢? 首先介绍的是PAM4光模块:PAM4是PAM(脉…

爱思控AQMDBLS-Ax/Bx/Mx/T 系列无刷电机驱动器使用

履带车配置 AQMDBLS-Ax/Bx/Mx/T 系列无刷电机驱动器使用大致需要以下几个步骤。 1&#xff09; 阅读用户使用说明书、了解驱动器的性能、明确控制目的&#xff1b;2&#xff09; 根据电机和驱动器的接线原理&#xff0c;正确接线&#xff1b;3&#xff09; 使用 485 通讯控制&…

FileLink跨网文件摆渡系统:保障数据安全,促进业务高效协同

FileLink跨网文件摆渡系统&#xff0c;作为一种先进的文件传输解决方案&#xff0c;正逐渐在企业级应用中崭露头角。它打通了不同网络之间的隔阂&#xff0c;使得文件能够安全、高效地从一个网络传输到另一个网络。 FileLink跨网文件摆渡系统基于先进的加密技术和数据传输协议&…

亚信安慧AntDB:解锁数智化的新时代

亚信安慧AntDB的融合实时的特性使得它在数据库领域独树一帜。传统的数据库系统往往只能追求数据的准确性和一致性&#xff0c;但在实际的业务场景中&#xff0c;这些特性并不能满足企业的需求。AntDB的出现打破了传统束缚&#xff0c;为企业带来了全新的数据处理方式&#xff0…

【Linux网络编程】高级IO——五种IO模型

高级IO 1.什么是IO&#xff1f;什么是高效的IO&#xff1f;2.有那些IO的方式&#xff1f;这么多的方式&#xff0c;有那些是高效的&#xff1f;3.五种IO模型4.高级IO重要概念5.非阻塞IO 点赞&#x1f44d;&#x1f44d;收藏&#x1f31f;&#x1f31f;关注&#x1f496;&#x…

shopro商城 源码搭建/部署/上线/运营/售后/更新

基于Fastadmin和Uniapp进行开发的多平台&#xff08;微信公众号、微信小程序、H5网页、Android-App、IOS-App&#xff09;购物商城&#xff0c;拥有强大的店铺装修、自定义模板、路由同步、多端支付&#xff08;微信&#xff0c;支付宝&#xff09;、多规格商品、运费模板、多地…

突发!31篇文章被撤!这本Springer旗下SCI,开始大面积撤稿,原因涉及同行评议!

【欧亚科睿学术】 近期&#xff0c;期刊JOURNAL OF COMBINATORIAL OPTIMIZATION撤回了31篇文章&#xff0c;大部分文章都是由中国学者参与。主要原因是包括但不限于&#xff1a;编辑处理和同行评议过程的妥协&#xff0c;不恰当或不相关的参考文献&#xff0c;或者不在期刊或客…

如何高效合并Python字典?掌握这些技巧,让你的代码更优雅!

在Python中&#xff0c;字典&#xff08;Dictionary&#xff09;是一种非常有用的数据结构&#xff0c;它允许我们以键值对的形式存储数据。在日常编程中&#xff0c;我们经常需要将两个或多个字典合并为一个。幸运的是&#xff0c;Python提供了一种简洁而高效的方式来实现这一…

探索财富新纪元:订单排队模式引领企业革新之路

尊敬的企业家们&#xff0c;大家好&#xff01;在现今这个竞争激烈的商业环境中&#xff0c;寻找一种既高效又具持续性的商业策略&#xff0c;是每个企业家都关注的焦点。今天&#xff0c;我要为您揭示一种前沿的商业模式——订单排队模式&#xff0c;它可能为您的企业开启全新…

金蝶BI应收分析报表:关于应收,这样分析

这是一张出自奥威-金蝶BI方案的BI应收分析报表&#xff0c;是一张综合运用了筛选、内存计算等智能分析功能以及数据可视化图表打造而成的BI数据可视化分析报表&#xff0c;可以让企业运用决策层快速知道应收账款有多少&#xff1f;账龄如何&#xff1f;周转情况如何&#xff1f…

2024数维杯数学建模A题B题C题思路+模型+代码(开赛后第一时间更新)

2024数维杯数学建模A题B题C题思路模型代码&#xff08;开赛后第一时间更新&#xff09; https://mbd.pub/o/bread/ZpWakpdq https://mbd.pub/o/bread/ZpWakpdq 2024年第九届数维杯大学生数学建模挑战赛参赛规则 竞赛要求及论文提交方式; ①本次参赛作品统一在线提交到竞赛…

echarts-gl 离线3D地图

1、安装依赖 echarts-gl 与 echarts 版本关系&#xff1a; "echarts": "^5.2.0", "echarts-gl": "^2.0.8"# 执行安装 yarn add echarts-gl2、下载离线地图 免费下载实时更新的geoJson数据、行政区划边界数据、区划边界坐标集合_…

2024年北京服贸会媒体邀约资源有哪些?

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 2024年北京服贸会&#xff08;中国国际服务贸易交易会&#xff0c;简称CIFTIS&#xff09;作为中国重要的国际性服务贸易盛会&#xff0c;会吸引众多媒体的关注和参与。媒体邀约资源通常…

【记录】常见的前端设计系统(Design System)

解释一下设计系统的定义&#xff0c;以及在国内&#xff0c;都有那些优秀的设计系统可以学习&#xff0c;希望可以帮到大家。 什么是设计系统&#xff08;Design System)&#xff1f; 设计系统&#xff08;Design System&#xff09;是一套综合性的指导原则、组件和规则&…

标准参编征集|《第三方运维服务水平评价指南 工业废水处理设施》

目前&#xff0c;对于工业废水处理设施第三方运维服务的标准&#xff0c;国家和行业未曾出台有针对性的评价标准和规范&#xff0c;工业企业和工业园区对第三方运维服务的监督、考核、评价体系需要进一步补充和完善。 本标准的编制旨在帮助第三方运营单位从运营技术和管理举措…

如何使用XCTest进行ios自动化测试?

iOS自动化测试框架有哪些&#xff1f; iOS自动化测试框架有很多&#xff0c;以下是一些常用的iOS自动化测试框架&#xff1a; XCTest&#xff1a; XCTest是苹果官方提供的iOS自动化测试框架&#xff0c;可以用于单元测试和UI测试。 Appium&#xff1a; Appium是一个跨平台的自…

【Linux系统编程】第十四弹---进度条

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、回车和换行 2、观察回车换行现象 3、缓冲区 4、usleep和fflush函数 5、简单倒计时 6、进度条 6.1、版本一 6.2、版本…