4K/8K 超高清实时处理与分发

news2025/1/20 14:54:09

  //  

4K/8K超高清时代的来临对于原有系统带来很多新的挑战,存储、带宽、算力成本的大幅增长也是阻碍超高清推广普及的重要原因。LiveVideoStackCon 2023上海站邀请到了腾讯云音视频的刘兆瑞分享在4K/8K超高清视频在实时编码的过程中遇到的困难以及解决方案。

文/刘兆瑞

编辑/LiveVideoStack

大家好,今天跟大家分享下在支持4K/8K超高清视频的实时编码、媒体处理、系统架构、专有云流量分发所遇到的困难和挑战,希望能给大家带来帮助。

分享内容分为六个部分:

bf6f5a8ea91f8ad8b35de184162672df.png

01

4K/8K超高清视频的背景

13721e92170afcc37a2082b41a86b5c6.png

6b3f6f00f0274c7fe3c99757d2d1fd8b.png

随着央视冬奥会和央视8K频道的播出,超高清视频已经走进了人们的生活,需求也逐步上升。然而,8K视频的普及度仍然不够,原因如下:

1、对原有的直播系统架构带来极大冲击。比如,8K直播的码率普遍高于100M。其次,通常直播流的分发要通过媒体处理的手段将8K的原始流转成不同的分辨率、码率、帧率之后再进行分发。对系统的算力消耗、处理速度、处理成本带来了新的难点。

除此之外,真8K的视频制作流程也需要高昂的制作成本,导致8K的片源还比较稀少。但也许AI手段能提供一些帮助,例如将原本4K视频超分至8K以达到8K的清晰度,来弥补高清片源稀少的问题。一套成本低廉、压缩率高且有一定增强能力的实时直播媒体处理平台,以上问题和痛点都可以解决。

8db4c156db8ff3e5cd4529d459fc8494.png

基于这样的背景,开始投入超高清直播媒体处理平台。首先遇到的问题是技术选型,通过CPU的方式支持还是专有芯片的方式来支持。硬件方案的优点是极高的编码出帧稳定性,低廉的计算成本。软件方案的优点是算法设计能更加灵活,纯CPU编码器可以通过算法设计达到比硬件方案更高的压缩率。同时软件方案的升级更加方便。如:原硬件芯片支持8K265编码,后续若想要升级支持266编码,对于硬件来说需要重新设计,软件则只需要进行代码升级即可,系统可以持续迭代支持最新的能力。

综上考虑,最终的选型还是偏向纯CPU的实时编码方案。优点是:压缩率更高、能够自由地扩展编码器和解码器、更容易支持复杂的逻辑和业务。另外,纯CPU方案使用的是通用算力,当不进行8K转码的时候,可以很方便的释放这部分资源进行通用CPU算力利用。

a2e6f7948f3756e6f70c766341580c68.png

目前我们达成的成果:

1、从8K的实时编码来说,8K单机能达到60FPS的实时编码,分布式集群转码能达120FPS的实时编码;

2、因为软件的灵活性,8K实时转码系统能够支持所有主流视频编解码标准;

3、在2022 MSU最新编码器评测报告,获得全项最佳;

4、拥有100+项H.266/VCC编解码专利技术。

02

编解码加速

38b31b4bc478bfae4fcdf05044679346.png

在对8K编码器优化时,主要分为两个方向:

1、优化编码器的并行度,让编码器同时编码更多帧,提高CPU资源利用率。目前我们支持多TILE并行编码。在8K场景下,8K视频帧的拷贝会成为耗时的操作,而编码过程中避免不了将YUV标准排列格式转为编码器内部优化后的YUV排列格式,这一过程需要进行访问拷贝操作,为此我们支持了将8K视频帧分为多个SLICE区间,每个SLICE一个线程来并行加速视频帧拷贝过程。此外还支持预分析和帧级并行、帧间多线程解耦,根据层级特点自适应选择参考帧,提高整体编码的并行度。

03794d465fd078d6ed08f819d2109771.png

2、另一个方向是直接对编码器算法进行优化。针对8K超高分辨率的编码特性,可以通过预分析mvp跳过原先编码器中的搜索过程;进行帧内帧间分析时,可以自适应选择先做帧内还是帧间,进行快速搜索。

在对编码算法进行加速优化后,会发现8K场景/DCT耗时占比较大。为此支持了非标DCT加速来提升整体速度。

对编码器优化后,纯编码的速度可以达到60甚至70FPS。但一旦将解码加入处理流程中,整个系统的转码速度和效率发生极大的下降。

2c773743127c698730850afa6b704883.png

通常4K/1080P解码并不需要耗费很多资源,瓶颈往往都在编码。但在8K场景,解码成为了新的瓶颈。

比如:AVS3格式的解码器,原生输出的是NV12的格式,FFmpeg中间有单线程进行NV12到YUV的转换,最终输出YUV进行后续的操作。这样的做法在4K/1080P分辨率下是没问题的,因为NV12到YUV的转换是一个快速的操作,但8K场景下,NV12到YUV的转换速率很难满足50FPS的要求,我们将NV12到YUV的转换移到了解码器内部。解码之后会在多线程上进行NV12到YUV的转换,来提升整体解码速度。

8K分辨率多TILE的H.265码流则是不同的方案。FFmpeg中H.265的特点是先把第一行完整地解码完毕后,才会进行解码进度更新,若遇到多TILE的情况解码速度会大幅下降。如上图所示,多TILE场景解码完成前两个TILE,并完成第三个TILE第一行时,才会更新解码进度,严重拖慢解码器并行。我们基于多TILE场景对H.265解码器进行优化,将二者结合,单TILE解码完成行解码后,就进行进度通知,优化之后能够达到单机50FPS以上的速度。

c025a322e52af6e4b35a7a18c83278c9.png

在优化完编码和解码速率之后,我们发现线上同样型号的两台128G内存设备,处理速度相差较大。处理速度快的设备是8×16G的内存,处理慢的设备是4×32G的内存。

内存带宽限制在低分辨率的情况下表现正常,但对于8K高分辨率会造成很大的影响。例如,一个3.2GHz的CPU插了4个32G的内存条,其内存的瓶颈带宽大概在102G,但如果要进行8K50FPS10bit的实时编码,也就是说一秒需要传输的数据带宽大概在4.7G。在实际操作中,内存搬运的过程只能占用编码整体非常小的部分,大部分的时间还是留在编码的运算上。瞬时带宽可能是4.7G的几十倍,尤其是系统内部还支持多线程并行视频帧拷贝,导致瞬时带宽增高,从而导致8K编码的限速。

8K视频编解码对内存带宽的消耗极大,配置设备硬件时,需要注意根据CPU的Memory Channels来配置内存,尽可能增加内存带宽。

5bb5e1b9c2c04fd7fc25cecfa9bedaa8.png

以上这些出现的问题说明在8K场景下,每个操作都需要多加思考,可能仅仅多加了一个拷贝,就会导致系统的慢速导致达不到实时性。在这里对整个内存池进行了重构,在解码、前处理操作、打水印的时候不申请新的内存,将所有操作原地处理,尽量将内存数据拷贝只进行一次。降低内存使用的带宽。

b1e79c1d92b9cb16b9651873e7ce9339.png

在优化完编解码速度、内存之后,系统在大部分情况下可以稳定运行,但是稳定性不高。对同一个视频流进行反复的编码,但其速度忽高忽低。有的时候完全满足实时要求,甚至更高达到60、70FPS,但有时降速严重只有40FPS。

现代操作系统通常支持NUMA架构来提升多核心内存访问效率。在NUMA架构中,处理器被划分为多个Node节点,并且每个Node节点都有属于自己的独立内存和内存访问控制器。CPU可以通过Node内集成的内存访问控制器访问同Node节点内存,通过QPI总线访问其他Node节点的内存,所以对于同一个Node里的CPU和内存之间访问速度会快于跨Node访问。

在编解码过程中,每颗CPU既进行编码也进行解码,会导致CPU的对应Node节点内存中同时存在解码帧和编码帧, 当编码过程中进行参考时,会产生大量的跨Nde节点访问内存。在8K场景下,跨Node节点访问带来的内存带宽和速度压力会快速放大,导致IO阻塞,并发能力下降。

这个问题的解决方案是:对CPU做核心绑定,将整体转码流程精细化控制。比如,解码、添加水印、转分辨率、编码等等操作都分配到指定CPU上进行,尽量保证相互依赖的操作都在同一个CPU,同一个Node节点内完成,尽可能降低跨Node内存访问。

03

分布式编码

b2145c3331b9dac984be53cafe530d60.png

a6212b13a1ab971fe336f2aca3eb8b33.png

在优化以上问题之后,单机直播系统在线上能够达到稳定8K 50FPS的实时编码。但我们面临的挑战可能是需要达到120FPS的编码速度。我们提出了将直播系统支持分布式转码。点播分布式转码应该比较熟悉,拿到一个文件之后,将文件切成一个个非常小的碎片,将碎片发到多台机器上进行处理,每个机器只处理一个非常短的碎片,最终将转码后的碎片形成一个完整文件。

直播分布式转码其实参考了点播的方式。通常直播转码在一台机器上完成解码、加水印、filter、编码等所有操作,但我们对直播流程进行了改造,它不进行实际的编码,而是拉取一个直播流按照GOP的维度在直播的场景下实时切成一个个的小片,将其发送到现有的点播算力节点,用文件的方式快速转码,转完之后的直播系统再回收这些小片拼成实时的直播流进行下发。整体思路和点播分布式转码相似,从一台机器进行所有操作到n台机器共同进行实时转码,使得编码速度和效率得到大幅提升。

75face22bc42394269068cb4d30517ae.png

另一部分是如何支持实时超分?通过视频增强、AI增强算法等操作可以实现4K实时超分,但是目前还很难支持实时超分8K。在这个背景下,我们利用分布式增强能力,支持直播过程中从4K到8K的超分。解码出一个视频帧之后,会对这一视频帧进行压缩,将压缩后的视频帧以帧维度发送到下游的增强算力节点,每个算力节点只进行单帧的超分辨率操作。通过算力节点海量的GPU资源,实现直播4K到8K的超分辨率增强。

04

网络优化

4a3d5fcf172efba0151e5e597e0d9b2a.png

作为云厂商,还有很多专有云部署的场景, 专有云环境下网络和设备环境更为复杂。

29b719259428cd8180331f7d04e0f7d7.png

eb99f570b971ee7fccae7174db4f766c.png

比如,从我们监控中看到大概每过1-2小时,整个直播转码系统会产生TCP慢速的过程。原因可能是我们提供的转码服务收到了拉流数据包之后,ack报文从虚拟网卡发送到物理网卡有3s延时,而正常应该是瞬时。

首先怀疑是否是系统负载问题,在CPU、内存、带宽利用率情况都良好的情况下,发现在某些机器上会发生这样的问题。传输过程是TCP→IP层→bond qdisc→ethX qdisc→ethX pcap。在虚拟网卡和物理网卡分别抓包的过程中发现慢速产生的原因是bond网卡会延迟2-3s的时间发送ack报文。通过netrace工具深入分析,发现从qdisc取包,到发送到驱动过程中,驱动状态表示不可以发送报文。最终确认专有环境设备的网卡驱动, 在大流量传输时产生了异常。

05

分发优化

41910e6b85802e5da4e43577db122722.png

另外遇到的一个问题是客户的网络环境受限体现在内部网络带宽只有千兆的交换机。

ecc0749c6622e1e7985aafc03f64a91f.png

在这个条件下,需要进行更精确的负载均衡的算法,UDP组播发包的时候使用更高性能的API、系统函数等。这里提供几个小技巧:

1、可以对UDP包进行流速的控制。因为编码码率无法做到完全稳定,上下浮动比较大。因此只要UDP发包速率控制在低于网络带宽的限制就可以实现。

2、充分利用交换机的两张网卡。配置bond虚拟网卡,用这个虚拟网卡进行交互,能拓展原先单机的千兆带宽。

4599db02254c82962ca1deec765b0db3.png

经过一系列优化,实时8K转码编码系统也部署在客户的专有环境落地。央视网内部部署的系统支持8K的实时编码。

06

总结与展望

最后是总结与展望。先说转码服务:

1、转码服务首先要进行编码器的优化。编码器的优化分成两个大的方向:首先如何提升整体编码并行度和CPU资源利用率,其次如何减少CPU运算量。

2、针对不同解码器进行不同的解码优化方案。例如,针对AVS3,将NV12到YUV的转换移到了编码器内核层进行操作;针对H265,通过多TILE并行编码进行加速

3、解决了内存带宽的瓶颈。通过管理每一项操作,减少所有内存拷贝和对内存带宽的使用等操作优化内存带宽。

4、转码链路稳定性提升。涉及了远端内存和本地内存的访问,需要规划每一步操作在哪个CPU上运行,减少跨NUMA的操作,提升整体访问效率。

转码集群:

1、 分布式转码通过多机、并行转码的能力支持最高8K 120FPS转码、4K到8K的超分等

2、 针对客户场景,要更关注可能产生的TCP慢速、丢包等问题。其次在客户受限的网络环境下进行UDP发包算法的平滑以及对分发的负载均衡算法的优化。

谢谢大家!


7584469ba14ccb087122d5fd6de755f5.jpeg

LiveVideoStackCon是每个多媒体技术人的舞台,如果您在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的出品人/讲师。

扫描下方二维码,可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核,并与符合条件的优秀候选人进行沟通。

6ccae9a9eb388be32c328e898cadee04.jpeg

扫描上方二维码 

填写讲师申请表单

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/884046.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

构建高性能小程序:优化技巧和最佳实践

第一章:引言 随着移动互联网的快速发展,小程序成为了用户获取信息和进行业务交流的重要平台之一。然而,小程序由于受限于硬件资源和网络环境,开发者需要更加关注性能优化,以提供流畅、高效的用户体验。本文将介绍一些构…

H5前端外包开发框架排名

以下是一些常见的网页前端开发框架以及它们的排名和特点。请注意,随着时间的推移,框架的排名和特点可能会有所变化。不同的项目和团队对于框架的选择会受到多个因素的影响,包括开发团队的技能、项目的规模和要求、性能需求等。北京木奇移动技…

AE使用(一)

打开AE 点击“新建合成” 注意参数:宽度高度是视频是横屏还是竖屏。发布在抖音上,需要做出来竖屏效果;发布在视频网站中需要做出横屏效果。没用特殊需求,默认参数就行。 导入素材:左键双击“导入素材区”的空白部分。 …

将CNKI知网文献条目导出,并导入到Endnote内

将CNKI知网文献条目导出,并导入到Endnote内 目录 将CNKI知网文献条目导出,并导入到Endnote内一、从知网上导出参考文献二、将知网导出的参考文献导入到Endnote 一、从知网上导出参考文献 从知网上导出参考文献过程和步骤如图1所示。 图1 导出的参考文献…

什么是业务敏捷,如何实现业务敏捷?

点击链接了解详情 作者介绍 前言 随着越来越多行业的企业开始关注敏捷,业务敏捷(Business Agility)成为一个新的热点。毕竟大部分的行业和组织与软件无关,但是依然要实现业务上的敏捷,所以这个系列会主要谈两点&#…

threejs使用gui改变相机的参数

调节相机远近角度 定义相机的配置: const cameraConfg reactive({ fov: 45 }) gui中加入调节fov的方法 const gui new dat.GUI();const cameraFolder gui.addFolder("相机属性设置");cameraFolder.add(cameraConfg, "fov", 0, 100).name(…

Android中的二级列表-ExpandableListView

Android中的二级下拉列表,类似于某Q的分组,采用ExpandableListView实现,适配器方法如下。 先看效果图:有四个分组,每个分组下都有一些子条目,可以跟着父条目展开而显示 实现代码: 一级列表是一…

基于STM32的超声波雷达

视频地址:1.基于STM32的超声波雷达-演示_哔哩哔哩_bilibili 备注:文档最后有所有文件的网盘地址 1. 项目展示 1.1. 最终效果 1.2. 项目硬件 全部必要硬件(左到右): ST-LINK调试器:调试下载程序stm32f103c8t6核心板1.8寸TFT显示器sg90舵机超声波传感器

题解 | #1002.Shortest path# 2023杭电暑期多校9

1002.Shortest path 签到题 记忆化搜索 题目大意 给定一个正整数 n n n ,可以对其进行以下操作: 如果 n n n 能被 3 3 3 整除,则可以使 n n / 3 nn/3 nn/3 ;如果 n n n 能被 2 2 2 整除,则可以使 n n / 2 nn/2 nn/2 …

JavaScript(JavaEE初阶系列13)

目录 前言: 1.初识JavaScript 2.JavaScript的书写形式 2.1行内式 2.2内嵌式 2.3外部式 2.4注释 2.5输入输出 3.语法 3.1变量的使用 3.2基本数据类型 3.3运算符 3.4条件语句 3.5循环语句 3.6数组 3.7函数 3.8对象 3.8.1 对象的创建 4.案例演示 4…

【MyBatis】查询数据库

目录 一、什么是MyBatis 二、MyBatis框架的搭建 1、搭建MyBatis框架 2、设置MyBaits项目的配置 三、使用MyBatis完成数据库的操作 1、MyBatis程序中sql语句的即时执行和预编译 1.1、即时执行(${}) 1.2、预编译(#{}) 1.3、即…

多态原理解析

一 多态应用 首先,什么是多态呢?很多概念起初我们都是不理解的,就像我们刚接触继承一样,当学完后发现其实也没那么难,也挺容易理解的。 多态详细点就是多种状态,例如游戏中的抽宝箱,每个人难道都是一样的…

6.文件实现

第四章 文件管理 6.文件实现 ​   连续分配方式:逻辑上相邻的块在物理上也必须相邻,也必须是占有一组连续的块并且依然需要保持这些块之间的相对顺序。 在连续分配方式下为了实现逻辑块号到物理块号之间的映射关系,在文件的目录表中必须记…

JAVA语言:什么是懒加载机制?

JVM没有规定什么时候加载,一般是什么时候使用这个class才会什么时候加载,但是JVM规定了什么时候必须初始化(初始化是第三步、装载、连接、初始化),只要加载之后,那么肯定是要进行初始化的,所以我们就可以通过查看这个类有没有进行初始化,从而判断这个类有没有被加载。 …

文件批量重命名怎么去括号?

文件批量重命名怎么去括号?平时我们一个一个修改文件名称的时候,是不会有括号的。但如果你使用传统的方法来进行文件批量重命名,那么最后得到的文件名是这样的“音频 (数字编号)”,这些文件的名称中会包含一个中文括号。这这个括号…

8.15起 webserver笔记

XShell 远程连接 XFTP 文件传输 VSC远程连接虚拟机,vim编辑器用起来不方便: 查看虚拟机IP地址: MY: 192.168.42.138 VSC每次都要密码,配置免密登录: 在本机命令行生成用户私钥:

JDBC连接数据库(mysql)

准备jar包 官网下载即可,这里提供两个我下载过的jar包,供使用 链接:https://pan.baidu.com/s/1snikBD1kEBaaJnVktLvMdQ?pwdrwwq 提取码:rwwq eclipse导 jar包: 导入成功会有如下所示: ---------------------------…

LeetCode ACM模式——二叉树篇(二)

刷题顺序及思路来源于代码随想录,网站地址:https://programmercarl.com 二叉树的定义及创建见: LeetCode ACM模式——二叉树篇(一)_要向着光的博客-CSDN博客 目录 102. 二叉树的层序遍历 利用队列 利用递归 10…

sql类型-用户定义表类型

一、创建用户定义表类型String_Table_Type CREATE TYPE String_Table_Type AS TABLE ( Id nvarchar(200) NOT NULL ) GO DECLARE test String_Table_Type INSERT INTO test VALUES(a),(b),(c) SELECT * FROM test 二、SqlSugar中使用

VBA manual

VBA MACRO 修复乱码打开VBAAlt F11File/Options/Customize Ribbon 修复乱码 Tools / Options Control Pannel / Region 打开VBA Alt F11 快速打开VBA File/Options/Customize Ribbon