面向视频会议场景的 H.266/VVC 码率控制算法研究

news2025/1/19 20:20:55

文章目录

      • 面向视频会议场景的 H.266/VVC 码率控制算法研究
        • 个人总结
        • 摘要
          • 为什么要码率控制
          • 码率控制的关键
          • 会议类视频码率控制研究背景
          • 视频会议系统研究现状
          • 目前基于 R-λ模型的码率控制算法的问题
          • 文章主要两大优化算法
          • 优化算法1:基于视频内容相关特征值的码率控制算法
            • 帧层目标比特分配
            • LCU层目标比特分配
            • 算法流程图
            • 算法实验测试结果
          • 优化算法2:基于感兴趣区域的会议类视频码率控制算法

面向视频会议场景的 H.266/VVC 码率控制算法研究

个人总结

论文标题

面向视频会议场景的 H.266/VVC 码率控制算法研究

发表期刊

硕士电子期刊

作者

余东航

发表日期

2022 -5-25

阅读日期

2023.8.3

评分 Score

类型思路批注
研究背景本文的主要内容是什么?目前研究情况是什么?随着人们对高清视频画质的需求越来越高,现有的视频压缩技术需要进一步优化才能适应不断增加的应用需求。VVC的码率控制模块所分层次与 HEVC 码率控制模块相同,而具有实际研究价值的主要为帧层和 LCU 层,因此近年来诸多专家对于视频编码码率控制板块的研究主要围绕着帧层和 LCU 层两部分进行
方法和性质面向什么样的任务?作者如何采集数据?这项研究是在何时何地进行的? 他提出的模型或者方法是什么样的呢?测试对象:选取 VTM 通用测试环境中推荐的视频序列,各序列根据分辨率的不同进行了分类。算法选取 B 类测试序列 MarketPlace、RitualDance、Cactus 和 BQTerrace;C 类测试序列 BasketballDrill、BQMall、RaceHorses 和PartyScene ; D 类 测 试 序 列 BQSquare 、 BlowingBubbles 、 BasketballPass 和RaceHorses;以及 E 类测试序列 FourPeople、Johnny 和 KristenAndSara。
研究结果模型效果获得了怎样的提升?(效率还是准确率或者是其他)算法所有序列的总平均码率的相对误差值为 0.434%,码率控制精度优于自适应设置下的 0.435%。算法下测试序列的平均峰值信噪比相比于 VTM10.0 码率控制算法提升了 0.028dB。算法最终的平均BDBR 相比于 VTM10.0 的 BDBR 平均减少了 0.86%
创新点这个论文的主要贡献或者创新点是什么?他的创新是基于之前的某个模型或者理论?引入灰度共生矩阵,计算出反映编码帧纹理复杂度的相关特征值,用于帧层图像权重的调整;在计算LCU 权重时,通过引入最优拉格朗日乘子对权重进行重新计算,提高权重分配的准确性。
结论作者从中学到了什么?
研究展望对未来的研究有什么暗示或建议?H.266/VVC 的码率控制算法,只是从 GOP 层、帧层和 LCU 层入手考虑了相关的算法研究,没有考虑到更下一层的码率控制中比特分配的相关性。因此,未来的工作中可以进一步考虑 CU 的划分与码率控制的比特权重分配之间的关系,构建出更小尺寸的编码块层作为码率控制的新的单元层。
重要性为什么这项研究很重要?码率控制技术使得视频在编码过程中能够自适应地调节编码参数值,在保证编码质量的前提下,尽最大可能地提高通信信道的利用率。码率控制在视频编码以及视频通信应用中具有重要意义。
想法和问题你有什么想法和问题?
本文优秀表达能复用的要点是什么?

摘要

视频编码是提高传输效率,降低数据存储压力的一种有效措施。新一代视频编码标准 H.266/VVC(Versatile Video Coding)在各编码模块中引入新的压缩技术,极大提高了视频编码效率,可广泛应用在高清和超高清电视、远程医疗、视频会议等应用中。2019 年年底新冠疫情爆发后,视频会议成为企事业单位远程会议,学校远程教学的主要途径。面对大量的会议视频用户,不同的会议场景,如何确保视频的通信质量,尤其是感兴趣区域(Region Of Interest, ROI)的编码质量,成为目前视频编码领域的研究重点。码率控制技术既能产生匹配传输带宽的码流,还可通过比特分配调节保证主要编码区域的质量,是视频通信系统不可或缺的重要模块。由于 VVC 码率控制算法没有充分考虑编码帧的内容特性和最大编码单元(Largest Coding Unit, LCU)的时空域复杂度,导致比特分配存在误差,码率控制算法性能有进一步优化的空间。本文针对 VVC 码率控制算法在帧层与 LCU 层比特分配过程中存在的问题,对码率控制算法进行了优化。在此基础上,针对视频会议场景中 ROI 进行基于最大编码单元的目标比特调整,提高了视频编码的主观质量。

本文针对 H.266/VVC 码率控制算法没有综合考虑会议类视频编码帧的实际纹理特征的问题,提出了一种基于视频内容相关特征值的码率控制算法。首先,通过引入灰度共生矩阵,计算出反映编码帧纹理复杂度的相关特征值,用于帧层图像权重的调整;然后,基于 R-λ模型对 LCU 层的λ参数进行重新计算,调整权重分配大小,并在编码过程中根据实际消耗比特不断更新参数值,提高 LCU 层比特分配的精度。经测试,本文算法在低延时(Low Delay-P, LDP)配置下,与自适应权重分配算法相比,在更接近目标码率情况下,率失真(Rate-Distortion, R-D)性能提升了 0.86%,改善了视频序列的主客观质量。

为了提高会议类视频 ROI 的编码质量,本文首先基于 LCU 对会议类视频 ROI进行检测,并以计算出的显著度值进行标记,然后使用 Sobel 梯度检测算子和MSE(Mean Square Error)比特检测算法分别检测 LCU 的纹理复杂度和编码代价,并对复杂度因子和编码代价进行联合加权,构建出一种新的权重因子,基于新的重庆邮电大学硕士学位论文 摘要II权重因子对待编码 LCU 比特权重进行调整分配。同时,通过 LCU 的显著度值进行目标比特分配调整,确保 ROI 的编码质量,达到优化会议视频场景的主客观质量的目的。实验结果表明,在 LDP 配置下本文所提算法相比于自适应码率控制算法的码率控制相对误差平均降低了 0.011%,率失真性能提升了 1.87%,改善了会议类视频的编码性能。

为什么要码率控制

在视频编码过程中,如果采用固定编码参数值对视频序列进行编码,那么编码器输出的码流会随着每一帧图像包含的信息量以及内容复杂度的不同而产生波动。如果输出码流过大,可能会超过发送端缓存区的容量,导致视频传输时延过高甚至丢帧的现象发生;如果输出码流的码率过小,则网络通信信道得不到充分的利用,浪费传输资源,解码端所得到的视频质量较差,在解码视频中会出现图像模糊化以及方块效应等现象。因此有必要对视频编码过程中的码率进行控制,使得编码后码流的比特数与传输信道的带宽上限匹配,同时也要兼顾传输视频的质量,使编码后的图像失真尽可能的小。

码率控制的关键

码率控制技术的关键点是通过目标比特分配的方式来获取量化参数(Quantization Parameter, QP)的值,进而调节输出码率的大小,达到控制码率的目的。

会议类视频码率控制研究背景

对于会议类特定场景的视频,加入码率控制技术不仅可以保证视频输出码流与网络带宽相适应的同时,还能够尽可能地保证视频的失真度最小,提高重建视频的质量。考虑到会议类视频的场景性质,人们在接受视频信息时会重点关注感兴趣区域。在进行码率控制环节之前先将感兴趣区域和非感兴趣区域进行区分,在码率控制环节中重点保证会议类视频感兴趣区域部分的编码质量,就能够最大程度地平衡视频的输出码流与主客观质量,因此面向会议类视频的 H.266/VVC 码率控制算法具有重要的研究价值

视频会议系统研究现状

在会议应用场景中,会议视频常常存在着大量固定的背景区域,且背景区域的纹理复杂度不确定。对于此类视频,人们通常关注的焦点往往是人脸,或讲课 PPT 等屏幕内容,因此前景区域大多为人脸区域与屏幕内容区域。传统的视频编码方式忽略了人眼的视觉特性,单纯地针对整个视频编码单元的纹理复杂度进行资源分配和码率控制,对于背景区域较复杂的视频序列,这种编码方式会导致主观质量的下降。因此,针对会议类视频编码,如果引入 ROI 编码方式可提高视频编码质量

目前基于 R-λ模型的码率控制算法的问题

首先,在帧层码率控制算法研究中,VVC 的码率控制算法虽然考虑了编码实际结果的失真值,并以 R-λ模型为推导基准修正参数更新公式,提高了参数更新的准确性。但在视频编码过程中,VVC 码率控制算法未充分考虑一个图像组中编码帧的纹理特性,因此在帧层的编码率失真性能和视觉体验还有待提高。

其次是 LCU 层的比特权重分配。VVC 根据当前帧的总目标比特以及模型参数进行 LCU 层的权重分配,由于没有考虑到同一帧中 LCU 层图像的空域纹理特性,同一位置时域上的关系以及实际编码消耗比特与目标比特之间的误差关系,所以 LCU 层的比特分配机制仍有改进的可能性。

再者,码率控制结合 ROI 的算法具有更进一步提高视频编码质量的拓展性,结合 ROI 的码率控制算法可以在主观质量上有着明显的提升,对于 ROI 进行重点的比特权重的分配,而对于非 ROI 的比特分配不作重点的权重考虑,最终可以实现即便在客观指标略微提升甚至下降的情况下,也能达到良好的视觉体验。

文章主要两大优化算法
  1. 会议视频的帧层比特分配及 R-λ模型优化目前帧层码率控制算法相关研究已有很多。本文针对会议视频帧层的码率控制,提出了一种基于视频内容相关特征值的码率控制算法。为了解决原平台码率控制算法没有对待编码帧进行预处理分析的问题,本文通过引入灰度共生矩阵,计算出反映编码帧纹理复杂度的相关特征值,用于帧层图像权重的调整;在计算LCU 权重时,通过引入最优拉格朗日乘子对权重进行重新计算,提高权重分配的准确性。该算法实现了在相同码率控制配置情况下,提高了码率控制精度和视频序列的主观和客观质量。
  2. 最大编码单元层 ROI 码率控制优化算法面向会议类视频,本文采用图像边缘检测算子计算 LCU 层像素的复杂度因子,并根据统计前一编码帧每个 LCU 的均方误差和实际消耗的编码比特数,计算出待编码 LCU 的编码代价。以待编码 LCU 的复杂度因子和编码代价作为会议类视频中编码块纹理复杂度描述信息,经联合加权到 LCU 层比特分配模型中,构建一种LCU 层目标比特的分配方式。基于 LCU 计算出会议类视频的显著度值并标记出ROI,并针对 ROI 显著度值进行目标比特的分配调整,提高会议视频的编码性能以及 ROI 的编码性能。

H.266/VVC 编码器的整体工作流程

首先,编码器将获取的源视频图像进行块划分,然后权衡编码块在帧内/帧间编码条件下的率失真性能,选择合适的划分模式,将划分好的块送至帧内/帧间预测模块进行预测编码。如果进行帧内预测编码,则通过相邻已编码像素点预测编码区域的像素值,或通过帧内运动估计搜索当前编码帧中与当前编码区域相似的区域,将搜索到的区域进行运动变换后得到当前编码区域;如果进行帧间预测编码,则采用运动估计在参考帧中搜索与当前编码区域相似的编码区域,将搜索到的区域进行运动补偿后得到当前编码区域的预测像素值。接下来通过原始值和预测值进行计算得到预测残差值,为了使预测残差值能量分布更加集中,H.266/VVC 对预测残差值进行 DCT 变换,再对经过变换之后的矩阵系数进行量化处理,使得低频系数变小而大多数的高频系数为0,从而大大地压缩了需要传输的数据量。最终量化后的数据在经过熵编码后形成视频码流的形式被传输到解码端。H.266/VVC 解码器接收码流之后按照一定顺序对视频帧进行重建。

优化算法1:基于视频内容相关特征值的码率控制算法
帧层目标比特分配

灰度共生矩阵

对于纹理变化缓慢的图像,其灰度共生矩阵对角线上的数值较大;而对于纹理变化较快的图像,其灰度共生矩阵对角线上的数值较小,对角线两侧的值较大。

image-20230804110808109

以(1,1)点为例,GLCM(1,1)值为1说明只有一对灰度为1的像素水平相邻。GLCM(1,2)值为2,是因为有两对灰度为1和2的像素水平相邻

相邻一般取四个方位,水平、竖直、两个斜对角

LCU层目标比特分配

image-20230804190959020
优化的是估计拉格朗日乘子

算法流程图

算法实验测试结果

本章算法所有序列的总平均码率的相对误差值为 0.434%,码率控制精度优于自适应设置下的 0.435%。本章算法下测试序列的平均峰值信噪比相比于 VTM10.0 码率控制算法提升了 0.028dB。本章所提算法最终的平均BDBR 相比于 VTM10.0 的 BDBR 平均减少了 0.86%,

优化算法2:基于感兴趣区域的会议类视频码率控制算法

由于码率控制算法中目标比特分配的最小单元为 LCU,因此本章首先以 LCU为基本单元将会议场景视频的感兴趣区域划分为人脸区域和屏幕内容区域,通过采用联合特征的方式计算感兴趣区域的显著度值。然后使用 Sobel 梯度检测算子和均方误差比特检测算法分别检测纹理复杂度区域和编码代价区域,并对图像的复杂度区域因子和编码代价区域因子进行联合加权,构建出一种新的权重因子,并对每个 LCU 的目标比特进行合理调整和准确分配。最后,结合感兴趣区域的显著度值调整 LCU 的比特分配,达到优化感兴趣区域编码质量的目的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/837435.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网安周报|CISA对梭鱼ESG攻击中使用的潜艇后门发出警告

1、CISA对梭鱼ESG攻击中使用的潜艇后门发出警告 美国网络安全与基础设施安全局(CISA)发布了一条针对恶意软件变体的警报,该变体被追踪为SUBMARINE Backdoor,用于利用该漏洞进行攻击 CVE-223-2868在Barracuda电子邮件安全网关&…

斯坦福大学提出在类别层级对多零件多关节三维拼装新方法

来源:投稿 作者:橡皮 编辑:学姐 paper:https://arxiv.org/pdf/2303.06163.pdf 背景: 形状装配通过排列一组简单或基本的零件几何图形来组成复杂的形状几何图形。许多重要的任务和应用都依赖于形状装配算法。 计算机…

redis初级

Redis 课程内容 Redis入门Redis数据类型Redis常用命令在Java中操作RedisRedis持久化机制 1. Redis入门 1.1 Redis简介 Redis是一个基于内存的key-value结构数据库。Redis 是互联网技术领域使用最为广泛的存储中间件。 **官网:**https://redis.io **中文网&…

推荐前端开发者提升效率的工具

是否掌握新的技术很大程度决定着你是否被淘汰。 虽然应用程序试图将网站替代,但前端 Web 开发业务仍在快速变化和增长,前端开发人员的功能并没有消失。以下介绍一款前端开发者提升效率的工具。 目录 一、低代码工具前景 二、如何理解低代码工具 三、前端…

直播预告|还在说做不出、改不好地图贴图?一次直播包教包会!

在EasyV中,地图组件通常会作为可视化大屏中的「主视觉」部分,用户通过地图组件的使用,可以极大程度上提高搭建的效率以及视觉效果。正因如此,我们的素材广场中大多模板也将「地图」作为核心部分,以此来方便用户快速套用…

203. 移除链表元素

203. 移除链表元素 题目方法1递归方法2迭代 题目 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 方法1递归 class Solution { public:ListNode* removeElements(ListNode* head, in…

IO进程线程day7(2023.8.4)

一、Xmind整理: 二、课上练习: 练习1:创建两个线程:其中一个线程拷贝前半部分,另一个线程拷贝后半部分。 只允许开一份资源,且用互斥锁方式实现。 提示:找临界区--->找临界资源。 #includ…

关于compose AndroidView更新及生命周期的监听。

有时候需要在compose中使用原生view体系,那么将会用到AndroidView这个控件。 从源码中可以看出有三个参数,factory就是要添加的view控件,在update中对控件进行更新。 以添加地图为例: 对地图进行更新及对生命周期的监听&#xff1…

探索Android应用架构模式:选择适合你的开发之路

探索Android应用架构模式:选择适合你的开发之路 通过这篇文章,读者将能够更好地理解不同的Android应用架构模式,为他们的项目选择最适合的架构模式,并在开发过程中更高效地构建稳健的应用程序。 引言 在今天的移动应用开发领域…

MongoDB 6.0.8 安装配置

一、前言 MongoDB是一个基于分布式文件存储的数据库。由C语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 将数据存储为一个文档,数据结构由键值(key>value…

vue-cli3项目优化

首先添加两个量化的插件,方便对项目目前的情况进行分析: 1.添加speed-measure-webpack-plugin插件 —量化的指标可以看出前后对比 使用步骤: 安装speed-measure-webpack-plugin依赖 npm install speed-measure-webpack-plugin -D配置vue.c…

React安装ant design组件库,并使用

ant design是一个很棒的组件库,官方地址:快速上手 - Ant Design 但是如何在React里面用起来,好像并不是很顺畅,没有像Vue里面那么友好,因为我踩过这个坑,虽然安装很简单,但是想要出样式&#x…

【Spring】Spring中的设计模式

文章目录 责任链模式工厂模式适配器模式代理模式模版方法观察者模式构造器模式 责任链模式 Spring中的Aop的通知调用会使用责任链模式责任链模式介绍 角色:抽象处理者(Handler)具体处理者(ConcreteHandler1)客户类角…

ARM裸机-13(SDRAM和重定位relocate)

1、汇编写启动代码之关看门狗 1.1、什么是看门狗 看门狗(watch dog timer,看门狗定时器)。大家想象这样一个场景:家门口有一只狗,这个狗定时会饿(例如说2小时一饿),够饿了会胡乱咬死人。人进进出出要想保证安全必须提前喂狗(必须在上次喂过后…

【夜深人静学习数据结构与算法 | 第十二篇】动态规划——背包问题

目录 前言: 01背包问题: 二维数组思路: 一维数组思路: 总结: 前言: 在前面我们学习动态规划理论知识的时候,我就讲过要介绍一下背包问题,那么今天我们就来讲解一下背包问题。 在这…

linux下性能分析工具Perf安装与用法

目录 1、Perf介绍 2、火焰图分类 (1)CPU (2)Memory Flame Graphs (3)Off-CPU Flame Graphs (4)Hot/Cold Flame Graphs (5)Differential 3、火焰图安装命令 …

【项目 线程 1】 3.1线程概述 3.2创建线程 3.3终止线程 3.4连接已终止的线程

文章目录 3.1线程概述线程概述线程和进程区别线程和进程虚拟地址空间线程之间共享和非共享资源NPTL 3.2 创建线程线程操作创建线程出现报错及原因 3.3终止线程3.4连接已终止的线程 3.1线程概述 线程概述 并发:两队人用同一个咖啡机(本质上同一时刻只有…

算法竞赛入门【码蹄集新手村600题】(MT1100-1120)C语言

算法竞赛入门【码蹄集新手村600题】(MT1100-1120)C语言 目录MT1101 带参数的宏IIMT1102 长方体MT1103 球体积MT1104 三角形MT1105 英寸英尺英里MT1106 盎司磅MT1107 加仑/升MT1108 保留小数MT1109 和10相比MT1110 最小值MT1111 最大值MT1112 中庸之道MT1113 三人同行…

这可是全网最全的网络工程师零基础实战视频整理,最新版分享

互联网中每一项傍身的技能都是需要从如何入门开始的,网络技术也是如此! 网络技术区别其他互联网技能的一点是学习需要从设备开始,只有认识了解了路由器、交换机、防火墙这些网络设备,才开始从网络通信原理开始,这使得网…

数据安全与可追溯:PDM系统的信息保护锦囊

在当今数字化时代,数据安全与可追溯是企业管理中至关重要的环节。PDM系统(Product Data Management,产品数据管理)作为一款强大的数字化工具,为企业提供了全方位的信息保护锦囊。让我们一同深入探讨,看看PD…