【论文解读】CNN-Based Fast HEVC Quantization Parameter Mode Decision

news2024/9/30 5:27:20

时间:2019 年
级别:SCI
机构:南京信息工程大学

摘要

随着多媒体呈现技术、图像采集技术和互联网行业的发展,远程通信的方式已经从以前的书信、音频转变为现在的音频/视频。和 视频在工作、学习和娱乐中的比例不断提高,高清视频越来越受到人们的重视。由于网络环境和存储容量的限制,原始视频必须进行编码才能高效地传输和存储。高效视频编码(HEVC)需要大量的编码时间 递归遍历自适应量化过程中编码单元所有可能的量化参数值。通过比较率失真代价计算出最优量化参数。本文提出了一种基于卷积神经网络的HEVC量化参数快速选择方法,节省了视频编码时间。

介绍

随着多媒体成像技术、图像采集技术和互联网产业的发展,人们的远程通信方式已经从以前的书信方式转变为音视频结合的方式。视频在工作、学习和娱乐中的比重越来越高。此外,高清视频可以提供更清晰、更逼真的图像,对于会议格式、监控精度等各个行业的发展都起着至关重要的作用。然而,随着视频清晰度和分辨率的提高,视频内容需要更多的比特来存储。高效的压缩是超高清视频能否广泛应用于市场的关键。为应对不断变化的视频编码需求,国际联合视频团队发布了HEVC。

新一代标准在技术上进行了深度更新,如在编码结构中采用四叉树算法提高编码树单元的划分水平、使用更大的分辨率和非对称预测单元、多参考帧运动估计等。此外,HEVC将基于块的运动补偿用于帧间预测。HEVC可以计算连续帧之间在空域和时域上最佳匹配块的偏移距离。这是运动矢量MV。通过选择空域或时域上相邻的MV来预测当前MV,然后对MV的预测残差进行编码,从而节省了大量的MV编码比特数。在MV预测方面,HEVC提出了AMVP和Merge两种新技术。这两种新技术都建立一个候选MV列表,然后选择率失真代价最小的MV作为当前主用户的预测MV。两者的区别主要在于Merge模式主要传输候选PU块的索引,而不需要传输MV信息。AMVP模式需要传输当前编码PU的MV信息进行帧间预测。其次,候选链表长度不同;Merge模式的候选列表长度为5,而AMVP模式的候选列表长度仅为2。H.265/HEVC的视频压缩效率得到了很大提高在保证视频压缩质量与先进的视频编码标准H.264编码的高清视频质量无差异后得到显著改善。

HEVC中的变换和量化模块主要根据图像内容计算相关系数,从而减少图像内容的冗余,更高效地压缩视频数据。对于视频编码量化过程,编码单元需要花费大量时间进行最优自适应量化参数选择。该过程被建模为编码单元量化参数的分类,预训练网络模型直接预测不同类型的编码块。最优自适应量化参数。 最后,在视频压缩后的视频质量和码率与原始编码没有显著差异的情况下,实现了视频编码复杂度的优化。

旨在解决视频编码过程中最优量化参数决策计算复杂度高的问题。研究了一种基于卷积神经网络的快速量化参数决策方法。首先,明确了原始高效视频编码标准码的基本量化参数;根据编码提供的方法,通过递归计算视频每帧中包含的所有CUs的率失真代价,得到最优的量化参数偏移。将CU图像与对应偏移量一一对应作为卷积神经网络的训练集,参与卷积神经网络的分类训练。将原有的最优量化参数计算过程替换为训练好的模型和相关代码。实验结果表明,与HEVC中选择最优量化参数的方法相比,所提方法的编码时间平均减少34%,而码率和PSNR的损失基本可以忽略不计。

本文的剩余内容组织如下。第二部分介绍了相关工作。建议工作的详细内容见第3节。第4节给出了实验结果。最后,第五部分对本文进行了总结。

相关工作

目前,视频编码引起了学术界、研究机构和大公司越来越多的关注。在视频编码复杂度优化过程中,根据优化模块的不同,可分为HEVC帧内模块复杂度优化和HEVC模块间复杂度优化两部分,用于消除视频中单帧或多帧之间的冗余信息。有两个重要的方向需要人们去优化,一个是优化不同预测单元的大小,另一个是减少帧内预测方向。根据相邻编码的时空信息, Tang, Jing, Chen等缩小了CU的遍历范围,并通过判断当前最佳预测模式是否为平面模式来优化其他CU的预测模式选择。Tian等提出了一种高效的帧内PU选择算法,根据该算法计算编码树单元及其子编码单元的内容信息。然后他们决定是否直接进行下一轮的PU模式选择过程。Belghith等使用Sobel算子检测CU的边缘并分析CU的纹理含量。如果CU的内容比较简单,编码直接在当前深度执行。否则,如果当前CU的内容是复杂的,则继续划分。Yao等利用纹理的像素排列信息为不同的PUs选择不同的编码模式。Min等通过分析视频帧的纹理特征来分割不同大小的CUs。Qi等利用Soble算子根据图像像素值和空间相关性计算纹理方向信息,选择帧内模式进行预测。Shen等提出了一种基于纹理信息与视频图像时空关系的快速帧内选择算法,通过计算平均绝对误差获得纹理信息。帧间预测的优化在于更好地选择CU和PU。在Kim 中,将运动矢量、跳跃模式下PU的关系以及对应的残差一起作为一个模型。这样可以降低PU决策过程的复杂度。Shen等利用空时域信息确定编码树单元的CU深度范围。他们通过跳过或提前终止不常用的CU深度来动态调整CTU水平。 Kim等通过计算skip模式编码CU的率失真代价,建立了预测当前CU的模型。Feng等利用CU在当前深度的运动信息来判断相邻帧中相同区域的CU划分。该方法通过计算不同CU的深度来减少预测模式的决策方案数量。

目前,视频编码优化的方法可以分为两类:基于统计的方法和基于机器学习的方法。基于统计的方法是根据统计信息提前终止或跳过不必要的模式。 Lee等提出利用失真特征确定合并模式,使用跳过模式跳过不必要的模式。Zupancic等提出了一种自适应的方法,根据更高CU深度的编码信息自底向上反向检测CU。Jung和Park采用了一种利用码率和码率数据自适应加速HEVC编码过程的方法。Jung等人使用了一种基于非零离散余弦变换系数的快速TU决策算法,通过裁剪四叉树来降低复杂度。李,金,林等(提出了一种快速CU判决算法,该算法参考了跳跃模式判决、CU跳跃估计和CU提前终止算法,并利用贝叶斯决策理论确定CU终止阈值。Xiong等提出了一种基于绝对差值估计的快速决策算法。Ahn等提出了一种快速高效的CU编码方法,利用样本自适应偏移量、MV和TU大小等纹理参数来估计纹理复杂度和时间复杂度。上述所有方法都是基于统计分析,过早终止或跨越不相关的CUs/PUs/Tus检查。这可能会限制它对其他序列的适用性。

从机器学习的角度来看,视频编码过程的模式选择可以看作是一个分类问题。例如,HEVC中的CU划分可以被认为是一个二分类任务。现有的机器学习算法用于预测HEVC中CU、PU或TU的大小。Shen等使用贝叶斯决策理论将残差系数的方差映射到TU大小。Kim等提出了一种基于贝叶斯决策理论的CU过早终止算法。在Correa等的研究中,Correa等使用决策树来预测CU的大小。Zhang等设计了一个三输出联合分类器和一个灵活的CU深度决策结构。Alencar等提出了一种基于Pegasos算法的快速CU决策方法,通过在线学习终止CU划分过程。Zhu等设计了一种基于机器学习的决策函数来控制预测精度。Peixoto等构建了一种新的H.264 /AVC到HEVC的转换架构。他们利用H.264/AVC编码参数来确定HEVC编码标准的CU划分模式。利用线性判别函数将H.264/AVC编码参数映射到HEVC编码标准的CU划分上。这些方法通过机器学习预测CU, PU和TU算法。然而,这些算法仅使用弱分类器来实现模式选择。过多的错误分类可能导致较差的RD性能和没有降低复杂度。

上述复杂度优化算法大多集中于HEVC帧内/帧间预测模块中CUs/ PUs的复杂度优化技术。研究人员经常依靠主观推理来解决复杂的计算机视觉问题。这种行为往往会忽略隐含但有用的特征。对于量化模块,上述方法在量化过程中仍然采用递归搜索的方法来选择最优的量化参数。计算最优量化参数的过程占据了整个编码周期的很大一部分。由于视频编码效率受到影响,需要对最优量化参数选择过程进行优化。

提出的方法

在本节中,我们将介绍一种基于卷积神经网络的H.265/HEVC量化参数的快速决策方法。
QP选择的问题表述
HEVC标准参考软件- HM在定量过程中采用两种方式计算定量参数。一是采用传统的计算方法。首先指定一个基于基本QP的量化参数,然后根据该参数计算偏移量不同CUs的复杂性。最后,将基本QP和量化参数偏移量相加得到量化参数。该方法计算速度快,但编码后的视频主观质量较差,给出了编码所对应的量化参数单位不是最好的。二是采用自适应方法计算最优量化参数。修改HM编码配置文件,指定偏移量参数的取值范围为-7~7。每个CU从64×64到8×8 递归遍历所有可能的量化参数,计算率失真代价。通过比较不同率失真代价的15个量化参数,计算出最优量化参数。不仅对视频的质量进行编码使用 该方法的性能优于前者,但比特率有所降低。然而,该方法在计算QPs时需要大量的时间。
我们的方法
提出将HM中最优量化参数的递归遍历方法简化为卷积神经网络在图像分类问题中的应用。训练模型直接推导量化参数值。得到最终的量化参数,替换HM原有的量化参数计算模块,如图1所示。由于HEVC编码视频的大部分时间都集中在量化参数的计算上,因此最终在理想状态下的编码时间可以节省约14/15。
在这里插入图片描述
我们的网络结构
考虑到如果使用复杂的网络结构,可能会给量化模块带来新的复杂度问题。训练模型使用简单的卷积神经网络,如图2所示。卷积层1使用64个卷积核(3×3×3),步幅设置为1,填充设置为相同,激活函数使用ReLU。池化层1选择最大池化,3×3滤波器,步幅设置为2,池化后进行局部响应归一化。卷积层2使用16个卷积核(3×3×64),填充也设置为相同,激活函数使用ReLU。池化层2也选择最大池化,使用3×3过滤器,步幅设置为1,池化完成后执行局部响应归一化操作。全连接层1通过操作将池化层输出的数据转换为一维列表,设置节点数为128,激活函数使用ReLU。全连接的第2层也是128个节点,激活函数使用ReLU。softmax回归层完全输出前一个连接层并执行线性回归,然后计算每个类的得分。Loss使用交叉熵损失,学习率设置为0.0001。
在这里插入图片描述
其中N表示CU的大小(64×64, 32×32, 16×16, 8×8),不同大小的CU分别训练和预测。
实验结果和分析
本文使用国际视频编码组提供的15个视频测试序列,收集如表1所示的训练数据,并使用帧内编码结构对HM参考软件的性能进行测试。
在这里插入图片描述
为了增加结果的可信度和网络模型的可行性,将基本QP分别设置为22、27、32、37。对每个视频序列的前200帧进行HM编码。记录视频帧的索引、每帧中各编码单元的位置以及编码过程中对应的量化参数。由于相邻帧之间的内容差异不大,因此每10帧提取用于训练的帧。然后,根据编码单元在整个原始视频帧中的位置对原始图像中包含的用于训练的编码单元进行裁剪;最后,总共训练了16种基于不同基本QPs、不同CU大小、不同QP偏移量的不同卷积神经网络模型,分别对应四种基本量化参数下的四种不同编码单元大小。

为了保证实验结果的真实性和可信性,我们将HM16.0原始的最优量化参数模块替换为我们提出的方法结果。编码时间、码率、峰值信噪比(PSNR)均基于原始HM参考软件。

视频编码需要在编码质量、码率和编码时间之间进行权衡。这些参数是评价视频编码方法优劣的基础。在编码过程中,利用训练好的模型预测与最优QPs相比的量化参数。判断该方法计算出的不同编码单元对应的量化参数是否与HM16.0量化相同参数。训练得到的最优QPs的平均准确率为81.2%。

为了验证所提方法对HEVC编码性能的影响,采用编码时间、BDBR和BDPSNR作为性能评价指标。综合考虑预测时间、硬盘读写速度等环境因素测量的编码时间如表2所示。

从表2可以看出,与原始方法相比,Johnny视频序列在整个测试结果中表现最好。当基本QP设置为37时,总体时间节省约34.56%。实验结果受硬件环境的限制,时间仅证明了该方法在此应用中的可行性。结合实验环境,平均编码时间可以节省约34.29%,大大提高了编码效率。
在这里插入图片描述
为了验证所提方法与原方法在码率和编码视频质量方面的差异,采用BDBR和BDPSNR作为测量指标。结果如表3所示。
在这里插入图片描述
从表中可以看出,BDBR和BDPSNR的损失与视频分辨率的关系不大。平均BDBR提升0.98%,即码率提升0.98%。BDPSNR平均降低了0.05 dB,即编码后的视频质量降低了0.05 dB。

为了更直观地观察码率和视频质量之间的差异,给出了码率失真曲线。如图3所示,蓝色线表示HM16.0最优自适应量化参数对编码效果的影响。红线表示所提方法对编码效果的影响。可以清楚地看到,与原始方法相比,本文方法编码的码率和视频质量损失可以忽略不计。
在这里插入图片描述

结论

为了解决超高清视频无法在日常生活中广泛应用的问题,国际联合编码小组JCT-VC头脑风暴,推出了HEVC。虽然编码效率等方面的性能都超过了上一代编码标准H.264。HEVC选择最优的自适应量化参数仍然需要花费大量时间。
为了优化HEVC在量化参数选择算法中的复杂度,提升HEVC的编码性能,利用卷积神经网络将复杂的量化参数计算问题简化为卷积神经网络图像分类问题。
实验结果表明,与自适应最优量化参数选择方法相比,提出的量化参数快速判定方法在HEVC参考代码中可以节省约34%的平均视频编码时间,其他损失基本被忽略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1333359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kubectl 部署有状态应用(下)

接上文 《Kubectl 部署有状态应用(上)》创建完StatefulSet后,本文继续介绍StatefulSet 扩展、更新、删除等内容。 StatefulSet 中的 Pod 验证序数索引和稳定的网络身份 StatefulSet 中的 Pod 具有唯一的序数索引和稳定的网络身份。 查看 …

【单调栈】LeetCode:1944队列中可以看到的人数

作者推荐 【贪心算法】【中位贪心】.执行操作使频率分数最大 本文涉及的基础知识点 单调栈分类、封装和总结 题目 有 n 个人排成一个队列,从左到右 编号为 0 到 n - 1 。给你以一个整数数组 heights ,每个整数 互不相同,heights[i] 表示…

【软考中级】网络工程师:8.网络安全

本章考察内容比较广泛,考题对知识点都会有所涉及。 8.1 网络安全的基本概念 8.1.1 网络安全威胁的类型 窃听 这种情况发生在广播式网络系统中,每个节点都可以读取数据,实现搭线窃听、安装通信监视器和读取网上的信息等。 假冒 当一个实体…

python使用opencv提取视频中的每一帧、最后一帧,并存储成图片

提取视频每一帧存储图片 最近在搞视频检测问题,在用到将视频分帧保存为图片时,图片可以保存,但是会出现(-215:Assertion failed) !_img.empty() in function cv::imwrite问题而不能正常运行,在检查代码、检查路径等措施均无果后&…

FreeRTOS 任务间的通信

消息队列: 队列又称消息队列,是一种常用于任务间通信的数据结构,队列可以在任务与任务间、中断和任务间传递信息,实现了任务接收来自其他任务或中断的不固定长度的消息。 信号量:semphr,基于消息队列实现 二…

Linux:jumpserver V3的安装与升级(在线离线)(2)

官方文档写的非常详细,我这篇文章时间长了,会随着官方版本更新而落后 JumpServer - 开源堡垒机 - 官网https://www.jumpserver.org/安装和升级在官网也有详细的信息,我写本章是为了记录一下实验 我的系统是centos7.9 在线安装 在确定我们可…

CPP虚析构函数

#include<iostream> using namespace std;class base {public:base(){};virtual ~base(){}; };// 在类声明中声明纯虚析构函数 //base::~base() {}class father: public base {public:~father(){cout << "father" << endl;} };int main() {base* a…

Java开发框架和中间件面试题(4)

27.如何自定义Spring Boot Starter&#xff1f; 1.实现功能 2.添加Properties 3.添加AutoConfiguration 4.添加spring.factory 在META INF下创建spring.factory文件 6.install 28.为什么需要spring boot maven plugin? spring boot maven plugin 提供了一些像jar一样打包…

方舟开发框架(ArkUI)概述

目录 1、基本概念 2、两种开发范式 3、开发框架的特性 4、UI开发&#xff08;ArkTS声明式开发范式&#xff09;概述 4.1、特点 4.2、整体架构 4.3、开发流程 方舟开发框架&#xff08;简称ArkUI&#xff09;为HarmonyOS应用的UI开发提供了完整的基础设施&#xff0c;包…

注解的理解、使用、原理,Java小白入门(三)

背景 随便点开一些Java代码&#xff0c;发现在代码的注释下&#xff0c;有这样的符号 Component , Autowired ,Override , 等等&#xff0c;这些符号从字面看也能估计出一点来含义&#xff0c;比如 Override 方法是否为重写方法&#xff0c;但是这个符号具体的语境是什么呢&am…

C++ 之LeetCode刷题记录(二)

&#x1f604;&#x1f60a;&#x1f606;&#x1f603;&#x1f604;&#x1f60a;&#x1f606;&#x1f603; 从今天开始cpp刷题之旅&#xff0c;多学多练&#xff0c;尽力而为。 先易后难&#xff0c;先刷简单的。 9、回文数 给你一个整数 x &#xff0c;如果 x 是一个…

nacos配置中心配置已经常见错误总结

&#x1f4bb;目录 前言1、基础架构2、依赖3、配置文件3.1、bolg-product配置文件3.1.1、application.yml配置文件3.1.2、bootstrap.yml配置文件3.1.3、nacos远程配置 3.2、bolg-system3.1.1、application.yml配置文件3.1.2、bootstrap.yml配置文件3.2.3、nacos远程配置 4、测试…

饥荒Mod 开发(二二):显示物品信息

饥荒Mod 开发(二一)&#xff1a;超大便携背包&#xff0c;超大物品栏&#xff0c;永久保鲜 饥荒中的物品没有详细信息&#xff0c;基本上只有一个名字&#xff0c;所以很多物品的功能都不知道&#xff0c;比如浆果吃了也不知道恢复什么&#xff0c; 采集的胡萝卜也不知道什么功…

DataProcess-VOC数据图像和标签一起进行Resize

VOC数据图像和标签一起进行Resize 参加检测比赛的时候&#xff0c;很多时候工业原始数据尺度都比较大&#xff0c;如果对数据不提前进行处理&#xff0c;会导致数据在加载进内存时花费大量的时间&#xff0c;所以在执行训练程序之前需要将图像提前进行预处理。对于目标检测的数…

Log4net 教程

一、Log4net 教程 在CodeProject上找到一篇关于Log4net的教程&#xff1a;log4net Tutorial&#xff0c;这篇博客的作者是&#xff1a;Tim Corey &#xff0c;对应源代码地址为&#xff1a; https://github.com/TimCorey/Log4netTutorial&#xff0c;视频地址为&#xff1a;Ap…

案例144:基于微信小程序的自修室预约系统

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

C/C++图形化编程(2)

归纳编程学习的感悟&#xff0c; 记录奋斗路上的点滴&#xff0c; 希望能帮到一样刻苦的你&#xff01; 如有不足欢迎指正&#xff01; 共同学习交流&#xff01; &#x1f30e;欢迎各位→点赞 &#x1f44d; 收藏⭐ 留言​&#x1f4dd; 站在巨人的肩上是为了超过巨人&#x…

esp32使用lvgl,给图片取模显示图片

使用LVGL官方工具。 https://lvgl.io/tools/imageconverter 上传图片&#xff0c;如果想要透明效果&#xff0c;那么选择 输出格式C array&#xff0c;点击Convert进行转换。 下载.c文件放置到工程下使用即可。

Py之tensorflow-addons:tensorflow-addons的简介、安装、使用方法之详细攻略

Py之tensorflow-addons&#xff1a;tensorflow-addons的简介、安装、使用方法之详细攻略 目录 tensorflow-addons的简介 tensorflow-addons的安装 tensorflow-addons的使用方法 1、使用 TensorFlow Addons 中的功能&#xff1a; tensorflow-addons的简介 TensorFlow Addon…

本地搜索文件太慢怎么办?用Everything搜索秒出结果(附安装包)

每次用电脑本地的搜索都慢的一批&#xff0c;后来发现了一个搜索利器 基本上搜索任何文件都不用等待。 并且页面非常简洁&#xff0c;也没有任何广告&#xff0c;用起来非常舒服。 软件官网如下&#xff1a; voidtools 官网提供三个版本&#xff0c;用起来差别不大。 网盘链…