视频清晰度优化指南

news2024/9/22 7:35:33

一、背景介绍

随着移动互联网的深入发展,视频消费场景逐渐变成主流,早期由于手机硬件的限制问题,导致生产出来的视频画质、清晰度存在较大的问题,用户体验不太好,当时的网络也处于4G的发展阶段,网络的限制也无法持续支持高清视频的消费,但是现在5G发展地如火如荼,网络的高速发展,手机硬件性能的提升,用户越来越不满足于低画质和低清晰度的视频。提升视频的画质和清晰度势在必行,需要一套行之有效提升视频清晰度的优化方案。

二、评价标准

做一件事情之前,首先需要确定一下评价这件事情的标准。所以在提出视频清晰度优化方案之前,必须先确定一下衡量视频清晰度的评价准则。评价视频清晰度有两种准则:

2.1 客观标准

客观标准就是利用算法计算视频画面质量分,同等条件下,如果A视频的质量分得到高于B视频,说明A视频的保真质量做得比B视频更好。评估视频质量的算法有两大类:

  • 完全参考: 两个视频逐帧对比分析,计算对比的质量,这种使用的比较多,常见的VMAF、PSNR、SSIM都是完全参考。
  • 部分参考: 截图视频中的部分帧来对比分析。有些场景例如直播没法完全对比,截取部分帧来对比是比较科学的。

目前Netflix推出的VMAF算法是评价视频质量的主流算法,下面我们简单介绍一下:

  • VMAF 全称 Video Multi-method Assessment Fusion ,它借助人类视觉模型以及机器学习来评估一个视频的质量。
     
  • VMAF的评价指标主要包含:其中VIF和DLM是空间域的,表示一帧画面之内的特征;TI是时间域的,表示多帧画面之间的相关性特征。
    • 视频信息保真度(VIF:Visual Quality Fidelity)
    • 细节损失指标(DLM:Detail Loss Measure)
    • 时域运动指标/平均相关位置像素差(TI:Temporal Information)
  • VMAF基于SVM的nuSvr算法,在运行的过程中,根据事先训练好的model,赋予每种视频特征以不同的权重,对每一种画面都生成一个评分,最终以均值算法进行归总,算出该视频的最终评分。
     
  • VMAF计算出的分数范围是0 ~ 100,其中0表示最低质量,100表示最高质量,后续对比的时候只给出分数。

2.2 主观标准

客观标准固然重要,但是视频是给人看的,最终视频的质量好不好,还需要用户主观感受。换言之,两个视频的VMAF可能相近,但是用户观感可能会不一样,有些用户喜欢柔色,有些用户喜欢暖色。

主观标准操作起来比较简单,找几个视频,让用户观看之后主观给出评价,视频A和视频B的质量对比如何,这种输出的结果比较准确,但是工作量比较大,不好大范围推广。所以根据项目要求,在特定的时候采用客观评价标准,在某些场景采用主观评价标准。

例如下面两张图片,它们的VMAF值是相近的,但是第二张看上去明显比第一张画质好多了,而且更加明亮,这并没有改变图片的编码结构,只是对画面本身进行一些调色处理(这个我们下面会单独拎出来讲),就能明显提升主观感受。所以评价视频质量需要综合主观标准和客观标准综合来判断。而且我们建议在有条件的情况下,主观标准更加重要,因为客观标准只是模拟人眼的视觉系统,和真实的场景还是有所差距。

 

 

三、基础优化

通过上面的描述我们基本了解了视频质量的评价标准,但如果要提升视频质量,这些还不够,我们还需要介绍一下视频的基本属性,以及这些属性可以在多大程度上影响视频的质量。

我们首先使用MediaInfo来查看一下视频的属性,由于重点关注画质,所以就自动忽略封装格式和音频流信息,只关注视频轨道信息

Video
ID                                       : 1
Format                                   : AVC
Format/Info                              : Advanced Video Codec
Format profile                           : High@L3.1
Format settings                          : CABAC / 4 Ref Frames
Format settings, CABAC                   : Yes
Format settings, Reference frames        : 4 frames
Codec ID                                 : avc1
Codec ID/Info                            : Advanced Video Coding
Duration                                 : 2 min 41 s
Bit rate                                 : 634 kb/s
Bit rate mode                            : CBR
Width                                    : 960 pixels
Height                                   : 540 pixels
Display aspect ratio                     : 16:9
Frame rate mode                          : Constant
Frame rate                               : 25.000 FPS
Color space                              : YUV
Chroma subsampling                       : 4:2:0
Bit depth                                : 8 bits
Scan type                                : Progressive
Bits/(Pixel*Frame)                       : 0.049
Stream size                              : 12.2 MiB (94%)
Writing library                          : x264 core 148
Encoding settings                        : cabac=1 / ref=3 / deblock=1:0:0 / analyse=0x3:0x113 / me=hex / subme=7 / psy=1 / psy_rd=1.00:0.00 / mixed_ref=1 / me_range=16 / chroma_me=1 / trellis=1 / 8x8dct=1 / cqm=0 / deadzone=21,11 / fast_pskip=1 / chroma_qp_offset=-2 / threads=17 / lookahead_threads=2 / sliced_threads=0 / nr=0 / decimate=1 / interlaced=0 / bluray_compat=0 / constrained_intra=0 / bframes=3 / b_pyramid=2 / b_adapt=1 / b_bias=0 / direct=1 / weightb=1 / open_gop=0 / weightp=2 / keyint=75 / keyint_min=7 / scenecut=40 / intra_refresh=0 / rc_lookahead=40 / rc=crf / mbtree=1 / crf=26.0 / qcomp=0.60 / qpmin=0 / qpmax=69 / qpstep=4 / vbv_maxrate=800 / vbv_bufsize=1600 / crf_max=0.0 / nal_hrd=none / filler=0 / ip_ratio=1.40 / aq=1:1.00
Codec configuration box                  : av

其中有几个非常重要的属性需要特别关注一下:下面我们列出的各个属性都是基于其他条件不变的情况下,只改变当前属性。例如谈Profile,就要保证其他的属性是相同的,只有Profile不同,这样比较视频的画质才有意义。

3.1 Profile

Profile对应上面的是Encoder Profile Level,正常情况下,Profile Level有三种类型:

  • Baseline Profile
  • Main Profile
  • High Profile

其中Baseline Profile对应清晰度最低,Android 3.0之后的版本都支持的,Main Profile清晰度比Baseline Profile清晰度要好,但是从Android 7.0之后才支持,High Profile清晰度最高,也是从Android 7.0之后才支持。我们在设置Encoder Profile Level之前,需要判断一下当前是否支持。

3.2 Bitrate码率

视频码率是视频数据传输时单位时间内传送的数据位数。单位是kbps,望文生义,码率越大,单位时间填充的数据就越多,视频质量就越高。

码率并不是越大越好,码率设置超过一定的大小,对视频画质的提升已不太明显,肉眼已经看不出区别,但是视频大小会增加很多。所以设置合适的码率就行。通常建议的码率计算方式是:

Bitrate = width * height * frameRate * factor
factor = 0.15

按照上面的公式设置的码率是比较合适的,当然如果想要更加高清的,可以适当增加factor大小。

3.3 Bitrate Mode

码率虽然设置了,但是码率是描述一段时间的平均传输的数据位数,无法保证每一个时间段内传送的数据大小是固定的或者在一个固定的范围内。还有一个Bitrate Mode参数来表示码率模式。它也有三种类型:

  • VBR: 可变码率(Variable Bitrate), 此编码方式会根据帧间数据的变化量大小来动态调整码率,如果帧间的运动变化比较大,调高码率,如果帧间的运动变化比较小,调小码率。从编码方式就可以看出来,这样的编码方式有两个缺点:(1)运动预测计算算法有一定的耗时,编码时间较长;(2)码率多变,最终生成的文件大小不可预测。可能很大也可能很小。
     
  • CBR: 固定码率或者常数码率(Constant Bitrate), 这是默认的编码方式,使用此编码方式,文件从始至终的编码码率会固定不变或者基本不变。这种方式的好处是文件大小是确定的,不会出现文件大小不可预测的情况。但是缺点也很明显,有时候帧间变化比较大,有时候帧间变化比较小,如果都使用同样的码率,帧间变化比较大的时间画质会比较一般,帧间变化比较小的时间显得浪费。无法做到较好的平衡。
     
  • ABR: 平均码率(Average Bitrate), 平均码率较好地兼顾了VBR和CBR的,在帧间变化比较大的时间使用较大的码率,在帧间变化比较小的时间采用较小的码率,最终保证整体采用的码率固定就可以了。较好的处理了画质和文件大小之间的矛盾。

但是很可惜的是MediaCodec并不支持ABR,我们如果想采用ABR模式的话还需要使用软编码。MediaCodec也提供了三种模式:

  • BITRATE_MODE_CQ: 这种模式是全面考虑视频质量,尽可能保证视频质量,所以编码出来的视频都很大,并不可取。
     
  • BITRATE_MODE_VBR: 同上面的VBR
     
  • BITRATE_MODE_CBR: 同上面的CBR

众所周知,硬编码速度要远远快于软编码,所以编码都是优先采用硬编码,硬编码失败再采用软编码兼容。所以硬编码MediaCodec建议采用BITRATE_MODE_CBR模式,切换到软编码采用VBR模式。

3.4 B帧设置

视频由I帧、P帧、B帧 三种类型的视频帧组成的。

I帧是帧内图像帧,就是关键帧,意思是此帧不需要依赖其他的帧就可以进行编码或者解码。

P帧是前向预测图像帧,此帧需要参考在它之前的I帧或者P帧,采用运动预测的方式进行帧间编码或者解码。P帧大小相当于I帧大小的1/10 ~ 1/20。

B帧是双向预测图像帧,此帧需要参考在它之前的I帧或者P帧,也需要参考在它之后的I帧或者P帧,采用运动预测的方式进行帧间预测编码或者解码。

GOP表示两个I帧之间的图像帧序列,GOP=2s,表示两个I帧之间的间隔是2s。

Android平台只有高通部分芯片支持B帧编码,并且Android系统也没有开发设置B帧的接口,所以对使用Android MediaCodec编码的开发者而言,无法开启B帧编码(iOS是可以的,暗自垂泪)。当然软编码是可以设置B帧的。

设置B帧有什么好处?

B帧大小约是I帧大小的1/50,如果设置了B帧了,并不会降低清晰度,但是可以大大降低视频的大小,这样我们就可以相应地调大码率,最终实现了提升清晰度的目标。

当然设置了B帧之后,增加了编码和解码的复杂度,这点开发者在设置的时候必须要有充分的认识。

四、HEVC编码

目前H.264编码还是使用最广泛的编码方式,主要还是H.264编码的兼容性比较好,而且免费开源。HEVC自从2013年第一版发布开源出来,还没有完全替代H.264(主要原因是收费,而且部分机型可能不支持),不过HEVC凭借其独特的优势也得到了较多地应用。

HEVC相对H.264的优势:

  • HEVC标准视频的帧内预测模式支持33种方向,并且提供了更好的运动补偿处理和矢量预测方法。而H.264只支持8种。
     
  • HEVC采用了块的四叉树划分结构,采用了8x8 ~ 64 x 64 像素的自适应块划分,而H.264每个宏块的大小都是固定的16 x 16像素,HEVC的这样设计可以保证在不同的帧间和帧内复杂程度中可以动态调整宏块的大小,经过测试发现,在相同的图像质量下,HEVC编码的视频比H.264编码的视频约减少40%,换言之,如果HEVC和H.264码率相同,那么HEVC编码的视频比H.264编码的视频要清晰地多。

 

上图可以看出同样的视频帧,HEVC使用的宏块比H.264要少很多,体现了HEVC的优势。

 

我们在使用MediaCodec HEVC硬编码时,需要判断一下当前是否支持HEVC编码,Android 5.0已经支持了HEVC,不过一些低端芯片可能还是没有支持HEVC,我们在编码之前需要判断一下是否支持。

使用HEVC编码,可以保证在不增加文件大小的情况下,大大提升视频的清晰度。

上图是H.264编码,下图是HEVC编码。

 

五、色彩调优

上面的几种优化方式都是在编码层面调整参数或者直接改变编码方式来提升视频的画质,但有一种方式通过调整视频画面的色值——综合调整亮度、对比度、色温、饱和度、锐度等颜色参数,进而优化整体的视频画面,让视频画面看上去“更清晰”。

 

我们经常用到的颜色空间有RGB颜色空间、HSV颜色空间、YUV颜色空间还有CIELab颜色空间,其中RGB颜色空间使用的比较广泛。如上图,图像分为三个通道量:R分量、G分量、B分量,每个分量的值是0 ~ 255,三个分量共同组成一个颜色的RGB值。RGB分量的值分布构成了颜色色值的直方图,我们通过调节RGB值来调节图像的颜色。

 

有几种对颜色色值的调节方式,对我们理解颜色调节有很大的帮助:

  • 亮度: 亮度表示人眼对发光体或被照射物体表面的发光或反射光强度实际感受的物理量,简而言之,RGB分量越大,图像就越亮;反之,图像越暗。
     
  • 对比度: 图像对比度是指图像中从黑色到白色渐变的层次反差或比值。反差越大,比值越大,从视觉上感知,图像就越清晰醒目,对比度越大;反差越小,比值越小,从视觉上感知,图像越不清晰醒目,蒙尘感越强,对比度越小。
     
  • 色温: 色温和温度还真有一定的关系,表示绝对黑体从绝对零度开始加热之后呈现的颜色。从我们生活中来看,暖色调看上去比较温馨,冷色调感受上有点清凉。
     
  • 饱和度: 饱和度是指色彩的鲜艳程度或者纯度。饱和度越高,图像色彩越鲜艳,色彩纯度越高;反之则越低,直至灰度图。
     
  • 锐度: 锐度主要用来表示图像边缘的对比度,由于人类感官,高锐度的图像看起来更加清晰,图像上的细节对比非常明显。

我们可以将上面五种调节方式综合起来调节图片色彩。

  • 亮度增加10个点(-100 ~ 100)
     
  • 色温增加5个点(-100 ~ 100)
     
  • 饱和度增加20个点(0 ~ 100)
     
  • 锐度增加15个点(0 ~ 100)

第一张是原图,第二张是经过颜色调节之后输出的图片。

  

六、超分算法

上面提到的优化方式无论从编码层面,还是从颜色调节层面,都算是基本的优化方式,近年来,随着机器学习的火热,超分算法越来越广泛地应用到图像和视频处理上来。超分辨率就是指通过机器学习地方式重建图像,达成提升图像分辨率的效果。

目前比较成熟的超分技术是Real-ESRGAN,基于BasicSR,采用ESRGAN算法,利用机器学习的优势对图片和视频进行去模糊、Resize、降噪、锐化等处理,重建图片,实现对图片的超分辨率处理。

E-SR-GAN算法的三个步骤:

  • 特征提取:计算噪点
     
  • 非线性映射:放大,模糊化噪点
     
  • 图像重建:差分,平滑过度,去噪

相对之前的SRCNN等超分算法,改进了如下几点:

  • 改进感知损失,提高输出图像的边缘清晰度和纹理真实性。
     
  • 利用对抗网络的优势不断反馈改进GAN判别器,预测高分辨率图像和原始图像之前的相对真实性而不是绝对真实性。可以恢复原始图像的真实的纹理细节。
     
  • 优化了模型的稳定性,每次生成的图片都和原图片残差对比,进行矫正训练,最终得到的结果非常稳定。

 

下面是超分前后的对比结果:大家可以点击大图对比一下细节,可以看出超分之后的图片精细化很多,去掉模糊的地方、降低图片的噪点。

 

 

 

七、总结

本文结合当下视频的痛点(清晰度问题),提出衡量视频清晰度的标准——主观标准和客观标准,指明了视频清晰度的优化目标和方向,根据视频的基本特征(码率、GOP、编码模式等)提出基础优化的方法,在基础优化的基础上提出高级编码方式(相对H.264编码方式),再结合目前主流的视频色彩滤镜提出视频色彩调优方案,让视频看上去更清晰。最终的大杀器——超分算法采用E-SR-GAN方式进行放大、降噪、重建帧来提升视频清晰度。希望上面这些方法可以给大家带来一些帮助,对提升视频清晰度有更进一步的思考。

 

参考文章:

  • VMAF开源项目 https://github.com/Netflix/vmaf

  • 揭秘 VMAF 视频质量评测标准https://xie.infoq.cn/article/26aaf2ab83f56192a65ba22ea

  • Netflix VMAF 视频质量评估工具概述 https://zhuanlan.zhihu.com/p/94223056

  • B帧对视频清晰度/码率的影响https://blog.csdn.net/matrix_laboratory/article/details/82726897

  • H264 vs H265 https://www.cnblogs.com/wujianming-110117/p/12640533.html

  • 超分开源项目https://github.com/xinntao/Real-ESRGAN

* /Jeff Mony

关注得物技术,每周一三五晚18:30更新技术干货

要是觉得文章对你有帮助的话,欢迎评论转发点赞~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/12841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Hack The Box】windows练习-- support

HTB 学习笔记 【Hack The Box】windows练习-- support 🔥系列专栏:Hack The Box 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 📆首发时间:🌴2022年11月17日🌴 &#x…

策略验证_买入口诀_双管齐下买进不怕

写在前面: 1. 本文中提到的“股票策略校验工具”的具体使用操作请查看该博文; 2. 文中知识内容来自书籍《同花顺炒股软件从入门到精通》 3. 本系列文章是用来学习技法,文中所得内容都仅仅只是作为演示功能使用 目录 解说 策略代码 结果 解…

【正点原子FPGA连载】 第一章 MPSoC简介 摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0

1)实验平台:正点原子MPSoC开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id692450874670 3)全套实验源码手册视频下载地址: http://www.openedv.com/thread-340252-1-1.html 第一章 MPSoC简介…

【Loadrunner】学习loadrunner——Controller与Analysis的使用(三)

文章目录1.controller的使用1.1.创建场景的方式1.2.页面的介绍1.3.场景的设置1.2.1.设置初始化1.2.2.设置启动机制1.2.3.设置性能测试脚本的执行时间1.2.4.设置虚拟用户推出机制1.3.场景的运行1.4.场景的运行方式1.4.1.按照场景的方式运行1.4.2.按照group运行2.analysis的使用2…

[数据结构] 图---图的邻接矩阵存储方式模拟实现,包括BFS广度优先遍历和DFS深度优先遍历(上)

图的邻接矩阵存储1)邻接矩阵表示法相关概念实现基础框架Graph_matrix构造函数实现基础操作获取某一顶点的下标添加边打印邻接矩阵2)BFS广度优先遍历3)DFS深度优先遍历4)最小生成树之克鲁斯卡尔算法5)最小生成树之普里姆…

毕业设计opencv 图像识别 指纹识别 - python

文章目录0 前言1 课题背景2 效果展示3 具体实现3.1 图像对比过滤3.2 图像二值化3.3 图像侵蚀细化3.4 图像增强3.5 特征点检测4 OpenCV5 最后0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往…

365天深度学习训练营-第6周:好莱坞明星识别

目录 一、前言 二、我的环境 三、代码实现 四、损失函数 1. binary_crossentropy(对数损失函数) 2. categorical_crossentropy(多分类的对数损失函数) 3. sparse_categorical_crossentropy(稀疏性多分类的对数损…

关于编辑器QScintilla(Scintilla)词法分析器工作原理的分析(实现注释区分)

入门,首先看我这两篇博客:关于QScintilla库的入门大全https://biao2488890051.blog.csdn.net/article/details/126798996?spm1001.2014.3001.5502 正式开始,先来看看词法分析器和编辑器的关系: (注意:如果…

李宏毅机器学习作业6-使用GAN生成动漫人物脸

理论部分参考:​李宏毅机器学习——对抗生成网络(GAN)_iwill323的博客-CSDN博客 目录 任务和数据集 评价方法 FID AFD (Anime face detection) rate DCGAN和WGAN 代码 导包 建立数据集 显示一些图片 模型设置 生成器 判别器 权…

火山引擎:数字化时代,如何给金融业注入“内容活水”?

数字化,已经成为中国经济的一架强劲发动机。 工业和信息化部统计显示,中国数字经济规模从2012年的11万亿元增长到2021年的超45万亿元,排名世界第二,数字经济占国内生产总值比重由21.6%提升至39.8%。 数据,是数字化的…

git可视化工具-idea插件使用

上一篇文章说了git的命令行操作,是不是还沉浸在命令行在指间跳跃的兴奋中,这一篇再说一说在idea中如何使用git,会让人更兴奋了,也许你会认为这会是最好用的方式的。我想说这只是最好用的方式之一。 1.功能入口 当我们在idea里想使…

键盘输入语句和位运算

键盘输入语句键盘输入语句案例:可以从控制台接收用户信息,【姓名,年龄,薪水】进制介绍案例:输出 二,十,八,十六进制的数据位运算原码、反码、补码位运算符java 中有 7 个位运算(&…

数字工业 弹性安全丨2022 Fortinet工业互联网安全发展峰会成功举办

随着数字化转型的持续推进,工业互联网的作用和地位日益加强。而 OT 安全作为工业互联网体系不可或缺的部分,虽然受到越来越多企业的关注,但仍然面临着多方面的挑战。11月16日,一年一度的 OT 安全盛会——2022 Fortinet工业互联网安…

算法设计与分析 SCAU11091 最优自然数分解问题(优先做)

11091 最优自然数分解问题(优先做) 时间限制:1000MS 代码长度限制:10KB 提交次数:0 通过次数:0 题型: 编程题 语言: G;GCC;VC;JAVA Description 问题描述:设n是一个正整数。 (1)现在将n分解为若干个互不相同的自然…

【毕业设计】电影评论情感分析 - GRU 深度学习

文章目录0 前言1 项目介绍2 情感分类介绍3 数据集4 实现4.1 数据预处理4.2 构建网络4.3 训练模型4.4 模型评估4.5 模型预测5 最后0 前言 🔥 Hi,大家好,这里是丹成学长的毕设系列文章! 🔥 对毕设有任何疑问都可以问学…

手机拍照模糊怎么办?拍摄低像素照片如何修复清晰?

相信有很多人在用手机拍摄照片时自认为应该非常精美,拍完后却发现它模糊不清!最终遗憾地错过了精彩的瞬间,令人非常遗憾!虽然手机不是专业的摄像机,拍摄时模糊在所难免。但是我们可以在前期尽量避免拍摄的照片模糊&…

感冒了吃抗生素有用吗?

点击蓝字 |关注我们 2023年《科学世界》杂志全年订阅现已开启。 现在订阅,立享7.5折,并赠送经典科普图书《从一到无穷大》。通过文末链接,即可登录“科学世界”微店订购。抗生素,简单地说就是杀死细菌的药物。更准确地…

从源码上看,RocketMQ 5.0 跟 RocketMQ 4.x相比增加了哪几个模块

今天来介绍一下 RocketMQ 5.0 源码上的变化。 RocketMQ 5.0 是一个里程碑式的版本,经历了近 5 年的打磨,代码变更达到 60%。 首先看一下源码中模块的变化,如下图: 从图中可以看到,RocketMQ 5.0 主要增加了 4 个模块儿…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java校园生活互助平台06qe4

对于即将毕业或者即将做课设的同学而言,由于经验的欠缺,面临的第一个难题就是选题,确定好题目之后便是开题报告,如果选题首先看自己学习那些技术,不同技术适合做不同的产品,比如自己会些简单的Java语言&…

DataScience:KNIME工具的简介、安装、使用方法之详细攻略

DataScience:KNIME工具的简介、安装、使用方法之详细攻略 目录 KNIME的简介—数据挖掘与分析工具 1、KNIME软件如何帮助您的数据分析? 1.1、Create 1.2、Productionize 2、KNIME Analytics Platform 3、KNIME Hub KNIME的安装 KNIME的使用方法 1、构建第一…