B站画质补完计划(3):智能修复让宝藏视频重焕新生

news2024/11/15 19:26:53

1 老片存在什么画质问题?

B站作为一个拥有浓厚人文属性的平台社区,聚集了诸如《雍正王朝》、《三国演义》等经典影视剧集,同时也吸引了大量用户欣赏、品鉴这些人文经典 。但美中不足的是,由于拍摄年代久远、拍摄设备落后、数据多次压缩传输等原因,大量剧集存在各种各样的画质问题,严重影响了用户的观看体验。

在观看了站内大量经典剧集后,我们总结了三点观看时的主观感受,并将解释这些主观感受背后蕴藏的画质问题及成因。

1.1. 模糊感

造成模糊感的原因有以下两点:受拍摄设备和显示条件的限制,老片片源的分辨率规格大多为 720p、540p 甚至更低,像素少导致清晰度低;数字化扫描、压缩存储等过程都会带来一定的精度损失,进而导致画面模糊。

图1为电影《女儿国》唐僧进城门的场景,画面整体观感比较模糊,唐僧袈裟的轮廓、城墙和城墙上的人物轮廓都不够锐利。对于人物面部特写,如图2《雍正王朝》中张廷玉的面部特写,皮肤表面的细纹理丢失,眼睛、鼻子、胡须等五官的轮廓细节不够清晰。

图片

图1. 电影《女儿国》原始视频画面

图片

图2. 电视剧《雍正王朝》原始视频画面

1.2. 卡顿感

视频出现卡顿感的原因主要是,部分老片的帧率较低,即每秒画面的帧数较少,导致在视频连续播放过程中,画面出现“一顿一顿”的感觉,特别是在运镜过程中,这种感觉尤其明显。受限于拍摄时代及技术,以前的电视剧或电影的拍摄帧率通常被限定为24或25。尽管这个帧率设置在新时代仍在使用,但都已很难满足观众对流畅画质的渴求,更不能发挥视频播放设备的性能。如图3以及图4中人物在运动时有明显卡顿。

图片

图3. 电视剧《雍正王朝》原始视频片段

图片

图4. 电视剧《三国演义》原始视频片段

1.3. 毛刺感

毛刺感主要是由视频的压缩编码造成,老片生产的年代压缩和存储技术不够发达,严重破坏了画面中连续的线条、边缘等结构信息,进而产生毛刺感。如图5《三国演义》中关羽的衣物边缘,有层次不齐的突起和小块,以及图6海绵宝宝五官轮廓附近经常出现突起和小颗粒,这些小毛刺带来的脏感十分影响观感。

图片

图5. 电视剧《三国演义》原始视频画面

图片

图6. 动画《海绵宝宝》原始视频画面

2 我们做了什么?

针对老片中存在的模糊感、卡顿感、毛刺感等画质问题,多媒体实验室的画质团队研发了一套智能修复系统,有效修复了上述画质问题,大幅提升老片观感。

2.1. 从模糊变清晰

通过图7《女儿国》片段、图8《雍正王朝》片段修复前后的对比图可以明显感受到智能修复算法带来的观感提升。在《女儿国》唐僧进城门的场景中,城门上的石块纹路、牌匾文字、屋檐线条以及士兵身体轮廓经过算法处理后都变得清晰可见;唐僧身着袈裟、手持禅杖的轮廓细节在算法处理后也变得更加锐利。而《雍正王朝》中张廷玉的面部皮肤纹理、眉毛胡须的毛发细节、五官轮廓的清晰度经过修复算法处理都得到了恢复。

图片

图7. 电影《女儿国》修复前后视频画面对比

图片

图8. 电视剧《雍正王朝》修复前后视频画面对比

2.2. 从卡顿变流畅

让卡顿的视频变流畅,最直接的方法是提高视频帧率,缩短视频帧之间的时间间隔,例如将每秒25帧的视频变成每秒50帧。我们借助自研的视频插帧算法(可参考 B站画质补完计划(1):插帧提升《雍正王朝》等视频流畅度),实现视频帧的“无中生有”,通过这种生成插入帧的方式完成视频帧率由低到高的转变。图9、10中的视频在经过插帧处理后,人物运动及镜头移动更加丝滑流畅,卡顿感基本消除。

图片

图9. 电视剧《雍正王朝》修复前后视频片段对比 (左为修复前,右为修复后)

图片

图10. 电视剧《三国演义》修复前后视频片段对比 (左为修复前,右为修复后)

2.3. 消除毛刺感

图11《三国演义》中关羽衣服边缘的毛刺、突起在算法处理后得到有效消除,衣服轮廓变得连续、锐利。

图12中海绵宝宝面部线条附近的颗粒、小块经过算法处理也完全消失了,海绵宝宝的面部变得光滑、干净。智能修复算法有效地消除了老片中常见的由压缩引起的毛刺感,使老片画面在变清晰的同时也变得更干净,观感大幅提升。

图片

图11. 电视剧《三国演义》修复前后视频画面对比

图片

图12. 动画《海绵宝宝》修复前后视频画面对比

3 我们是怎么做的?

在这一部分,我们将对智能修复系统的总体框架以及其中的子模块进行介绍。

3.1. 智能修复系统

智能修复系统是一套完整的、端到端的画质修复流水线,输入为原始待修复视频流,输出为修复后视频流,系统逻辑如图13所示。

智能修复系统由画质评估模块以及策略决策模块组成。在画质评估模块,我们会对原始视频流的分辨率、帧率、以及视频画质分数 VQA (Video Quality Analysis) 等画质信息进行提取,并将该信息流传递给画质修复模块来选择合适的修复策略以对原始视频流进行画质修复。

具体而言,当某一路画质条件不及预期时,只会触发相对应的修复流程,如帧率修复或画面修复;当视频帧率、视频画面质量都低于我们设定的期望下限时,就会同时触发帧率修复、画面修复流程来对原始视频流进行修复。

图片

图13. 智能修复系统流程图

当帧率修复和画面修复流程被同时触发时,画质修复算法流程如图14所示。首先,原始视频流会被解码为N帧图像序列,并经过画面修复模块和插帧模块,得到 [R*(N-1)+1] 帧修复后图像序列,最终图像序列会被编码为修复后视频流。插帧模块根据帧率上采样倍数R来确定生成中间帧的数量。画面修复模块对插帧后的所有图像帧进行自适应画面修复。

图片

图14. 画质修复算法流程

3.2. 画面修复模块

画面修复模块包含两个子模块,即背景修复模块和人脸修复模块。背景修复模块的作用为对除人脸区域外的场景进行去噪、线条修复、细节增强。人脸修复模块的作用为对人脸区域进行纹理恢复,五官清晰化。

对于背景修复和人脸修复模块,算法设计思路是一致的,首先要根据高清图片和某种降质策略构造出接近老片画质的低清图片,并让修复模型学习从低清到高清的反向映射。当学习过程收敛后,在推理阶段就可以直接将模型用于对老片画质的端到端修复。下面我们将介绍低清图像的构造方法以及两个子模块的算法细节。

3.2.1. 低清图像构造

在低清图像构造部分,如图15所示,我们设计了一套能准确模拟老片画质的降质策略。

关于该降质策略的具体实施可参考B站画质补完计划(2):视频超分让像素细腻生动 中对自研降质策略的描述。

图片

图15. 低清图像构造流程

3.2.2. 背景修复模块

对于背景修复模块,其重心在于去噪、线条修复、细节增强。低清图片经过卷积层和四层 REPB (Residual Efficient re-Parameterization Block, 对于该组件的描述可以参考B站画质补完计划(2):视频超分让像素细腻生动 ) 后输出伪高清背景图像,并评估伪高清背景图像和高清背景图像真值间的像素损失 (Charbonnier Loss)、结构信息损失 (SSIM)。 

图片

图16. 背景修复模块

3.2.3. 人脸修复模块

对于人脸修复模块,我们更关注其恢复细节的能力,故引入生成对抗的训练策略。模型采用 U 形结构的设计,在 Encoder 部分提取输入图像的 Low-level 面部细节特征和 High-level 面部风格特征。隐向量 w、Low-level 特征、初始化向量 const 经 Decoder 处理后输出伪高清人脸图像。其中,隐向量 w 是由面部风格特征 z 经过 Mapping 网络处理后得到,其目的是对向量 z 进行一定程度的特征解耦,使 w 更有针对性地控制面部姿态、轮廓和风格。Low-level 特征负责为解码器提供人脸局部细节的生成方向。最后,通过在伪高清人脸图像和高清人脸图像真值间建立像素损失和生成对抗损失,使模型在可控的基础上有更强的恢复面部细节的能力。

图片

图17. 人脸修复模块

3.3. 插帧模块

我们充分借鉴了目前主流的基于光流估计的插帧算法,开发了一套主要服务于点播场景的云端视频插帧算法(可参考 B站画质补完计划(1):插帧提升《雍正王朝》等视频流畅度)。模型主要通过对前后两帧的运动关系进行建模生成光流,并根据光流中的映射关系从前后帧加权采样得到预测的中间帧,来实现视频帧率及流畅度的提升。在实际的算法落地实践中,我们主要关注视频插帧的常见问题,并逐一优化解决,分别改善了“大运动缺陷”、“重复/周期性纹理缺陷”及“文字扭曲缺陷”这些影响主观体验的缺陷,确保更加完善的插帧效果。

图片

图18. 视频插帧算法

4 总结与展望

智能修复系统是一条高度智能化的、具有良好可扩展性的画质修复流水线,目前已经集成了B站多媒体实验室自研的画质评价算法、人脸修复算法、背景修复算法以及视频插帧算法。在实际的算法落地实践中,我们充分研究了老片的画质缺陷,并结合实验室现有的画质能力对老片中存在的画质缺陷进行有针对性地修复,最终实现了清晰自然的画质优化效果。

目前, 智能修复系统已成功投入线上点播业务,并已支持了智能修复 (独立清晰度) 视频流生产。未来,我们将持续在覆盖范围、主观效果和部署灵活度等方面进行算法的迭代更新,以在直播、点播、应用端等多个场景为视频画质提供更大的增益。

关注哔哩哔哩多媒体实验室,我们将陆续分享 HDR、色彩修复等更多画质相关技术文章,敬请期待。

哔哩哔哩多媒体实验室(bilibili mlab)是一支技术驱动的年轻队伍,具备完善的多媒体技术能力,以清晰流畅的极致视频体验为目标,通过对自研视频编码器、高效转码策略、视频图像分析与处理、画质评价等技术的持续打磨和算法创新,提出了画质可控的自适应转码算法、视频超分、视频插帧、画质评价、高性能多媒体算法推理基座、自研编码器等诸多高质量、低成本的多媒体解决方案,从系统尺度提升了整个多媒体系统的性能和效率, 助力哔哩哔哩成为体验最好的互联网视频社区。

-End-

作者丨GavinShyu、Shine晴天、qiushenjie、Mochi、天落

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一次会见苹果App Review专家的在线研讨会

本篇我们来聊聊一次会见苹果App Review专家的见闻,希望能够借助本次会见的内容纪要分享,给广大出海的iOS开发者提供一些有价值的资讯信息,帮助大家都能够轻松应对App的每一次审核。 近期,小编收到了来自苹果设计开发加速器的邀请…

园区无线网新架构:无CAPWAP的集中式转发

1、从经典的APAC组网说起 谈及园区无线网,大家脑子里不免会蹦出同一个关键词。 没错,市面上常见的中大型企业/园区的无线网络组网方案,大多都是基于集中式网关转发的”APAC”模式。 顾名思义,该架构包括 AP 和AC两个关键角色。 …

力扣每日一题 6/12 + 随机一题

博客主页:誓则盟约系列专栏:IT竞赛 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 2806.取整够买后的账户余额【简单】 题目: 一开始,你…

脾虚,人就废了一半!脾虚分3种,分清是哪一种,才能对症补脾!

入夏养什么?除心之外,还要多养养脾胃!因为夏季暑热潮湿,加上天气变热后,大家喜欢吃冰的食物!“喜燥恶湿”的脾胃在夏季就很容易受伤,导致脾虚! 中医认为,脾主运化&#x…

ArcGIS Pro 3.0加载在线高德地图

1、打开ArcGIS Online官网,登录自己的账号,登录后效果如下图所示 官网地址:https://www.arcgis.com/home/webmap/viewer.html 2、点击Add,选择Add Layer from Web,如下图所示 3、在显示的Add Layer from Web页面内&am…

GA/T 1400 (非标)视图库网关

GA/T 1400 (非标)视图库网关 应用概述: GAT1400视图库网关产品是公司“分布式综合安防管理平台”下的子系统 针对以下遇到应用场景定制开发、优化后形成的网关产品,具备兼容性高、可扩展、可功能定制、可OEM等优点。 视图库网关…

python中魔术方法__str__与__repr__的区别

在Python中,__str__和__repr__是两个常见的魔法方法(也称为双下方法或dunder方法),它们用于定义对象的字符串表示形式。它们的主要区别在于它们的用途和使用场景。 __str__ 用途:__str__方法用于为用户提供一个易读的…

适合营销的叙事可视化

背景 数据可视化与数据故事化的差异和相似点,以及它们如何协同工作,将你的数据转化为清晰、简洁、可操作的信息,以便您的组织使用。 什么是数据可视化? 数据可视化通过图像传达信息——这是你所收集数据的视觉表示。通过提供原…

可以自定义的文字识别OCR

可以自定义的文字识别OCR 什么是OCR文档自学习自定义模板单证票据信息抽取操作体验 这里提到的可以自定义的文字识别OCR ,其实就是OCR文档自学习。 什么是OCR文档自学习 什么是OCR文档自学习呢?OCR文档自学习,是面向“无算法基础”的企业与个…

【外汇天眼】交易智慧:遵循趋势,稳中求胜

在交易中,新手往往因对未来走势的不确定性感到恐惧,从而不断要求对市场进行全面分析。这种需求反映了他们在投机心理幼稚期缺乏安全感的表现。有些勤奋的交易者甚至在做单前、持仓时和寻找出局理由时都在不断分析行情。然而,这种过度分析真的…

经典的带环链表问题(链表补充)

环形链表1 运用快慢指针的方法,fast ,slow从头节点出发,快指针走两步,慢指针走一步,若有环,快指针先进环,后续如果慢指针和快指针相遇,则链表带环。转换成了追击问题。 struct ListNode {int v…

第二证券股市资讯:半导体,突发!

半导体又现突发! 商场忽然传出,拜登政府正在考虑约束我国获取应用在人工智能(AI) 芯片上的全栅级晶体管技能(Gate-all-around, GAA) ,但不过现在还不清楚美国官员何时会做出最终决议。从趋势来看,这意味着…

高温预警,快收下这份机房运维攻略

高温预警 华东区即将迎来最强高温,根据历史经验,数据机房在夏季高温环境导致设备温度过高,宕机事件明显增加,为保障系统健康稳定运行,需要针对数据机房空调、设备的运行状态及环境进行检查,并同时期开展防尘…

八股文系列Spark

为什么Spark 比 MapReduce 更快 DAG相比hadoop的mapreduce在大多数情况下可以减少磁盘I/O次数 因为mapreduce计算模型只能包含一个map和一个reduce,所以reduce完后必须进行落盘,而DAG可以连续shuffle的,也就是说一个DAG可以完成好几个mapreduce&#xf…

vue 应用测试(一) --- 介绍

vue 应用测试(一) ---介绍 前端测试简介组件测试Jest 测试框架简介其他测试框架 第一个测试避免误报如何组织测试代码 组件挂载Vue2 组件挂载的方式Vue3 的挂载方式vue-test-utils挂载选项 如何调试测试用例参考小结 前端测试简介 软件测试:…

康谋分享 | 自动驾驶联合仿真——功能模型接口FMI(一)

功能模型接口FMI(Functional Mock-up Interface)是一个开放且与工具解耦的标准。FMI包含了一个C-API(接口),一个用于描述接口的XML文件以及可交换的功能模型单元FMU(Functional Mock-up Unit)&a…

通过nerdctl+buildctl编译发布go程序docker镜像

1 nerdctl安装 下载: wget -c https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-full-1.7.6-linux-amd64.tar.gz 解压: tar -zxf nerdctl-full-1.7.6-linux-amd64.tar.gz -C /usr/local/nerdctl 配置: /usr/local/nerdctl/…

6月报名 | 海克斯康Actran风机类气动噪声分析培训

您好!感谢您长期以来对优飞迪科技与海克斯康的关注与支持。我们诚邀您参加海克斯康Actran风机类气动噪声分析培训,特邀海克斯康原厂讲师将以实操为基础,结合真实案例,手把手帮您解锁噪声仿真关键技术。 活动主题: 海…

【架构之路】微服务中常用的几种通信方式

2024年,计算机相关专业还值得选择吗? 强烈推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:人工智能 引言 微服务架构由于其灵活性、高可扩展性和易维护性&am…

mysql打开远程访问

这里写目录标题 1.使用navicat进入命令控制板,进入use mysql;2.查询用户表3.更新user表中root用户域属性,%表示允许外部访问4.执行以上语句之后再执行,FLUSH PRIVILEGES;5. 执行授权语句 1.使用navicat进入命令控制板,进入use mysql; use mysql;2.查询用…