论文阅读KVQ: Kwai Video Quality Assessment for Short-form Videos

news2025/1/11 11:45:41

背景

短视频格式、内容与长视频不同,需要引入新的质量评估方法。作者构建了一个新的用于质量评估的数据集,提出了新的质量评估方法。
如下图所示,短视频有不同的格式、有模糊、噪声、编码等各种畸变。
在这里插入图片描述

KVQ 数据集

通过快手平台选择多样化的短视频样本,提取多个质量特征,并进行严格的数据清洗和一致性评分,构建了一个可靠的短视频质量评估数据集。先选600个数据,再对600个数据做处理(减小畸变、局部or全局、转码)获取3600个视频。
在这里插入图片描述

视频选择

  • 视频类型:选择了涵盖多种内容类型的视频,包括但不限于娱乐、教育、新闻等,以保证数据集的多样性。
  • 视频质量:视频的质量从高到低不等,包含了清晰度高、存在模糊、块效应、噪声等不同质量特征的视频,确保能够全面评估不同质量水平的视频。

特征提取

  • 锐度:测量视频的清晰度,评价其细节表现能力。
  • 块效应:检测视频压缩后出现的方块伪影。
  • 模糊度:评价视频的模糊程度,检测失焦或运动模糊。
  • 色彩度:评估视频色彩的饱和度和鲜艳度。
  • 复杂度:分析视频内容的复杂性,包括场景变化、物体运动等。
  • 噪声:检测视频中的噪声水平,评价其干扰程度。

数据清洗

为了确保评分数据的可靠性,进行了严格的数据清洗过程:

1)观测者评分一致性:计算每个观测者评分与其他人的平均评分之间的相关性(SROCC和PLCC)。如果相关性低于0.7,则重新训练或排除该观测者的数据。
2)评分分布:计算评分的峰度以评估其正态分布情况。对于偏离正态分布的评分进行进一步审查和调整。
3)评分标准
制定了详细的视频质量评分指南,评分范围为1到5:

  • 1分:严重失真,难以观看。
  • 2分:明显失真,但仍可理解内容。
  • 3分:中等质量,有一定的失真但不严重。
  • 4分:高质量,只有轻微的失真。
  • 5分:非常高的质量,几乎没有失真。

4)评分过程
观测者选择:从专业评审员中选出一组观测者,对每个视频进行评分。
评分环境:确保在统一的环境中进行评分,以减少外部因素的干扰。
评分记录:记录每个视频的评分,并进行统计分析,得出最终的质量评分。

KSVQE质量评估器

在这里插入图片描述
视频质量评估器(KSVQE),利用大型视觉语言模型(如CLIP)的内容理解能力和失真理解模块来识别质量的语义并区分失真。输入使用fragment,backbone为3D-Swin Transformer

方法细节:

内容理解:通过预训练的大型视觉语言模型CLIP,引入可学习的“质量适配器”来识别与质量相关的区域,并采用“内容自适应调制”(CaM)来感知每个区域的内容语义。
失真理解与调制:使用预训练的CONTRIQUE模型作为空间失真提取器,并设计了“失真感知模块”(DaM)通过多头部交叉注意力(MHCA)和多头自注意力(MHSA)来融合失真先验。

内容理解

输入关键帧,使用clip理解语义信息。不过需要在clip最后两层加一个映射,将图像语义空间映射到质量空间。这部分映射会输入到CaM模块中,如图上层所示。最后也会输出一个分数map,该部分会作用于QRS模块

QRS

通过clip的语义理解输出,对图片中的topk个区域进行选择,获取质量有问题的区间。

Cam

通过多头部交叉注意力(MHCA)将CLIP的特征与3D Swin Transformer的特征相结合,以便更好地理解每个片段的内容语义,并根据内容的不同调整质量评估。

失真理解

使用预训练的CONTRIQUE模型作为空间失真提取器,然后加了一个adapter映射到KQV数据集的分布。

Dam

通过多头部交叉注意力(MHCA)和多头自注意力(MHSA)来提取空间和时间的注意力特征

实验结果:

KSVQE在KVQ数据库和流行的VQA数据库上的有效性得到了实验验证。与当前最佳方法Dover相比,KSVQE在PLCC和SROCC上分别提高了0.032和0.034。
在这里插入图片描述

贡献:

  • 建立了首个大规模的KVQ数据库,提供了可靠的绝对质量标签和部分排名标签。
  • 提出了KSVQE评估器,解决了KVQ中的两个主要挑战:由多种创作/生成模式和万花筒内容场景引起的未识别质量决定区域/内容,以及由复杂处理流程和非专业视频拍摄引起的难以区分的失真。
  • 通过基于预训练的大型视觉语言模型CLIP提出QRS和CaM,增强了KSVQE的内容理解能力,并通过设计DaM增强了失真理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1864291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记一次VMware vCenter渗透过程(主要是踩坑分享)

针对VMware vCenter的介绍就不多说了,大佬们可以自己搜搜。这里只分享过程和踩到的坑点&技巧。 1 坑点&技巧总结 总体流程分为三大步:拿wenshell-->获取登录Cookie-->获取域控账密/hash(有域控的情况下) 相应的坑点&技巧也分别在不…

Robust semi-supervised segmentationwith timestep ensembling diffusion models

时间步合成扩散模型的鲁棒半监督分割 摘要 医学图像分割是一项具有挑战性的任务,由于许多数据集的大小和注释的限制,使得分割更加困难。消噪扩散概率模型(DDPM)最近在模拟自然图像的分布方面显示出前景,并成功地应用于各种医学成像任务。这…

LangChain之Agent代理

OpenAI Functions Agent 概述 某些OpenAI模型(如gpt-3.5-turbo-0613和gpt-4-0613)已经过微调,可以检测何时应该调用特定的函数,并应该将该函数的正确输入进行响应。在API调用中,您可以描述想要调用的函数,然后让模型智能地选择输出包含调用这些函数所需…

使用 MediaPipe 实现实时手部追踪和手势识别 | Rerun展示

点击下方卡片,关注“小白玩转Python”公众号 在本文中,我将展示一个使用 MediaPipe Python 和 Rerun SDK 进行手部追踪和手势识别的示例。如果您有兴趣深入了解并扩展您的知识,我将指导您如何安装 MediaPipe Python 和 Rerun SDK 来进行手部追…

web前端课程大作业-高校学生事务中心

文章目录 概述代码页面截图代码链接 概述 仿制高校的学生事务中心&#xff0c;一个登录和注册页面 代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" conten…

计算机毕业设计Thinkphp/Laravel智能道路交通管理系统4ir8r

Laravel非常的简洁并且是开源的&#xff0c;Laravel 是一个具有表现力、优雅语法的 Web 应用程序框架. Laravel 是构建现代全栈 Web 应用程序的最佳选择. 它的语法更富有表现力&#xff0c;拥有高质量的文档和丰富的扩展包&#xff0c;技术上它有Bundle扩展包、Eloquent ORM、反…

报道 | 2024年7月-2024年9月国际运筹优化会议汇总

封面图来源&#xff1a; https://www.pexels.com/zh-cn/photo/1181406/ 2024年7月-2024年9月召开会议汇总&#xff1a; 2024 INFORMS Advances in Decision Analysis Conference (ADA) Location: Finland Important Dates: Conference: July 10-12, 2024 Details:https://w…

聚星文社官网

推文工具可以帮助你将小说内容简洁明了地转化为推文形式&#xff0c;以便更好地在社交媒体上进行宣传和推广。以下是一些建议的小说推文工具&#xff1a; 聚星文社 字数统计工具&#xff1a;使用字数统计工具&#xff0c;如Microsoft Word或在线字数统计器&#xff0c;来确保你…

【AIGC】《AI-Generated Content (AIGC): A Survey》

文章目录 相关概念What is AI-generated content?Necessary conditions of AIGCHow can AI make the content better?The industrial chain of AIGCAdvantages of large-scale pre-trained modelsGeneration of smart textPros of AIGCCons of AIGCAIGC and Metaverse 挑战潜…

第 11 课:组件介绍与自定义开发

本讲主要介绍了隐语的组件标准、已有的组件能力以及进一步的自定义开发流程。经过本讲的学习&#xff0c;可以为将隐语集成到任意调度系统&#xff0c;基于Kusica/SecretPad进行二次开发&#xff0c;以及参与隐语开放标准共建建立基础。 一、隐语开放标准 隐语提出的适用于隐私…

Sora:探索AI视频模型的无限可能

随着人工智能技术的飞速发展&#xff0c;AI在视频处理和生成领域的应用正变得越来越广泛。Sora&#xff0c;作为新一代AI视频模型&#xff0c;展示了前所未有的潜力和创新能力。本文将深入探讨Sora的功能、应用场景以及它所带来的革命性变化。 一、Sora的核心功能 1.1 视频生…

java类的加载 ,类加载器以及双亲委派机制详细介绍

1_类的加载 路径 类的加载过程类的加载时机 类的加载 当程序在运行后&#xff0c;第一次使用某个类的时候&#xff0c;会将此类的class文件读取到内存&#xff0c;并将此类的所有信息存储到一个Class对象中 说明&#xff1a;Class对象是指java.lang.Class类的对象&#xff0c…

Orangepi Zero2使用外设驱动库wiringOP驱动蜂鸣器

目录 一、安装外设驱动库 1.1 wiringPi外设SDK安装&#xff1a; 二、使用wiringOP库驱动蜂鸣器 2.1 蜂鸣器的硬件连接&#xff1a; 2.2 使用wiringOP库实现蜂鸣器滴滴响&#xff1a; 2.3 设置vim代码显示格式&#xff1a; 一、安装外设驱动库 1.1 wiringPi外设SDK安装&a…

讨论stl链表

讨论链表 list迭代器失效list的模拟实现创建结点类链表迭代器完成实现代码 list与vector 链表是一个序列容器&#xff0c;在任意位置都可以用常数时间插入或者删除&#xff0c;并且可以在两个方向进行迭代。 list迭代器失效 迭代器失效指迭代器所指向的结点无效&#xff0c;即该…

windows@局域网或蓝牙文件传输@共享文件夹@就近共享

文章目录 windows系统下的简单共享文件方案&#x1f47a;就近共享设置共享文件夹(推荐)方法1:使用shrpubw程序引导创建方法2:使用图形界面创建右键设置共享文件夹 查看所有已经共享的文件夹&#x1f47a;停止某个文件的共享 共享文件夹的访问控制补充匿名访问问题&#x1f60a;…

JFrame和JScrollPanel布局初步使用

还不是很了解&#xff0c;做了几个程序&#xff1b; import java.awt.Container; import java.awt.Color; import javax.swing.JFrame; import javax.swing.JScrollPane; import javax.swing.border.EmptyBorder;public class pa1 {public static void main(String[] agrs){JF…

一个多文件工程的例子

代码; main.c #include <stdio.h> #include "add.h" #include "sub.h"int main(void) {int a10,b12;float x1.23456,y9.87654321;printf("int ab IS :%d\n",add_int(a,b));printf("int a-b IS :%d\n",sub_int(a,b));printf(&q…

STM32 中断和事件的区别

原文 简述 上图蓝线为中断的处理过程&#xff0c;红线是事件处理过程。 区别 中断&#xff08;Interrupts&#xff09;&#xff1a; 简述&#xff1a;当发生中断请求后&#xff0c;CPU暂停当前任务&#xff0c;进入对应的中断服务函数&#xff0c;完成后再回到原来暂停的地方…

IP地址专用SSL证书申请指南

IP地址SSL证书是一种专门设计用于IP地址的SSL/TLS证书&#xff0c;部署IP地址SSL证书可以实现IP地址HTTPS加密。 一&#xff1a;前提条件 1&#xff1a;申请IP地址SSL证书,必须拥有这个IP地址的管理权限 2 &#xff1a;80、443、22、端口中任一个可以短暂开放 二&#xff1…

rtthread stm32h743的使用(十)i2c设备使用

我们要在rtthread studio 开发环境中建立stm32h743xih6芯片的工程。我们使用一块stm32h743及fpga的核心板完成相关实验&#xff0c;核心板如图&#xff1a; 1.建立新工程&#xff0c;选择相应的芯片型号及debug引脚及调试器 2.打开cubemux&#xff0c;设置外部时钟及串口外设…