Pseudo Multi-Camera Editing 数据集:通过常规视频生成的伪标记多摄像机推荐数据集,显著提升模型在未知领域的准确性。

news2024/11/30 8:32:16

2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助,显著提高了模型在目标领域的准确性,实现了68%的相对改进。

一、研究背景:

在电影、电视和其他媒体制作中,多摄像机系统的作用不可或缺。选择合适的摄像机视角对于提高制作质量和满足观众偏好至关重要。基于学习的视角推荐框架可以帮助专业人士做出决策,但这些框架在训练领域之外往往表现不佳,而标记好的多摄像机视角推荐数据集的稀缺加剧了这一问题。

目前遇到困难和挑战:

1、多摄像机视角推荐模型在未见过的领域中泛化能力差,导致准确率显著下降。

2、现有的多摄像机编辑数据集(如TVMCE)仅限于特定场景和类型,无法覆盖更广泛的领域。

3、收集相同领域的数据需要多个同步摄像机捕捉同一事件,且需要专业的电影制作专家进行标记,这在实际操作中非常困难。

数据集地址:多摄像头视图推荐数据集|模型泛化数据集

二、让我们一起来看一下Pseudo Multi-Camera Editing数据集:

Pseudo Multi-Camera Editing Dataset:通过将常规视频转换为伪标记的多摄像机视角推荐数据集,以解决标记数据稀缺的问题。研究团队利用视频编辑中的镜头转换来模拟摄像机切换,通过聚类镜头来模拟不同的摄像机,并选择每个“伪”摄像机中最相似的镜头作为候选镜头,与真实镜头一起生成伪标记数据。

数据集构建:

包括镜头检测、聚类生成伪摄像机标签、以及从每个伪摄像机中选择候选镜头。使用ResNet50预训练模型提取图像特征,并计算镜头间的视觉相似度。

数据集特点:

1、利用常规视频生成伪标记数据,无需专业标记。

2、通过聚类模拟多摄像机系统,提高模型在未知领域的泛化能力。

3、实现了68%的相对准确率提升。

研究者可以使用该数据集训练和测试多摄像机视角推荐模型。通过对比真实镜头和候选镜头的特征,模型可以学习在不同场景下选择合适的摄像机视角。

基准测试 :

在TVMCE数据集上,与现有的Temporal and Contextual Transformer (TC Transformer)模型相比,提出的框架在域内准确率上提高了11%。在未知领域(如情景喜剧场景)中,使用伪数据集训练的模型表现出显著更好的泛化能力。

(a) 在特定域的标记多相机编辑数据集上训练的模型对前所未见的域的泛化效果不佳,准确性显着下降。(b) 我们提出的方法利用常规视频为目标域生成伪标记数据集并提高模型的准确性

模型架构。(a) 过去的编码器将所有过去的特征编码为单个特征向量。然后,应用对比损失以最大化过去特征和真实特征之间的余弦相似性。(b) 特征提取器通过向图像特征添加位置嵌入来对帧进行编码。

伪数据集生成管道。(a) 在输入视频中检测到镜头,以及 (b) 分组。同一群集中的快照被视为来自同一“伪”摄像机。(c) 选择镜头作为锚点。后续镜头是地面实况,而其他每个 N-1 伪相机中最相似的镜头被选为候选镜头。

与基线的比较。多摄像头视图推荐模型对前所未见的领域的泛化效果不佳。ID:域内,OOD:域外。

视频场景的影响。在与测试集不同的场景中训练的模型准确率较低。绿色和红色表示相同和不同。

视频场景和类型(情景喜剧)的影响。更显著的域差异(视频场景 + 视频类型)会严重影响准确性。来自广泛视频的伪数据集可以覆盖目标视频场景和类型,从而获得更高的准确性。绿色、橙色和红色表示相同、有遮盖和不同。

三、让我们一起展望Pseudo Multi-Camera Editing数据集应用

比如,我是一名电影剪辑师。

我日常的工作:坐在剪辑室里,我得盯着屏幕,看那些复杂的实验室场景,或者是太空船的驾驶舱。每个摄像机都捕捉了不同的角度,有的可能是全景,有的可能是特写,还有的可能聚焦在某个重要的仪器上。我得决定什么时候切换到哪个镜头,才能让观众感受到那种紧张刺激的气氛,同时又不能错过任何重要的细节。这就像是在做一道复杂的数学题,你得把所有的元素都考虑到,还得保证最后的结果让观众满意。

现在有了这个Pseudo Multi-Camera Editing Dataset数据集训练的系统,我的眼睛得到更好的休息。

比如,我在剪辑一个太空船即将进入黑洞的紧张场景。这个系统就能帮我分析出,哪个镜头最能展现太空船的动态,哪个镜头最能捕捉到宇航员脸上的紧张表情。它会告诉我,现在可以切换到一个全景镜头,让观众感受到太空船在黑洞面前的渺小;然后,再切换到宇航员的特写,因为他的眼神中透露出坚定和决心。

这个系统就像是我的智能剪辑助手,它通过学习大量的视频资料,已经知道在这种科技电影中,哪些镜头最能打动人心。比如,在剪辑一个科学家在实验室里做实验的场景时,它会建议我切换到一个特写镜头,聚焦在科学家手中的那个即将引爆的装置上,因为那个装置的每一个细节都可能关系到整个实验的成败。

而且,这个系统还能帮我处理那些特别复杂的特效场景。比如,太空船在太空中爆炸的场景,它能够分析出哪个镜头最能捕捉到爆炸的震撼效果,哪个切换最能带动观众的情绪。这样,我就可以把更多的精力放在故事的叙述上,而不是纠结于每个镜头的选择。

有了Pseudo Multi-Camera Editing Dataset数据集训练的系统,让我在剪辑科技电影时,能够更加专注于创意和故事的讲述,而不用担心错过那些重要的细节。它帮我捕捉到每一个精彩的瞬间,让我的工作变得更加高效和有趣。

来吧,让我们走进多摄像头视图推荐数据集|模型泛化数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2226936.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日OJ题_牛客_DP23不相邻取数_打家劫舍dp_C++_Java

目录 牛客_DP23不相邻取数_打家劫舍dp 题目解析 C代码 Java代码 牛客_DP23不相邻取数_打家劫舍dp 不相邻取数_牛客题霸_牛客网 (nowcoder.com) 描述: 小红拿到了一个数组。她想取一些不相邻的数,使得取出来的数之和尽可能大。你能帮帮她吗&#x…

飞腾X100 NPU Benchmark使用说明

【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力,聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域,包含了应用使能套件、软件仓库、软件支持、软件适…

Kafka消费者故障,出现活锁问题如何解决?

大家好,我是锋哥。今天分享关于【Kafka消费者故障,出现活锁问题如何解决?】面试题?希望对大家有帮助; Kafka消费者故障,出现活锁问题如何解决? 1000道 互联网大厂Java工程师 精选面试题-Java资…

Objective-C 音频爬虫:实时接收数据的 didReceiveData_ 方法

在互联网技术领域,数据的获取和处理是至关重要的。尤其是对于音频内容的获取,实时性和效率是衡量一个爬虫性能的重要指标。本文将深入探讨在Objective-C中实现音频爬虫时,如何高效地使用didReceiveData:方法来实时接收数据,并通过…

Spring Boot 3项目创建与示例(Web+JPA)

以下是一个Spring Boot 3.3.4整合JPA的示例,它展示了如何在Spring Boot应用程序中使用JPA进行数据持久化。 版本与环境 Spring Boot 3.3.4数据库: MySQL 8.0.40, MySQL的安装使用可以参考: MySQL 8 下载与安装攻略JDK 17Maven 3.6项目创建 可以使用Spring Initializr 初始…

深度学习:SGD的缺点

首先看下述函数: 最小值为x0,y0处 先了解下它的梯度特征。了理解其梯度特征,我们需要计算其梯度向量。 梯度向量 ∇f 是函数 f 在每个变量方向上的偏导数组成的向量。具体来说: ∇f(∂f/∂x,∂f∂/y) 首先,我们计算 f …

时间序列预测(十五)——有关Python项目框架的实例分析

#1024程序员节|征文# 在之前的学习中,已经对时间序列预测的相关内容有了大致的了解。为了进一步加深理解,并能够将所学知识应用于实际中,我决定找一个完整的Python框架来进行深入学习。经过寻找,我终于找到了一篇非常具…

电脑技巧:如何进行磁盘测速?

磁盘测速是指通过专业工具或系统自带功能,测量硬盘的读写速度。这一过程能够帮助用户了解磁盘的性能瓶颈,并为硬件升级或系统优化提供数据依据。特别是在处理大量数据或运行高负载应用时,磁盘速度是决定系统性能的关键因素。 影响磁盘速度的因…

Web 核心指标优化之 INP 篇

这篇文章是我在公司做 INP 优化经验分享的演讲稿。 大家好,今天我要做的分享是关于 INP 的一些优化经验。 概念 首先,什么叫 INP 呢。 INP 的全称叫 Interaction to Next Pain ,翻译过来就是从交互到下一次绘制的延迟。这是 Google 提出来的…

C#与C++互操作时的数据类型对应

C#和C在互操作时,会涉及到数据类型对应的问题,如果数据类型用得不对,就会得不到想要的结果,严重的情况下,可能还会导致程序崩溃。这里做一下相关知识点的总结。 说明: 1. 表格第一列是Visual C中的数据类型…

【Docker大揭秘】

Docker 调试一天的血与泪的教训:设备条件:对应的build preparation相应的报错以及修改 作为记录 构建FASTLIO2启动docker获取镜像列出镜像运行containerdocker中实现宿主机与container中的文件互传 调试一天的血与泪的教训: 在DOCKER中跑通F…

numpy——数学运算

一、标量——矢量 import numpy as npa 3.14 b np.array([[9, 5], [2, 7]])print(a) print(b)# ---------- 四则运算 ---------- print(a b) # np.add print(a - b) # np.subtract print(a * b) # np.multiply print(a / b) # np.divide 二、矢量——矢量 import nump…

Claude Financial Data Analyst:基于Claude的金融数据分析工具!免费开源!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工…

MPC模型预测控制与RL强化学习的差异性

模型预测控制(Model Predict Control,MPC) 模型预测控制与强化学习的差异性调研 概述 MPC 是一种使用数学模型在有限时间内实时优化控制系统的技术,自二十世纪六七十年代问世以来,已广泛应用于化学工程、炼油、先进…

Java:String类(超详解!)

一.常用方法 🥏1.字符串构造 字符串构造有三种方法: 📌注意: 1. String是引用类型,内部并不存储字符串本身 如果String是一个引用那么s1和s3应该指向同一个内容,s1和s2是相等的,应该输出两…

《深度学习》模型的部署、web框架 服务端及客户端案例

目录 一、模型的部署 1、模型部署的定义与目的 1)定义 2)目的 2、模型部署的步骤 1)导出模型 2) 部署模型 3)测试模型 4)监控模型 3、模型部署的方式 1)云端部署 2)嵌入…

autMan奥特曼机器人-对接Docker版本NTQQ详细教程

准备 1、准备一台服务器,amd64/arm64都可以,配置最好还是2核保底吧。 2、准备一个VNC软件。1Remote:点此下载 3、准备手机登陆机器人QQ号,扫码 NTQQ相关 NTQQ一键脚本(适用于小白支持autMan/无界) 复制以…

linux标准 I/O

FILE 指针标准输入、标准输出和标准错误检查或复位状态I/O 缓冲控制文件 I/O 内核缓冲的标志直接 I/O:绕过内核缓冲stdio 缓冲 FILE 指针 FILE 是一个结构体数据类型,它包含了标准 I/O 库函数为管理文件所需要的所有信息,包括用于实际I/O 的…

基于Spring Boot的宿舍管理系统设计与实现(源码+定制+开发)宿舍信息管理平台、智能宿舍系统开发、学生宿舍管理平台设计、宿舍入住与信息管理

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

单节点kubernetes-1.20二进制部署

文章目录 一, 集群拓扑二,架构图三,前置准备1.环境准备1.1操作系统初始化配置(1)关闭防火墙(2)关闭selinux(3)关闭swap(4)根据规划设置主机名(5&a…