还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

news2024/10/11 9:37:30

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同,展示出与横屏视频数据不同的特性。

针对这一不同,字节跳动技术团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义,论文已入选 CVPR2024。

视频 demo 展示、数据特性演示以及竖屏视频类别分类,请见 https://mingfei.info/PMV

图片

论文地址:https://arxiv.org/abs/2312.13746

视频分类作为基础的计算机视觉技术,对视频内容的分类、特征提取,以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式,受到用户的广泛青睐。而竖屏的视频分类技术在目前的研究中鲜有关注,为了激发这一领域的研究,团队提出了一个专用的数据集 PortraitMode-400,包含真实的视频数据和 400 个结构化的类别标签。

进一步,通过自建数据和公开数据子集实验,团队初步展示了横屏数据和竖屏数据之间的不同,和独特的先验分布,并针对不同的技术点进行实验,提出了针对竖屏视频处理的技术方案。

图片

团队首先从公开数据 Kinetics-700 中抽取包含竖屏视频数量的子集 S100-PM,并对应的抽取同等数量的横屏视频得到 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型(不含任何预训练),并在相同的测试集上进行公平测试,以观察竖屏和横屏视频所含的不同数据特性。

如下方所示,以上半为例,团队将 S100-PM 训练的模型在竖屏测试集上做滑窗测试(16x9 个不重叠的均匀分布的滑窗)得到 Probing-P,同样的可以得到 S100-LM 训练模型的测试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势,团队做差值图得到 c 图,黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的,团队可以得到下半所示的差值图,S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。

可以观察得到,在确保所有训练和测试条件一致的情况下,训练数据的不同带来准确率空间分布上的显著差异,而且差值呈哑铃状分布。

图片

图片

横屏与竖屏视频的不同,说明竖屏视频是一种不同于以往数据的新视频格式,有着不同的数据特性。为了进一步推动领域研究,团队提出了数据集 PortraitMode-400,通过自底向上的方式综合大量的热门搜索词,人工筛查和提取得到 400 个包含显著动作内容的类别集合,涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 个公开的竖屏视频链接,并已通过人工审查的方式确保数据的高质量可用。

图片

此外,团队还真对竖屏视频数据的不同特性进行实验,以期提出一套合理有效的技术方案。为此,团队利用不同的模型类别,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在竖屏数据上进行广泛实验。团队发现,与传统横屏数据处理相比,竖屏数据对数据预处理有着不一样的倾向。

如下图上半所示,在 CNN 模型下倾向于 Inception-style 方案,而在 Transformer 类模型下倾向于 shorter-side resize 方案。进一步的,团队发现更好的保持原始视频在训练时的长宽比,可以在同等测试条件下获得更好的准确率。

如下半所示,随着采样框长宽比增大,Transformer 类模型表现逐渐增强,而 CNN 模型表现相反。这些实验现象表明了,竖屏数据不同于横屏数据的特性;提供了不同模型架构下的训练偏好设置。

图片

图片

最后,团队还在时间信息显著性、音频模态重要性等方面进行了实验。发现时间信息的加入和音频模态的引入,都可以对竖屏数据的准确率带来不小的提升,展示了在相关领域的研究空间和可能性。

图片

应用落地和展望

视频分类作为基础的计算机视觉技术,对视频内容的分类、特征提取,以及推荐等有着重要的作用。针对竖屏视频的专门研究可以进一步推动相关技术的发展,增强内容推荐等关键能力,进一步激发竖屏领域的其他类型研究,如生成等。

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1567543.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

回溯算法|47.全排列II

力扣题目链接 class Solution { private:vector<vector<int>> result;vector<int> path;void backtracking (vector<int>& nums, vector<bool>& used) {// 此时说明找到了一组if (path.size() nums.size()) {result.push_back(path);r…

python的pip如何升级

升级pip的方法如下&#xff1a; 打开命令行工具。在Windows系统中&#xff0c;可以通过按下WinR键&#xff0c;然后输入"cmd"来打开命令提示符&#xff1b;在Mac或Linux系统中&#xff0c;可以直接打开终端。检查当前pip版本。在终端或命令行中输入以下命令&#…

详解网络攻击的发生原因、类型及如何防范

网络攻击是访问计算机系统或者大小&#xff0c;修改或窃取数据的未经授权的企图。网络破坏分子可以使用多种攻击媒介&#xff0c;推出包括网络攻击的恶意软件&#xff0c;网络钓鱼&#xff0c;勒索&#xff0c;以及人在这方面的中间人攻击。固有风险和残余风险使这些攻击中的每…

Axure案例分享—垂直手风琴(附下载地址)

今天分享的案例是Axure8(兼容9和10)制作的垂直手风琴 一、功能介绍 折叠或展开多个面板内容&#xff0c;默认为展开一项内容&#xff0c;点击任一收起的选项&#xff0c;展开面板&#xff0c;其他面板收起二、制作过程 原型是由矩形组件以及动态面板构成&#xff0c; 拖入一…

flask的使用学习笔记1

跟着b站学的1-06 用户编辑示例_哔哩哔哩_bilibili flask是一个轻量级&#xff0c;短小精悍&#xff0c;扩展性强&#xff0c;可以扩展很多组件&#xff0c;django大而全 编程语言它们的区别&#xff1a; (这些语言都很了解&#xff0c;java和python是高级语言&#xff0c;都…

Xen Server 8 Install

Xen Sevrer 前言 XenServer&#xff08;以前称为 Citrix Hypervisor&#xff09;是业界领先的平台&#xff0c;实现了经济高效的桌面、服务器和云虚拟化基础结构。XenServer 支持任意规模或类型的组织整合计算资源&#xff0c;以及将计算资源转换为虚拟工作负载&#xff0c;从…

Google Chrome 常用设置

Google Chrome 常用设置 References 转至网页顶部 快捷键&#xff1a;Home 转至内容设置 chrome://settings/content 清除浏览数据 历史记录 -> 清除浏览数据 关于 Chrome 设置 -> 关于 Chrome chrome://settings/help References [1] Yongqiang Cheng, https:/…

Postman和Python Request测试多行Form-data

1、请求参数有多个&#xff0c;F12查看请求体如下&#xff1a; 查看源代码&#xff1a; ------WebKitFormBoundaryHknGXm9VkhRUXZYC Content-Disposition: form-data; name"custId"IICON004 ------WebKitFormBoundaryHknGXm9VkhRUXZYC Content-Disposition: form-da…

算法整理:排序

快速排序 首先不妨以第一个数为基准数&#xff0c;在一轮遍历后&#xff0c;使基准数左边的数都小于基准数&#xff0c;基准数右边的数都大于基准数。 当然也可以取中间的数为基准数。 void quick_sort(vector<int>&nums,int l,int r){if(l>r)return;int idxl;//…

AI技术助推汽车行业走向更光明的未来

我们在汽车上度过的时间很多&#xff0c;有时候由于交通、天气和其他路况问题&#xff0c;我们在汽车上度过的时间之久甚至会出乎意料。正因如此&#xff0c;保障旅途体验的舒适和安全就显得至关重要。交通事故每天都会发生&#xff0c;因此在车辆中采取额外的安全措施对于所有…

LeetCode-146. LRU 缓存【设计 哈希表 链表 双向链表】

LeetCode-146. LRU 缓存【设计 哈希表 链表 双向链表】 题目描述&#xff1a;解题思路一&#xff1a;双向链表&#xff0c;函数 get 和 put 必须以 O(1) 的平均时间复杂度运行。一张图&#xff1a;知识点__slots__ 解题思路二&#xff1a;0解题思路三&#xff1a;0 题目描述&am…

java Web 健身管理系统idea开发mysql数据库LayUI框架java编程计算机网页源码maven项目

一、源码特点 java Web健身管理系统是一套完善的信息管理系统&#xff0c;结合java 开发技术和bootstrap完成本系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。 前段主要技术 layUI bootst…

院内感染的相关因素分析(Boruta联合SHAP分析2)R

院内感染的相关因素分析&#xff08;Boruta联合SHAP分析2&#xff09;R 和鲸社区一键运行代码 院内感染是指住院患者在医疗机构内发生的感染&#xff0c;是医院管理中常见且严重的问题。院内感染不仅会延长患者住院时间&#xff0c;增加医疗费用&#xff0c;还会严重威胁患者生…

地表径流分布数据/水文站点分布/降雨量分布/辐射分布数据

引言 大气降水落到地面后&#xff0c;一部分蒸发变成水蒸气返回大气&#xff0c;一部分下渗到土壤成为地下水&#xff0c;其余的水沿着斜坡形成漫流&#xff0c;通过冲沟&#xff0c;溪涧&#xff0c;注入河流&#xff0c;汇入海洋。这种水流称为地表径流。 正文 数据简介 来自…

汉诺塔问题的递归算法解析

文章目录 汉诺塔问题的递归算法解析问题描述递归算法思路代码实现算法复杂度分析总结 汉诺塔问题的递归算法解析 问题描述 汉诺塔问题是一个经典的递归算法问题。问题描述如下&#xff1a; 在经典汉诺塔问题中&#xff0c;有 3 根柱子及 N 个不同大小的穿孔圆盘&#xff0c;盘…

普联一面4.2面试记录

普联一面4.2面试记录 文章目录 普联一面4.2面试记录1.jdk和jre的区别2.java的容器有哪些3.list set map的区别4.get和post的区别5.哪个更安全6.java哪些集合类是线程安全的7.创建线程有哪几种方式8.线程的状态有哪几种9.线程的run和start的区别10.什么是java序列化11.redis的优…

《C Prime Plus》02

1. UNIX 系统 C语言因UNIX系统而生&#xff0c;也因此而流行&#xff0c;所以我们从UNIX系统开始&#xff08;注意&#xff1a;我们提到的UNIX还包含其他系统&#xff0c;如FreeBSD&#xff0c;它是UNIX的一个分支&#xff0c;但是由于法律原因不使用该名称&#xff09;。 UN…

动手做一个最小Agent——TinyAgent!

Datawhale干货 作者&#xff1a;宋志学&#xff0c;Datawhale成员 前 言 大家好&#xff0c;我是不要葱姜蒜。在ChatGPT横空出世&#xff0c;夺走Bert的桂冠之后&#xff0c;大模型愈发地火热&#xff0c;国内各种模型层出不穷&#xff0c;史称“百模大战”。大模型的能力是毋…

备战蓝桥杯Day36 - 动态规划 - 三角形最小路径和问题

一、什么是动态规划 通过拆分问题&#xff0c;定义问题状态和状态之间的关系&#xff0c;使得问题能够以递推的方式解决。 哪些问题可以使用动态规划&#xff1f; 1、具有最优子结构&#xff1a;问题的最优解所包含的子结构的解也是最优的 2、具有无后效性&#xff1a;未来…

typdef:深入理解C语言中typdef关键词的用法

typedef&#xff1a;C语言中的类型重命名关键词 在C语言中&#xff0c;typedef 是一个非常有用的关键词&#xff0c;它允许我们为现有的数据类型定义一个新的名称。这不仅使得代码更加清晰易读&#xff0c;还提高了代码的可维护性。在这篇博客中&#xff0c;我们将深入探讨 ty…