动作识别、检测、分割、解析相关数据集介绍

news2024/11/28 8:31:57

文章目录

  • 动作识别
    • UCF101(UCF101 Human Actions dataset)
    • Kinetics (Kinetics Human Action Video Dataset)
  • 动作检测 / 时序动作定位
    • Charades
    • ActivityNet
    • Multi-THUMOS
    • UCF101-24
    • IKEA ASM
  • 动作分割
    • Breakfast (The Breakfast Actions Dataset)
    • GTEA (Georgia Tech Egocentric Activity)
    • 50 Salads
    • JIGSAWS (JHU-ISI Gesture and Skill Assessment Working Set)
    • COIN
    • Assembly101
    • MPII Cooking 2 Dataset
  • 动作解析
    • TAPOS
    • Home Action Genome

本文将列举介绍目前在动作识别、动作检测、动作分割等相关领域的常用数据集和各自的特点。

动作识别

对剪辑后的一段包含特定动作的视频进行分类。
在这里插入图片描述

UCF101(UCF101 Human Actions dataset)

UCF101数据集是UCF50的扩展,由13320个视频片段组成,分为101个类别。这101个类别可分为5类(身体运动、人与人互动、人与物互动、乐器演奏和运动)。这些视频剪辑的总时长超过27个小时。所有视频均来自YouTube,固定帧率为25fps,分辨率为320 × 240。

Khurram Soomro, Amir Roshan Zamir, & Mubarak Shah (2012). UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild arXiv: Computer Vision and Pattern Recognition.

可用于:action recoognition

The action categories for UCF101 data set are: Apply Eye Makeup, Apply Lipstick, Archery, Baby Crawling, Balance Beam, Band Marching, Baseball Pitch, Basketball Shooting, Basketball Dunk, Bench Press, Biking, Billiards Shot, Blow Dry Hair, Blowing Candles, Body Weight Squats, Bowling, Boxing Punching Bag, Boxing Speed Bag, Breaststroke, Brushing Teeth, Clean and Jerk, Cliff Diving, Cricket Bowling, Cricket Shot, Cutting In Kitchen, Diving, Drumming, Fencing, Field Hockey Penalty, Floor Gymnastics, Frisbee Catch, Front Crawl, Golf Swing, Haircut, Hammer Throw, Hammering, Handstand Pushups, Handstand Walking, Head Massage, High Jump, Horse Race, Horse Riding, Hula Hoop, Ice Dancing, Javelin Throw, Juggling Balls, Jump Rope, Jumping Jack, Kayaking, Knitting, Long Jump, Lunges, Military Parade, Mixing Batter, Mopping Floor, Nun chucks, Parallel Bars, Pizza Tossing, Playing Guitar, Playing Piano, Playing Tabla, Playing Violin, Playing Cello, Playing Daf, Playing Dhol, Playing Flute, Playing Sitar, Pole Vault, Pommel Horse, Pull Ups, Punch, Push Ups, Rafting, Rock Climbing Indoor, Rope Climbing, Rowing, Salsa Spins, Shaving Beard, Shotput, Skate Boarding, Skiing, Skijet, Sky Diving, Soccer Juggling, Soccer Penalty, Still Rings, Sumo Wrestling, Surfing, Swing, Table Tennis Shot, Tai Chi, Tennis Swing, Throw Discus, Trampoline Jumping, Typing, Uneven Bars, Volleyball Spiking, Walking with a dog, Wall Pushups, Writing On Board, Yo Yo.

在这里插入图片描述

Kinetics (Kinetics Human Action Video Dataset)

Kinetics数据集是一个用于视频中人类动作识别的大规模、高质量数据集。该数据集包含约50万个视频剪辑,涵盖400个人类动作类,每个动作类至少400个视频剪辑。每个视频剪辑大约持续10秒,并标有单个动作类。这些视频来自YouTube。

Andrew Zisserman, Joao Carreira, Karen Simonyan, Will Kay, Brian Hu Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, & Mustafa Suleyman (2017). The Kinetics Human Action Video Dataset arXiv: Computer Vision and Pattern Recognition.

可用于:action classification

在这里插入图片描述

动作检测 / 时序动作定位

找到动作的开始帧和结束帧并进行分类。/检测视频流中的活动,并输出开始和结束时间戳。

在这里插入图片描述

Charades

Charades数据集由9848个平均时长为30秒的日常室内活动视频组成,涉及15种室内场景中46种对象类的交互,包含30个动词词汇,可导致157种动作类。该数据集中的每个视频都由多个自由文本描述、动作标签、动作间隔和交互对象的类别进行注释。研究人员向267名不同的用户展示了一个句子,其中包括来自固定词汇的物体和动作,他们录制了一段表演句子的视频。总的来说,该数据集包含157个动作类的66500个时间注释,46个对象类的41104个标签,以及27847个视频的文本描述。在标准分割中,有7986个训练视频和1863个验证视频。

Gunnar A. Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, & Abhinav Gupta (2016). Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding arXiv: Computer Vision and Pattern Recognition.

可用于:action classification / action detection

在这里插入图片描述
在这里插入图片描述

ActivityNet

ActivityNet数据集包含200种不同类型的活动,以及从YouTube上收集的总共849小时的视频。就活动类别和视频数量而言,ActivityNet是迄今为止最大的时间活动检测基准,这使得这项任务特别具有挑战性。1.3版本的数据集总共包含19994个未修剪的视频,并按照2:1:1的比例分为三个互不关联的子集,训练,验证和测试。平均而言,每个活动类别有137个未修剪的视频。每个视频平均有1.41个带有时间边界注释的活动。测试视频的真实注释是不公开的。

Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, & Juan Carlos Niebles (2015). ActivityNet: A large-scale video benchmark for human activity understanding Computer Vision and Pattern Recognition.

可用于:Temporal Action Localization / Action Recognition

在这里插入图片描述

Multi-THUMOS

MultiTHUMOS数据集包含密集的、多标签的、帧级的动作注释,在THUMOS的14个动作检测数据集中,横跨400个视频,长达30小时。它由65个动作类的38690个注释组成,平均每帧1.5个标签,每个视频10.5个动作类。

Serena Yeung, Olga Russakovsky, Ning Jin, Mykhaylo Andriluka, Greg Mori, & Li Fei-Fei (2015). Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos Cornell University - arXiv.

可用于:Action Detection
在这里插入图片描述
每帧可能有多种标签
在这里插入图片描述

UCF101-24

UCF101_24是UCF101数据集的子集,使用了一些不一样的标签。
类别信息有24类。

可用于:Action Detection / Temporal Action Localization
在这里插入图片描述

IKEA ASM

大型标记数据集的可用性是应用深度学习方法解决各种计算机视觉任务的关键要求。在理解人类活动的背景下,现有的公共数据集虽然规模很大,但通常仅限于单个RGB摄像机,并且只提供每帧或每剪辑的动作注释。为了能够更丰富地分析和理解人类活动,我们引入了宜家ASM——一个300万帧、多视图、家具组装视频数据集,包括深度、原子动作、对象分割和人体姿势。此外,我们在这个具有挑战性的数据集上对视频动作识别、对象分割和人体姿势估计任务的突出方法进行了基准测试。数据集能够开发整体方法,集成多模态和多视图数据,以更好地执行这些任务。

Yizhak Ben-Shabat, Xin Yu, Fatemeh Sadat Saleh, Dylan Campbell, Cristian Rodriguez-Opazo, Hongdong Li, & Stephen Gould (2020). The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose arXiv: Computer Vision and Pattern Recognition.

可用于:Action Recognition 、 Pose Estimation 、 Action Segmentation

动作分割

为对一段未剪辑视频进行分段,并对每一段视频分配预先定于的动作标签。

动作分割是高水平视频理解中具有挑战性的问题。在其最简单的形式中,动作分割旨在按时间分割一个临时未修剪的视频,并用预定义的动作标签标记每个分割部分。动作分割的结果可以进一步用作各种应用程序的输入,如视频到文本和动作定位。

在这里插入图片描述

Breakfast (The Breakfast Actions Dataset)

相关链接:Action Segmentation数据集介绍——Breakfast

早餐动作数据集包括与早餐准备相关的10个动作,由18个不同厨房的52个不同的人执行。该数据集是最大的完全带注释的数据集之一。这些动作是在“自然环境下”记录的,而不是在单一的受控实验室环境中记录的。它由超过77小时(>4万帧)的录像组成。为了减少数据总量,所有视频都被下采样到320×240像素的分辨率,帧速率为15 fps

Hilde Kuehne, Ali Bilgin Arslan, & Thomas Serre (2014). The Language of Actions: Recovering the Syntax and Semantics of Goal-Directed Human Activities Computer Vision and Pattern Recognition.

在这里插入图片描述
在这里插入图片描述

可用于:Action Segmentation

GTEA (Georgia Tech Egocentric Activity)

佐治亚理工学院以自我为中心的活动(GTEA)数据集包含七种类型的日常活动,如做三明治、茶或咖啡。每个活动由4个不同的人完成,总共28个视频。对于每个视频,大约有20个精细的动作实例,如拿面包,倒番茄酱,大约一分钟。

Alireza Fathi, Xiaofeng Ren, & James M. Rehg (2011). Learning to recognize objects in egocentric activities Computer Vision and Pattern Recognition.

可用于:Action Segmentation; Action Localization

在这里插入图片描述

50 Salads

活动识别研究的重点已经从区分全身运动模式转向识别多个实体的复杂交互。操纵手势——以手、工具和可操作物体之间的交互为特征——经常出现在食品制备、制造和装配任务中,并有各种应用,包括情景支持、自动监督和技能评估。为了刺激对识别操纵手势的研究,我们介绍了50 Salads数据集。它捕捉到25个人每人准备两份混合沙拉,包含超过4小时的带注释的加速度计(accelerometer)和RGB-D视频数据。50 salad数据集包括详细的注释、多种传感器类型和每个参与者的两个序列,可用于活动识别、活动发现、序列分析、进度跟踪、传感器融合、迁移学习和用户适应等领域的研究。

可用于:Action Segmentation 、
在这里插入图片描述

JIGSAWS (JHU-ISI Gesture and Skill Assessment Working Set)

JHU-ISI手势和技能评估工作集(JIGSAWS)是用于人体运动建模的外科活动数据集。数据是通过约翰霍普金斯大学(JHU)和Intuitive Surgical, Inc. (Sunnyvale, CA. ISI)在irb批准的研究中合作收集的。该数据集的发布已得到约翰霍普金斯大学IRB的批准。数据集是使用达芬奇手术系统(da Vinci Surgical System)从八位不同技能水平的外科医生那里获取的,他们在台式模型上重复执行三种基本手术任务:缝合、打结和穿针,这是大多数外科技能培训课程的标准组成部分。JIGSAWS数据集由三个部分组成:

运动学数据:描述机械手运动的笛卡尔位置、方向、速度、角速度和夹持角。
视频数据:内窥镜相机拍摄的立体视频。JIGSAWS任务的示例视频可从官方网页下载。
手动注释包括:
手势(原子手术活动段标签)。
技能(使用改进的客观结构化技术技能评估的全球评分)。
实验设置:一个标准化的交叉验证实验设置,可用于评估自动手术手势识别和技能评估方法。

Yixin Gao, S Swaroop Vedula, Carol E Reiley, Narges Ahmidi, Balakrishnan Varadarajan, Henry C Lin, Lingling Tao, Luca Zappella, Benjamín Béjar, David D Yuh, Chi Chiung, Grace Chen, René Vidal, Sanjeev Khudanpur, & Gregory D Hager (2023). JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS): A Surgical Activity Dataset for Human Motion Modeling

可用于: Action Segmentation 、 Action Quality Assessment 、 Surgical Skills Sevaluation
在这里插入图片描述
在这里插入图片描述

COIN

COIN数据集(用于综合教学视频分析的大规模数据集)由11,827个视频组成,涉及与我们日常生活相关的12个领域(例如,车辆,小工具等)中的180个不同任务。这些视频都是从YouTube上收集的。视频的平均长度是2.36分钟。每个视频被标记为3.91个步骤片段,每个片段平均持续14.91秒。该数据集总共包含476小时的视频,其中有46,354个带注释的片段。

Yansong Tang, Dajun Ding, Yongming Rao, Yu Zheng, Danyang Zhang, Lili Zhao, Jiwen Lu, & Jie Zhou (2019). COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis Cornell University - arXiv.

可用于:Action Segmentation

在这里插入图片描述
COIN 数据集 很大。
在这里插入图片描述

Assembly101

Assembly101是一个新的程序性活动数据集,包含4321个人们组装和拆卸101辆“可拆卸”玩具汽车的视频。参与者在没有固定指令的情况下工作,在动作顺序、错误和纠正方面的序列具有丰富而自然的变化。Assembly101是第一个多视图动作数据集,同时有静态(8)和自我中心(4)记录。序列标注了超过100K粗粒度和1M细粒度的动作片段,以及18M 3D手部姿势。我们以三个动作理解任务为基准:识别、预测和时间分割。此外,我们提出了一种检测错误的新任务。独特的记录格式和丰富的注释集允许我们研究新玩具的泛化,跨视图传输,长尾分布,以及姿势与外观。我们设想Assembly101将成为研究各种活动理解问题的新挑战。

Fadime Sener, Dibyadip Chatterjee, Daniel Shelepov, Kun He, Dipika Singhania, Robert Wang, & Angela Yao (2023). Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities

可用于:3D Action Recognition 、 Action Segmentation 、 Action Anticipation

在这里插入图片描述

MPII Cooking 2 Dataset

为活动识别提供详细注释的数据集。

Marcus Rohrbach, Anna Rohrbach, Michaela Regneri, Sikandar Amin, Mykhaylo Andriluka, Manfred Pinkal, & Bernt Schiele (2016). Recognizing Fine-Grained and Composite Activities Using Hand-Centric Features and Script Data

可以用于:Action Segmentation

动作解析

在一段动作视频中,定义一连串子动作(sub-action),动作解析即定位这些子动作的开始帧。该任务可更好的进行动作间和动作内部的视频理解。

TAPOS

TAPOS是在体育视频上开发的一个新的数据集,该数据集带有子动作的手动注释,并在此基础上进行了时间动作解析的研究。体育活动通常由多个子动作组成,对这种时间结构的认识有利于动作识别。

TAPOS总共包含16,294个有效实例,涉及21个操作类。这些实例的平均持续时间为9.4秒。每个类中的实例数量是不同的,其中最大的跳高类有超过1600个实例,最小的横梁类有200个实例。子动作的平均数量也因类而异,双杠平均有9个子动作,跳远平均有3个子动作。所有实例都分为训练集、验证集和测试集,大小分别为13094、1790和1763。

Dian Shao, Yue Zhao, Bo Dai, & Dahua Lin (2020). Intra- and Inter-Action Understanding via Temporal Action Parsing Cornell University - arXiv.

还没有形成 benchmark
在这里插入图片描述

Home Action Genome

家庭行动基因组是一个大规模的室内日常活动的多视角视频数据库。每一个活动都被同步的多视角摄像机捕捉到,包括以自我为中心的视角。有30个小时的视频,有70种日常活动和453种原子活动。

Nishant Rai, Haofeng Chen, Jingwei Ji, Rishi Desai, Kazuki Kozuka, Shun Ishizaka, Ehsan Adeli, & Juan Carlos Niebles (2021). Home Action Genome: Cooperative Compositional Action Understanding… arXiv: Computer Vision and Pattern Recognition.

可用于:动作识别

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/364298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

谷粒学院项目对应知识点

1、数据库分库分表 1.1、业务分库 按照业务模块将数据分散到不同的数据库服务器,比如用户数据、商品数据、订单数据存放在三个不同的数据库服务器中,分散存储和访问压力。但也会带来一些问题: join 操作问题:业务分库后&#x…

[qiankun]-多页签缓存

[qiankun]-多页签缓存环境功能需求多页签缓存方案方案1.主服务进行html替换方案2.微服务vnode 替换方案3.每个微服务都不卸载微服务加载方式的选择微服务的路由路径选择微服务的缓存工具微服务的容器使用tab作为微服务的挂载容器使用微服务路由作为微服务的挂载容器场景描述微服…

day18_集合_List

今日内容 上课同步视频:CuteN饕餮的个人空间_哔哩哔哩_bilibili 同步笔记沐沐霸的博客_CSDN博客-Java2301 零、 复习昨日 一、集合框架体系 二、Collection 三、泛型 四、迭代 五、List 六、ArrayList 七、LinkedList 零、 复习昨日 throw和throws什么区别 throwthrows位置方法…

Word中批量调整图片大小

当一个文档中图片较多,又需要调整图片大小时,这时可以通过“宏”执行代码来批量调整。打开一个Word文档。“AltF8"键打开宏。设置“宏名”,并单击“创建”。创建完宏后,将进入Visual Basic 编辑器界面。在代码编辑区全选&…

WebDAV之π-Disk派盘+文件管理器

文件管理器 支持WebDAV方式连接π-Disk派盘。 推荐一款iOS上的免费文件管理器新秀。 文件管理器这是一款功能强大的文件管理工具,支持zip,rar,7z等压缩包的解压和压缩,支持小说,漫画,视频下载及播,极大提升日常办公,娱乐,文件管理的工作效率,使得文档的归档和管理随心…

Android system实战 — Android R(11) 进程保活白名单

Android system实战 — Android R 进程保活白名单0. 前言1. 具体实现1.1 准备工作1.2 源码实现1.2.1 源码1.2.2 diff文件0. 前言 最近在Android R上实现一些需求,进行记录一下,关于进程保活的基础知识可以参考Android system — 进程生命周期与ADJ&#…

纯手动搭建hadoop3.x集群记录002_安装hadoop3.x_创建xsync分发工具_配置ssh免密登录---大数据之Hadoop3.x工作笔记0164

1.首先我有 172.19.126.117 母机 对应 172.19.126.122 虚拟机 172.19.126.116 母机 对应 172.19.126.121 虚拟机 172.19.126.115 母机 对应 172.19.126.120 虚拟机 对吧,然后我们从115上 开始安装hadoop 2. 然后走到这个opt/software文件夹中,然后解压 hadoop-3.1.3.tar.…

nn.Dropout随机丢神经元的用法

前言: pytorch与tensorflow中均有nn.dropout,两者之间的使用方法,下面将介绍。 一、torch.nn.dropout 说明文档: r"""During training, randomly zeroes some of the elements of the input tensor with probability :att…

人员行为识别系统 TensorFlow

人员行为识别系统人员行为识别系统通过TensorFlow深度学习技术,人员行为识别算法对画面中区域人员不按要求穿戴、违规抽烟打电话、睡岗离岗以及作业流程不规范实时分析预警,发现违规行为立即抓拍告警。深度学习应用到实际问题中,一个非常棘手…

2.22 位运算

位运算 预备知识 首先注意二进制位数从0开始记录&#xff0c;即 15&#xff08;1111&#xff09;&#xff0c;位数分别为3210 左移和右移 左移 << 将某个数的二进制向左移动几位&#xff0c;低位补0 如5>>2 即20&#xff0c;左移k位即相当于乘上2的k次方 右移 >…

C++学习笔记-数组

所谓数组&#xff0c;就是相同数据类型的元素按一定顺序排列的集合&#xff0c;就是把有限个类型相同的变量用一个名字命名&#xff0c;然后用编号区分他们的变量的集合&#xff0c;这个名字称为数组名&#xff0c;编号称为下标。组成数组的各个变量称为数组的分量&#xff0c;…

[面向小白]一篇博客带你认识什么是栈以及如何手撕一个栈

目录 0.前言 1.什么是栈 2.实现栈所选择的基本结构 3.认识栈的小练习 4. 用代码实现一个栈 4.1 用什么可以描述出一个栈 4.2栈接口的设计原则 4.3栈的初始化 4.4栈的插入 4.5 栈的删除 4.6 栈的判空 4.7栈的有效元素的数量 4.8取出栈顶元素 4.9栈的销毁 5. 对实…

BUUCTF-[ACTF新生赛2020]Splendid_MineCraft

题目下载&#xff1a;下载 这道题涉及SMC&#xff0c;动静态调试。 查壳&#xff0c;无壳32位&#xff0c;载入IDA 进入主函数main&#xff1a; 从上面可以看出&#xff0c;flag长度为26&#xff0c;前五个是ACTF{&#xff0c;最后一位是}。 strtok()函数用法&#xff1a;st…

sso单点登录

文章目录 目录 文章目录 前言 一、sso结构实现 二、使用步骤 2.1 建一个spring cloud 项目 2.2 common下的core的配置 2.3 实现系统的业务微服务 2.4 sso模块的编写 总结 前言 单点登录(SingleSignOn&#xff0c;SSO)&#xff0c;就是通过用户的一次性鉴别登录。当用户在身份…

复习知识点三:做人不能半途而废,就算躺平也要躺最舒服的那张床

目录 运算符​编辑 键盘录入: 练习:键盘输入数字并求和 练习: 算术运算符 隐式转换(自动类型提升) 强制转换 练习1: 字符串的 "" 操作 ​编辑 练习 1: 练习2: 练习3: 自增自减运算符 赋值运算符 关系运算符(比较运算符)的分类 练习: 逻辑运算符 短路逻辑运…

电商平台销量查询:2023年1月牛奶乳品热门排行榜

随着人们消费能力的提升以及健康意识的增强&#xff0c;牛奶乳品已经成为居民日常饮食中的重要组成部分&#xff0c;伴随人们整体消费的增长&#xff0c;牛奶乳品行业也越来越成熟。 今年1月份我国牛奶乳品行业的整体趋势如何呢&#xff1f;结合数据我们一同来分析&#xff01;…

国外博士后待遇情况汇总

许多老师再考虑申请国外博士后的时候会顾虑待遇方面的问题&#xff0c;对此知识人网小编整理关于主要国家博士后待遇情况的汇总。美国&#xff1a;美国机会更多&#xff0c;生活质量更高&#xff0c;生活空间也广。美国的年薪一般是3.0-6.5万美金左右&#xff0c;刚博士毕业出来…

无脑霸总漫开播,她穿书变成恶毒女配,本想和霸总离婚摆烂

无脑霸总漫开播&#xff0c;她穿书变成恶毒女配&#xff01;本想和霸总离婚摆烂&#xff0c;不料却被霸总盯上了&#xff5e;虐妻一时爽&#xff0c;追妻火葬场&#xff0c;曾经的我你爱搭不理&#xff0c;现在的我你高攀不起&#xff01;#无脑霸总漫开播 #如何在无脑霸总漫里艰…

Sql Server数据库实现表中字段的列加密研究

1、问题描述 去年6月份的时候做过一个薪酬系统&#xff0c;要对里面的一些敏感字段进行一下加密。Sqlserver列加密可以参考官方文档&#xff1a;SQL Server 技术文档 - SQL Server | Microsoft Learn。主要看下来有三种加密方法&#xff1a;1、利用证书对数据进行加密和解密。2…

Google Guice 3:Bindings(1)

1. 序言 上一篇博客&#xff0c;《Google Guice 2&#xff1a;Mental Model》&#xff0c;讲述了Guice的建模思路&#xff1a;Guice is a map Guice官网认为&#xff1a;binding是一个对象&#xff0c;它对应Guice map中的一个entry&#xff0c;通过创建binding就可以向Guice …