Talk预告 | 腾讯AI Lab研究员童湛南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测

news2025/1/10 11:57:29

本期为TechBeat人工智能社区465线上Talk!

北京时间12月22(周四)20:00腾讯AI Lab研究员——童湛&南京大学计算机科学与技术系硕士研究生——谈婧的Talk将准时在TechBeat人工智能社区开播!

他们与大家分享的主题是: “基于注意力机制的视频自监督表示学习和时序动作检测”,届时将分享在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能;2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。

Talk·信息

主题:基于注意力机制的视频自监督表示学习和时序动作检测

嘉宾:腾讯AI Lab研究员 童湛

南京大学计算机科学技术系硕士研究生 谈婧

时间:北京时间 12月22日(周四) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

点击下方链接,即可观看视频

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=742

Talk·介绍

基于注意力机制的视频自监督表示学习和时序动作检测

视频理解已经成为现阶段人工智能领域的研究热点和难点,视频自监督表示学习和时序动作检测是其中的关键技术。注意力机制(Attention)已经在视觉、语音、自然语言处理等领域展现了强大的表示和建模能力。在本次Talk中,我们将介绍在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能;2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。

基于掩码和重建的视频自监督预训练范式

目前最先进的视觉自注意力模型 (Vision Transformer)通常需要先在超大规模的图像或视频数据集上进行预训练, 才能在相对较小的数据集上展示出卓越的性能。在这个工作中,我们利用掩码式自监督预训练的方式对Vision Transformer进行预训练。我们设计了一种带有极高掩码比率的管道式掩码策略,并且提出了视频掩码自编码器(VideoMAE),释放Vision Transformer在视频理解相关任务上的强大表征能力。

Talk大纲如下:

  • 问题引入

  • 目前领域存在的问题

  • 方法:视频掩码自编码器

  • 实验:消融实验与结果

  • 可视化分析

  • 总结

基于可学习查询点的多类别时序动作检测框架

经典时序动作检测任务往往局限于同一个视频中只包含单一类别、不重叠动作的理想情况。但在现实场景中,不同类别的动作常常同时发生。因此,我们关注多类别场景下的时序动作检测,旨在检测多类别视频中所有的动作。该任务具有着细粒度动作识别和并发动作的精细定位两大挑战。为了应对这些挑战,我们在NeurIPS2022提出PointTAD,可以灵活地基于一组可学习的查询点同时定位动作边界帧和关键帧,构建精细动作表征。

Talk大纲如下:

  • 问题引入:时序动作检测是什么?为什么要研究多类别场景下的时序动作检测?

  • 相关工作及存在的问题

  • 方法:查询点的核心思想、PointTAD模型总览、动作查询量的更新流程、可学习查询点与多层次交互模块的具体设计

  • 实验:消融实验与结果

  • 可视化分析

  • 总结

Talk·预习资料

  • paper: https://arxiv.org/abs/2203.12602

  • code: https://github.com/MCG-NJU/VideoMAE

  • paper: https://arxiv.org/abs/2210.11035

  • code: https://github.com/MCG-NJU/PointTAD  

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

童湛

腾讯AI Lab研究员

童湛,腾讯AI Lab研究员,硕士毕业于南京大学计算机科学与技术系,导师为王利民。主要研究方向包含计算机视觉、深度学习、视频理解、视频自监督表征学习等。

谈婧

南京大学计算机科学与技术系硕士研究生

谈婧,南京大学计算机科学与技术系硕士研究生,导师为王利民教授,本科毕业于南京大学匡亚明学院计算机方向,未来前往香港中文大学MMLab攻读博士。硕士期间在计算机视觉和机器学习顶会ICCV和NeurIPS上作为第一作者发表两篇工作。主要研究方向包含计算机视觉、深度学习、视频理解、时序动作检测。

 -The End-

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/108109.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在华为云桌面Workspace上,启泰智能工业设计效率翻倍

中国汽车的产销总量已经连续13年稳居全球第一,在一款新车开发中,大约有2万个汽车零部件,这些零部件的研发与制造,需要大量的工厂与各行业的协作,其中模具的需求量最大。 模具行业是一个非标、离散型的行业&#xff0c…

JavaSE笔记——泛型

文章目录前言一、简单泛型1.一个元组类库2.一个堆栈类二、泛型接口三、泛型方法1.变长参数和泛型方法2.一个泛型的 Supplier3.简化元组的使用4.一个 Set 工具四、构建复杂模型五、泛型擦除1.迁移兼容性2.擦除的问题3.边界处的动作六、补偿擦除1.创建类型的实例七、边界八、通配…

【学习打卡05】可解释机器学习笔记之CAM+Captum代码实战

可解释机器学习笔记之CAMCaptum代码实战 文章目录可解释机器学习笔记之CAMCaptum代码实战代码实战介绍torch-cam工具包可视化CAM类激活热力图预训练ImageNet-1000图像分类-单张图像视频以及摄像头预测pytorch-grad-cam工具包Grad-CAM热力图可解释性分析基于Guided Grad-CAM的高…

MySql 根据中文拼音首字母排序、 分组排序

如地域表信息: 如果我们想根据NAME 字段 的值, 按照中文拼音首字母排序 : sql SELECT CODE, NAME FROM district_info ORDER BY CONVERT(name USING gbk) COLLATE gbk_chinese_ci ASC 效果很OK: 那么如果我要整成想电话簿那样&am…

【正版软件】Navicat for Oracle 数据库数管理和开发工具

前言 Navicat for Oracle 透过精简的工作环境,提高 Oracle 开发人员和管理员的效率和效率。 Navicat for Oracle 透过精简的工作环境,提高 Oracle 开发人员和管理员的效率和效率。专业化 Oracle 的开发-快速安全地创建、组织、访问和共享信息…

微信小程序自定义顶部状态栏

因为工作需要,要在微信小程序中自定义顶部导航栏,通过这篇文章来记录一下自己所得~ 第一步: 需要在json文件中配置"navigation" : "custom",完成自定义导航栏,只保留胶囊按钮,效果如下图&#x…

养殖废水生化后氨氮400mg/L做到15mg/L,有什么降氨氮的工艺?

水产养殖过程中,鱼的排泄物和没有被消耗的饲料降解均会使水中的氨氮剧增,当氨氮浓度大于0.2mg/L时,鱼类摄食就会受到严重影响,造成生长不良或停止生长;达到 2mg/L时,则会造成生物的死亡,严重影响水产的养殖…

【Maven实战技巧】「插件使用专题」Maven-Archetype插件创建自定义maven项目骨架

技术推荐 自定义Archetype Maven骨架/以当前项目为模板创建maven骨架,可以参考http://maven.apache.org/archetype/maven-archetype-plugin/advanced-usage.html,详细介绍了如何快速创建和使用Archetype。 技术背景 在工作过程中必然会遇到创建项目的蛋…

最新版Crack:Xceed Ultimate Suite

Xceed Ultimate Suite 包括 160 多个适用于所有 Windows 平台的自适应、可靠和高性能控件和库的重要集合。程序前端的 UI 控件和后端的数据处理库。经常更新,并得到反应支持和开发人员的认可。 适用于所有 Windows 平台的 160 个自适应、可靠和高性能控件和库的重要…

vue-elementUI后台管理系统,已实现用户管理、菜单管理、角色管理、公司管理、权限管理、支付管理等

vue搭建后台管理界面模版(PC端) 完整代码下载地址:vue-elementUI后台管理系统 技术栈 vue2 vuex vue-router webpack ES6/7 axios elementUI 阿里图标iconfont 项目预览 http://nmgwap.gitee.io/vueproject/#/login 说明 本项目主…

Python使用pandas导入csv文件内容

使用pandas导入csv文件内容使用pandas导入csv文件内容1. 默认导入2. 指定分隔符3. 指定读取行数4. 指定编码格式5. 列标题与数据对齐使用pandas导入csv文件内容 1. 默认导入 在Python中导入.csv文件用的方法是read_csv()。 使用read_csv()进行导入时,指定文件名即…

jQuery 过滤方法

文章目录jQuery 过滤方法hasClass() 类名过滤eq() 下标过滤is() 判断过滤not() 反向过滤filter() 表达式过滤has() 表达式过滤后代元素jQuery 过滤方法 过滤方法说明hasClass()类名过滤eq()下标过滤is()判断过滤not()反向过滤filter()表达式过滤has()表达式过滤后代元素 hasCl…

微软发现macOS漏洞可让恶意软件绕过安全检查

©网络研究院 苹果修复了一个漏洞,攻击者可以利用该漏洞通过能够绕过 Gatekeeper 应用程序执行限制的不受信任的应用程序;在易受攻击的 macOS 设备上部署恶意软件。 由微软首席安全研究员发现并报告的安全漏洞(称为Achilles&#xff09…

前端基础_矩阵变换

矩阵变换 在介绍矩阵变换之前,首先要介绍一下变换矩阵,这个矩阵是专门用来实现图形变形的,它与坐标一起配合使用,以达到变形的目的。当图形上下文被创建完毕时,事实上也创建了一个默认的变换矩阵,如果不对…

腾讯T4熬夜硬肝的全套微服务学习笔记,Github万星只是开始

写在前面 微服务架构被认为是 IT 软件架构的未来方向。热度虽高,但对于很多中小公司来说微服务却是遥不可及,因为团队规模和能力又反过来制约了他们采用新技术的步伐。很多人对于微服务技术也都有着一些疑虑,比如:微服务这技术虽然…

编译器原理简介(以Cortex-M3为例)

在"keil根目录\ARM\ARMCC\bin"下可以找到如下文件: 他们就是编译器内核,将工程代码转换成二进制文件,烧写进MCU中执行。 目录 C与汇编 典型的开发流程 编译工具报错举例 C与汇编 在CM3上编程,开发人员既可以使用C也…

CANoe-新型通信模式(SOA面向服务架构)

传统的以ECU为单元的整车通信架构,是面向信号的以CAN/LIN等总线为代表的经典通信模式。而以车载以太网为总线,SOME/IP或DDS等为中间件的SOA面向服务的新型通信模式,在以域控为单元的整车通信架构中被越来越多的使用 CANoe作为仿真和测试环境提供了统一的跨网络通信概念。这…

字符设备驱动_3:register_chrdev_region() 简单字符设备驱动的实现

概述&#xff1a;利用regist_chrdev_region() 函数接口注册同一类字符设备的多个子设备。 上一节一起整理了一遍注册一个简单字符设备的流程&#xff0c;接下来就来实现一个同一类字符设备的多个子设备驱动程序。 1. Demo 程序 #include <linux/module.h> #include <…

Linux篇 三、香橙派Zero2搭建Qt环境

香橙派Zero2系列文章目录 一、香橙派Zero2设置开机连接wifi 二、香橙派Zero2获取Linux SDK源码 三、香橙派Zero2搭建Qt环境 文章目录香橙派Zero2系列文章目录前言一、下载交叉编译工具二、编译QT库1.先去网站下载Qt的资源包2.解压3.开始移植&#xff1a;4.编译&#xff1a;5.安…

jQuery 查找方法

文章目录jQuery 查找方法查找祖先元素parent()parents()parentsUntil()查找后代元素children()find()contents()向前查找兄弟元素prev()prevAll()prevUnitl()向后查找兄弟元素next()nextAll()nextUntil()查找所有兄弟元素siblings()jQuery 查找方法 查找祖先元素查找后代元素向…