BigGait: Learning Gait Representation You Want by Large Vision Models阅读笔记

news2024/11/15 11:18:05

于老师团队又有新作!!

0 Abstract

  • 现有的步态识别任务严重依赖上游任务所使用的多种显示步态表征(剪影图、姿态图、点云…),会导致严高额标注成本以及累计错误;
  • 文章提出了BigGait框架:
    • 挖掘基于多用途知识(all-purpose knowledge)的高效步态表征;
    • GRE(Gait Representation Extractor)将步态序列图通过无监督方式转化为隐式步态特征;
    • 在大部分的self-domain和cross-domain任务上取得sota。
      [图片]

1 Introduction

  • 目前,多数步态识别的方法有以下流程:
    • 首先使用上游模型对RGB的人体步态序列进行过滤,目的是去除无关背景等的影响;
    • 其次使用一些归纳偏置对步态表征进行精炼,例如size alignment、coordinate normalization;
  • 与以往的方式不同,文章基于Large Vision Models产生的task-agnostic knowledge隐式地构建步态表征,这受启发于:
    • LVM产生的多用途特征具有强大的判别性和泛化性;
    • LVM的自监督预训练避免了对特定任务的上游模型对使用,从而需不要昂贵的数据标注成本;
    • LVM的预训练式来自于web-scale data(任务无关),避免了上游任务的错误累积。
  • 文章提出的BigGait框架主要包括以下组成部分:
    • 以DINOv2作为任务无关的上游模型;
    • 以GaitBase作为下游模型;
    • 为了链接上下游模型,将多用途特征转化为有效的步态特征,提出了GRE作为链接:
      • Mask Branch:自主推断前景信息(人体步态),过滤背景信息的影响;
      • Appearance Branch:该分支直接来自于DINOv2的特征,其会引入纹理相关的特征,这对于步态识别来说是一种噪声;
      • Denoising Branch:沿空间维度引入平滑度约束(soft constraints),以减少高频纹理特征,更好保留步态特征。
        [图片]

2 Related Work

3 Method

3.1 Overview

[图片]

  • Input:使用pad and resize将帧序列每一帧图像的大小转化为224 * 448;
  • Upstream Model:DINOv2中的冻结ViT,使用ViT-S/14 (21M) 和 ViT-L/14 (300M);
  • Central Model:GRE module将all-purpose features转化为useful gait representations;
  • Downstream Model:对GaitBase进行小改进以接受双流输入;
    在这里插入图片描述

3.2 Gait Representation Extractor

  • Mask Branch:不仅去除背景的影响,同时让前景信息足够diverse和discriminative

    • m是一个双通道特征,模型选择激活更多位于图像中心的通道作为前景遮罩;
    • 采用二值化和闭操作减少潜在的空腔和断点(前景遮罩的质量更好);
      [图片]
  • Appearance Branch:步态模型倾向于强调明显不变的步态无关线索,而不是微妙的步态模式

    • Eap:通道卷积操作
    • fap保留了外观特征,对于步态识别用处不大,因此需要去噪
  • Denoising Branch:过滤无关特征,捕捉相关特征

    • smooth-loss,索贝尔算子,用于消除明显的高频信息,例如服饰图案和明显的条纹信息:
      [图片]

    • 单纯依靠索贝尔算子会造成像素特征过于相似从而失去多样性,为解决这个问题引入了基于信息熵的额外多样性损失(信息熵减少,维持通道特征多样性):
      [图片]

3.3 Visualization of Intermediate Representation

  • gait represen- tation based on soft geometrical constraints还需要更多的物理解释
    [图片]

4 Experiments

  • self-domain:训练测试集统一
    [图片]

  • cross-domain:训练测试集不统一(步态识别数据集的跨域问题比较严重,因此模型大部分泛化性能不强)
    [图片]

  • Attention map:BigGait只关注身体,特别fde关注运动部位,且在cross-domain体现出良好的泛化性
    [图片]

  • 消融实验:

    • 不同分支的影响
      [图片]

    • 去噪分支
      [图片]

    • 更换上游模型
      [图片]

5 Challenges and Limitations

  • 挑战:
    • 可解释性:本文方法与由清晰直观的物理属性定义的传统步态表示相比可解释性不足;
    • 纯度:在直接将RGB视频作为输入的步态方法中,反复出现的挑战涉及在步行序列中有效减少与步态无关的噪音。当试图在没有明确监督的情况下在基于LVM的步态识别中保持步态特征的纯度时(即没有mask或者本文介绍的约束进行辅助的时候),这项任务变得更加艰巨。
  • 本文局限性:
    • 不同的上游LVM对BigGait的影响只是初步探讨。这个问题值得持续研究;
    • GRE模块缺乏时空设计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1516014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如果利用AOP/Aspect来修改方法的入参

问题描述: 最近项目代码过三方测试(国企项目),在一系列代码扫描审计检查下,代码发现一部分修改,例如请求参数发生了编码/加密,导致后台需要对请求的参数进行解码/解密,后端那么接口&…

【Git版本控制系统】:起步

目录 前言 版本控制 集中式与分布式的区别 Windows安装Git 核心 文件状态 工作区域 基本工作流程 配置用户信息 获取帮助 在线资源 前言 本篇文件的环境是Windows环境下实现。 在日常工作中git少不了,所以编写本篇文章介绍Git基础,专栏会不…

武汉星起航:创新驱动,共赢未来,引领跨境电商新潮流

在跨境电商这个充满挑战与机遇的领域,武汉星起航凭借其创新思维和共赢理念,正引领着行业发展的新潮流。 武汉星起航深知创新是企业在激烈竞争中立于不败之地的关键。公司始终关注市场动态,紧跟行业趋势,不断探索新的商业模式和运…

玩转 Spring 状态机:更优雅的实现订单状态流转

说起 Spring 状态机,大家很容易联想到这个状态机和设计模式中状态模式的区别是啥呢?没错,Spring 状态机就是状态模式的一种实现,在介绍 Spring 状态机之前,让我们来看看设计模式中的状态模式。 1. 状态模式 状态模式…

leetcode刷题(javaScript)——堆相关场景题总结

堆是什么?堆都能用树表示,并且一般树的实现都是利用链表。平时使用的最多的是二叉堆,它可以用完全二叉树表示,二叉堆易于存储,并且便于索引。在堆的实现时注意:因为是数组,所以父子节点的关系就…

学习SSM的记录(六)-- Spring MVC

目录 Spring MVC 简介和体验 Spring MVC原理简单解析 Spring MVC涉及的组件 Spring MVC 快速体验 Spring MVC 接收数据 访问路径设置 接收参数(重点) param和json参数比较 param参数接收 路径参数接收 json参数接收 EnableWebMvc注解 接收C…

探秘知乎的排名算法:知乎撰写高质量内容的秘诀

知乎作为一个知识问答社区,用户众多、内容繁杂,那么究竟是什么样的原则决定了知乎上的排名呢?腾轩科技传媒探讨知乎排名的规则,并分享如何撰写高质量的文章。 知乎排名的算法 在知乎这个巨大的社交平台上,任何一个用户…

DDL - 建立数据库,建表代码版(Way 2)

一、DB操作 show databases; create database DBOFRYX; drop database DBOFRYX; use DBOFRYX; 二、表操作(表和表结构、字段是A、B两姐妹) (1) use DBOFRYX; show tables; (2) create table TABOFRYX( name varchar(50) comment "姓名"…

ChatGPT提问技巧——对话提示

ChatGPT提问技巧——对话提示 对话提示是一种允许模型生成模拟两个或多个实体之间对话的文本的技术。 通过向模型提供上下文和一组角色或实体,以及他们的角色和背景,并要求模型生成他们之间的对话。 因此,应向模型提供一个上下文和一组角色…

大语言模型智能体简介

大语言模型(LLM)智能体,是一种利用大语言模型进行复杂任务执行的应用。这种智能体通过结合大语言模型与关键模块,如规划和记忆,来执行任务。构建这类智能体时,LLM充当着控制中心或“大脑”的角色&#xff0…

浏览器设置字体1px时,不能正常显示

问题如下,某版本浏览器,字体很小时,无法正常显示,解决方案有三种。 解决方案1 解决方案2 解决方案3

WebServer -- 面试题(下)

👂 夏风 - Gifty - 单曲 - 网易云音乐 目录 🌼前言 🎂面试题(下) 4)HTTP报文解析 为什么要用状态机 状态转移图画一下 https 协议为什么安全 https 的 ssl 连接过程 GET 和 POST 的区别 5)数据库注册登录 登…

十五、软考-系统架构设计师笔记-面向服务架构设计理论与实践

1、SOA相关概念 面向服务的架构(SOA)的定义 SOA 是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构…

[RoarCTF 2019]Easy Java -不会编程的崽

考察一下大家对java-web知识点的掌握 熟悉的登录界面让你想起了某位故人没有,哈哈,但是并非sql注入。一番基础尝试无果后,看看help吧 这个url让你想起某位故人了吗?对文件下载。但是似乎没有响应。改成post请求即可。 我看见pk了&…

unity3d Animal Controller的Animal组件中General基础部分理解

控制器介绍 动物脚本负责控制动物的所有运动逻辑.它管理所有的动画师和刚体参数,以及所有的状态和模式,动物可以做。 动物控制器 是一个动画框架控制器,根动或到位,为任何生物或人形。它利用刚体与物理世界的互动和动画师的玩动画。 States States 是不互相重叠的动画。例如…

canvas绘制圆形进度条

canvas绘制圆形进度条 用canvas绘制了一个圆形进度条&#xff0c;记录一下&#xff1a; 效果如下&#xff1a; 感觉效果还行&#xff0c;不过有待优化 代码如下&#xff1a; 我是用Vue写的 组件的代码&#xff1a; progressCanvas.vue <template><div><can…

Linux VM虚拟环境 设置静态IP

目录 查看自己的网卡配置说明重启网卡实例测试配置情况测试网络 查看自己的网卡 ip a配置文件 vim /etc/sysconfig/network-scripts/ifcfg-ens32配置说明 [rootlinux-server ~]# cd /etc/sysconfig/network-scripts/ #网卡配置文件存放路径 [rootlinux-server network-scri…

C/C++中{}的用法总结(全)

C基础专栏&#xff1a;http://t.csdnimg.cn/UjhPR 目录 1.定义初始化列表&#xff08;Initializer List&#xff09; 2.类成员初始化列表 3.无默认构造函数的类的默认初始化&#xff08;C11 及以后版本&#xff09; 4.初始化器列表构造函数&#xff08;C11 及以后版本&…

js判断对象是否有某个属性

前端判断后端接口是否返回某个字段的时候 <script>var obj { name: "John", age: 30 };console.log(obj.hasOwnProperty("name")); // 输出 trueconsole.log(obj.hasOwnProperty("email")); // 输出 falselet obj11 { name: "Joh…

一文搞懂多模态:BeiT-3之前的14个多模态+4个周边原理解读

在人工智能的世界里&#xff0c;多模态学习不断地展现出其重要性。这个领域的迅速发展不仅促进了不同类型数据之间的深度融合&#xff0c;还为机器理解世界提供了更加丰富和细腻的视角。随着科技的不断演进&#xff0c;人工智能模型已经开始渐渐具备处理和理解从文本、图像&…