第十七周周报

news2024/9/22 12:28:10

文章目录

  • 摘要
  • 目标检测
    • 锚框
    • 交并比
    • NMS 非极大值抑制输出
  • 文献阅读:SMPL: A Skinned Multi-Person Linear Model
    • Introduction
    • Related Work
    • Model Formulation
    • Training
    • 评估
    • 动态SMPL
    • 讨论
    • 结论
  • 总结

摘要

本周看了三维人体重建的领域,看了一篇SMPL的文章:A Skinned Multi-Person Linear Model,提出的一种人体建模方法,该方法可以进行任意的人体建模和动画驱动。模型的参数从数据中学习,包括静止姿势模板、混合权重、姿势相关的混合变形、身份相关的混合变形以及从顶点到关节位置的回归。与以前的模型不同,姿势相关的混合变形是姿势旋转矩阵元素的线性函数。

This week, I explored the field of three-dimensional human body reconstruction and read an article on SMPL (Skinned Multi-Person Linear Model) titled “A Skinned Multi-Person Linear Model.” The article proposes a method for human body modeling that allows for arbitrary body modeling and animation driving. The model parameters are learned from data, including static pose templates, blend weights, pose-dependent blend shapes, identity-dependent blend shapes, and regression from vertices to joint positions. Unlike previous models, the pose-dependent blend shapes are linear functions of pose rotation matrix elements.

目标检测

边缘框与坐标轴有点区别:y轴有点区别
左上右下的点来定义
物体识别和目标识别的数据集通常比分类数据集小很多,因为标注的成本很高。
听李沐的课,有一节讲到,自动驾驶的,除了特斯拉是用的纯摄像头完成的

锚框

一类目标检测算法
提出多个被称为锚框的区域
预测每个锚框是否含有关注的物体
如果是,预测从这个锚框到真实边缘框的偏移

在这里插入图片描述以同一像素为中心的锚框的数量是 n + m − 1 n+m-1 n+m1
对于整个输入图像,将共生成 w h ( n + m − 1 ) wh(n+m-1) wh(n+m1)个锚框。

交并比

在这里插入图片描述
在这里插入图片描述
比较两个框之间的相似度

NMS 非极大值抑制输出

step1:先将所有的边界框按照类别进行区分;
step2:把每个类别中的边界框,按照置信度从高到低进行降序排列;
step3:选择某类别所有边界框中置信度最高的边界框bbox1,然后从该类别的所有边界框列表中将该置信度最高的边界框bbox1移除并同时添加到输出列表中;
step4:依次计算该bbox1和该类别边界框列表中剩余的bbox计算IOU;
step5:将IOU与NMS预设阈值Thre进行比较,若某bbox与bbox1的IOU大于Thre,即视为bbox1的“邻域”,则在该类别边界框列表中移除该bbox,即去除冗余边界框;
step6:重复step3~step5,直至该类别的所有边界框列表为空,此时即为完成了一个物体类别的遍历;
step7:重复step2~step6,依次完成所有物体类别的NMS后处理过程;
step8:输出列表即为想要输出的检测框,NMS流程结束。

文献阅读:SMPL: A Skinned Multi-Person Linear Model

SMPL模型是一种参数化人体模型,是马普所提出的一种人体建模方法,该方法可以进行任意的人体建模和动画驱动。这种方法与传统的LBS的最大的不同在于其提出的人体姿态影像体表形貌的方法,这种方法可以模拟人的肌肉在肢体运动过程中的凸起和凹陷。因此可以避免人体在运动过程中的表面失真,可以精准的刻画人的肌肉拉伸以及收缩运动的形貌。

作者提出了一种学习人体形状和位置依赖的形状变化模型,模型的参数从数据中学习,包括静止姿势模板、混合权重、姿势相关的混合变形、身份相关的混合变形以及从顶点到关节位置的回归。与以前的模型不同,姿势相关的混合变形是姿势旋转矩阵元素的线性函数。这个简单的公式能够从相对大量的不同姿势的不同人的对齐3D网格中训练整个模型。

Introduction

1)目标是自动学习一个既逼真又与现有图形软件兼容的人体模型。为此,作者描述了一个“皮肤多人线性”(SMPL)人体模型,它可以真实地表示各种人体形状,可以设置姿势相关的自然变形,展示软组织动力学,高效的动画,并与现有的渲染引擎兼容。
2)PCA(主成分分析)法学习男性和女性体型的线性模型。方法分为两步:
对于每一个扫描和姿态注册一个模板mesh
使用PCA,得到的主成分就是身体混合形状(body shape blend shapes)
3)基于顶点的蒙皮模型(如SMPL)实际上比基于变形的模型(如BlendSCAPE)在相同数据上训练的精度更高。

Related Work

在这里插入图片描述

Blend Skinning(混合蒙皮)
骨架子空间变形方法,也称为混合蒙皮,将网格的曲面附加到底层骨架结构。网格曲面中的每个顶点都使用其相邻骨骼的加权影响进行变换。该影响可以像在线性混合蒙皮(LBS)中那样线性定义。LBS的问题已经被广泛发表,文献中有很多试图解决这些问题的通用方法,例如四元数或双四元数蒙皮、球形蒙皮等。

Blend shapes (混合变形)
作者采取了一种更类似于加权姿势空间变形(WPSD)的方法,它定义静止姿势中的校正,然后应用标准蒙皮方程(例如LBS)。其思想是为特定关键姿势定义校正形状(雕刻),以便在添加到基础形状并通过混合蒙皮变换时,生成正确的形状。

Learning pose and shape models(学习姿势和形状模型。)
作者想要的是一个基于顶点的模型,它具有三角形变形模型的表现力,这样它就可以捕捉到一系列自然的形状和姿势。

形状参数(β \betaβ)
一组形状参数有着10个维度的数值去描述一个人的形状,每一个维度的值都可以解释为人体形状的某个指标,比如高矮,胖瘦等

姿态参数(θ \thetaθ)
一组姿态参数有着24 × 3 24\times324×3维度的数字,去描述某个时刻人体的动作姿态,其中的24 2424表示的是24 2424个定义好的人体关节点,其中的3 33并不是如同识别问题里面定义的( x , y , z ) (x,y,z)(x,y,z)空间位置坐标(location),而是指的是该节点针对于其父节点的旋转角度的轴角式表达(axis-angle representation)(对于这24 2424个节点,作者定义了一组关节点树)

Model Formulation

在这里插入图片描述

(1)模板网格,其混合权重由颜色指示,关节显示为白色。
(2)仅具有身份驱动的混合形状贡献;顶点和关节位置在形状向 β中是线性的。
(3) 在准备分割姿势时添加了姿势混合变形;请注意臀部的扩展。
(4)由分割姿势的双四元数蒙皮放置的变形顶点。

Training

一个3D人体mesh由6890个网格顶点和23个关节点组成:
N = 6890 N=6890N=6890,3D人体mesh的网格顶点总数。
K = 23 K=23K=23,3D人体mesh的关节点总数。
同时,作者指出,SMPL将3D人体mesh的状态分为shapepose
shape影响人体mesh的形状(高矮胖瘦)
pose影响人体mesh的姿态(动作姿势)
因为是在三维空间,一个点有三个坐标(x , y , z),一个标准3D人体mesh的6890个mesh顶点可表示为:

T T T,一个 6890 × 3 6890\times36890×3 的矩阵。注意,这个矩阵是常数值(对于单独一种性别的mesh来说)
同理,一个标准3D人体mesh的23个关节点可表示为:

J J J,一个 24 × 3 24\times324×3 的矩阵,23个关节点+1个root orientation。注意,这个矩阵是常数值(对于单独一种性别的mesh来说)
另外,还有blend weight,也就是每一个关节点的坐标变化对每一个mesh顶点坐标变化的影响:

W W W,一个6890 × 24 6890\times246890×24的矩阵。注意,这个矩阵的值需要训练得到
接下来,文章作者定义了影响shape和 pose的两组参数:
shape,影响高矮胖瘦:β,10个参数,值在-1到1之间
pose,影响动作姿势:θ,72个参数,后69个值在-1到1之间,3*23 + 3,影响23个关节点+1个root orientation的旋转。前三个控制root orientation,后面每连续三个控制一个关节点
这10+72个参数,便是以一个标准3D人体mesh为基础,生成不同shape、不同pose的3D人体mesh所需要的参数。

在这里插入图片描述

如上图,(a)是一个标准3D人体mesh,也就是由 T、J 生成,而颜色代表 W
(b),是改变了shape后的3D人体mesh,也就是由T、J ,外加β \betaβ的影响生成
©,是改变了shape和pose后的3D人体mesh,也就是由T、J,外加 β 、θ 的影响生成
(d),是在C的基础上,加入了 W 的影响后的结果。

评估

在这里插入图片描述
我们评估了SMPL-LBS和SMPL-DQBS。我们还将其与根据与SMPL模型实际相同的数据训练的BlendSCAPE模型进行了比较。我们评估两种类型的错误。模型泛化是模型适应新人物和新姿势的网格的能力;这将测试形状和姿势混合形状。姿势泛化是将一个人的形状泛化为同一个人的新姿势的能力;这主要测试姿势混合形状校正蒙皮伪影和姿势相关变形的效果。两者都是通过模型和测试注册之间的平均绝对顶点到顶点距离来测量的。在这项评估中,我们使用了来自公共Dyna数据集[Dyn 2015]的四名女性和两名男性的120个注册网格。这些网格包含各种身体形状和姿势。
所有网格都与我们的模板对齐,没有一个用于训练我们的模型。图10(灰色)显示了这些注册网格的四个示例。
在这里插入图片描述

曲线图还显示了标准LBS与测试数据的拟合程度。
这对应于没有姿势混合形状的SMPL-LBS模型。毫不奇怪,LBS产生的误差比BlendSCAPE或SMPL高得多。LBS在图中并没有那么糟糕。11是因为这里的模型可以改变体型参数,有效地利用身份的变化来解释由于姿势引起的变形。图12使用了一个固定的身体形状,从而说明了LBS如何不真实地建模与姿势相关的变形。请注意,这里我们没有专门针对LBS重新训练模型,并期望这样的模型会稍微更准确。

与渲染引擎相比较
在这里插入图片描述
SMPL和BlendSCAPE的性能随着所使用的体型系数的数量而变化。此处显示的性能来自2014款Macbook Pro。
我们已经在Maya、Unity和Blender中测试了动画FBX文件。在给定姿势的情况下,姿势混合权重也可以在飞行中计算~✓t、 为了实现这一点,我们提供了获取关节角度并计算姿势混合权重的脚本。我们已经在Maya 2013、2014和2015中测试了SMPL的加载和动画设置。动画师可以设置t的动画。

动态SMPL

虽然SMPL用姿势来模拟静态软组织变形,但它不模拟由于身体移动和与地面的冲击力而发生的动态变形。给定包含软组织动力学的4D配准,我们通过仅优化具有个性化模板形状的SMPL模型的姿态来拟合它们。SMPL和观察到的网格之间的错位对应于动态软组织运动。为了对这些进行建模,我们引入了一组新的添加混合形状,我们称之为动态混合形状。

讨论

在这里,我们使用了数千个高质量的注册模板网格。
重要的是,姿势训练数据涵盖了一系列体型,使我们能够很好地预测关节位置。其次,训练所有参数(模板形状、混合权重、关节回归器、形状/姿势/动态混合形状)以最大限度地减少顶点重建误差对于获得良好的模型很重要。在这里,模型的简单性是一个优势,因为它可以用大量数据训练每一件事。SMPL是顶点空间中的一个加性模型。相反,虽然SCAPE也将变形分解为形状和姿势变形,但SCAPE会将三角形变形相乘。

SMPL使用207个姿势混合形状。这可能会通过对混合形状执行PCA来减少。这将减少乘法运算的次数,从而提高运算速度。此外,我们的动态模型使用PCA来学习动态混合形状,但我们可以像学习姿势混合形状一样直接学习这些混合形状的元素。最后,在这里,我们将我们的模型拟合到注册的网格,但可以将SMPL拟合到mocap标记数据、深度数据或视频。我们预计,优化SMPL-LBS模型的姿态和形状将比优化类似质量的SCAPE模型快得多

结论

作者的目标是创建一个骨骼驱动的人体模型,该模型可以捕捉体型和姿势的变化,以及或优于以前最好的模型,同时与现有的图形管道和软件兼容。为此,SMPL使用标准蒙皮方程并定义修改基础网格的身体形状和姿势混合形状。作者对不同姿势的不同人群进行数千次对齐扫描,以训练模型。该模型的形式使得可以从大量数据中学习参数,同时直接最小化顶点重建误差。具体来说,作者学习休息模板、关节回归器、体型模型、姿势混合形状和动态混合形状。令人惊讶的结果是,当在完全相同的数据上训练BlendSCAPE和SMPL时,基于顶点的模型比基于变形的模型更准确,渲染效率也高得多。

总结

人体可以理解为是一个基础模型和在该模型基础上进行形变的总和,在形变基础上进行PCA,得到刻画形状的低维参数——形状参数(shape);同时,使用运动树表示人体的姿势,即运动树每个关节点和父节点的旋转关系,该关系可以表示为三维向量,最终每个关节点的局部旋转向量构成了smpl模型的姿势参数(pose)。考虑到与目前的市面上的渲染器,SMPL模型使用得较多。总结:三维参数化人体模型被广泛使用,它是估计人体三维姿态和形状的有力先验。其主要思想是通过低维参数对三维人体(包括脸、手和身体)的变形进行建模 。

数据集:
ICCV 2023 | SynBody:用于三维人体感知和建模的基于分层人体模型的合成数据集
SynBody的核心是一个分层的参数化人体模型
CAESAR dataset
Dyna dataset

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1381297.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++算法学习心得五.二叉树(4)

1.二叉搜索树中的插入操作(701题) 题目描述:给定二叉搜索树(BST)的根节点和要插入树中的值,将值插入二叉搜索树。 返回插入后二叉搜索树的根节点。 输入数据保证,新值和原始二叉搜索树中的任意…

Go 知多少?

作为一名已接触过其他语言的开发,再去学习一门新语言可比之前轻松不少, 语言之间存在很多相似点,但是新语言也有自己的不同点,通常我会先了解它与其他语言常遇到的不同点有哪些, 使自己先能够上手编写基础程序&#…

【LabVIEW FPGA入门】LabVIEW FPGA实现I2S解码器

该示例演示了如何使用 LabVIEW FPGA 解码 IS 信号。该代码可用于大多数支持高速数字输入的LabVIEW FPGA 目标(例如R 系列、CompactRIO)。IS 用于对系统和组件内的数字音频数据进行编码。例如,MP3 播放器或 DVD 播放器内部的数字音频通常使用 …

【b站咸虾米】新课uniapp零基础入门到项目打包(微信小程序/H5/vue/安卓apk)全掌握

课程地址:【新课uniapp零基础入门到项目打包(微信小程序/H5/vue/安卓apk)全掌握】 https://www.bilibili.com/video/BV1mT411K7nW/?p12&share_sourcecopy_web&vd_sourceb1cb921b73fe3808550eaf2224d1c155 三、vue语法 继续回到官…

飞桨分子动力学模拟-论文复现第六期:复现TorchMD

飞桨分子动力学模拟-论文复现第六期:复现TorchMD Paddle for MD 飞桨分子动力学模拟科学计算 复现论文-TorchMD: A deep learning framework for molecular simulations 本项目可在AIStudio一键运行:飞桨分子动力学模拟PaddleMD-复现TorchMD 【论文复…

浅析三种Anaconda虚拟环境创建方式和第三方包的安装

目录 引言 一、Anaconda虚拟环境创建方式 1. 使用conda命令创建虚拟环境 2. 使用conda-forge创建虚拟环境 3. 使用Miniconda创建虚拟环境 二、第三方包的安装和管理 1. 使用 pip 安装包: 2. 使用 conda 安装包: 三、结论与建议 引言 在当今的数…

Ceph入门到精通-通过 CloudBerry Explorer 管理对象bucket

简介 CloudBerry Explorer 是一款可用于管理对象存储(Cloud Object Storage,COS)的客户端工具。通过 CloudBerry Explorer 可实现将 COS 挂载在 Windows 等操作系统上,方便用户访问、移动和管理 COS 文件。 支持系统 支持 Wind…

【ceph】在虚拟环境中需要给osd所在的虚拟盘扩容操作

本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》:python零基础入门学习 《python运维脚本》: python运维脚本实践 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8…

力扣每日一练(24-1-13)

如果用列表生成式,可以满足输出的型式,但是不满足题意: nums[:] [i for i in nums if i ! val]return len(nums) 题意要求是: 你需要原地修改数组,并且只使用O(1)的额外空间。这意味着我们不能创建新的列表&#xff…

2024年 13款 Linux 最强视频播放器

Linux视频播放器选择多样,如榛名、MPlayer、VLC等,功能强大、支持多格式,满足各类用户需求 Linux有许多非常强大的播放器,与windows最强视频播放器相比,几乎丝毫不逊色! 一、榛名视频播放器 榛名视频播放…

Java副本的概念

在Java中,"副本"(copy)一词可以用于描述不同的概念,具体取决于上下文。以下是两个常见的用法: 对象的副本:在Java中,当你创建一个对象并将其赋值给另一个变量时,实际上是创…

遥感影像-语义分割数据集:高分卫星-云数据集详细介绍及训练样本处理流程

原始数据集详情 简介:该云数据集包括RGB三通道的高分辨率图像,包含高分一、高分二及宽幅数据集。 KeyValue卫星类型高分系列覆盖区域未知场景未知分辨率1m、2m、8m数量12000单张尺寸1024*1024原始影像位深8位标签图片位深8位原始影像通道数三通道标签图…

Nightingale 夜莺监控系统 - 部署篇(1)

Author:rab 官方文档:https://flashcat.cloud/docs 目录 一、概述二、架构2.1 中心机房架构2.2 边缘下沉式混杂架构 三、环境四、部署4.1 中心机房架构部署4.1.1 MySQL4.1.2 Redis4.1.3 Prometheus4.1.4 n9e4.1.5 Categraf4.1.6 验证4.1.7 配置数据源 4…

突然又对 Go 感兴趣,GOPATH entry cannot start with shell metacharacter 错误

打发无聊时间,水文一篇~ 事情是这样的,因为我们上架的渠道包基本是定制化混淆出包, 混淆出包有一个关键点就是指定映射文件,映射文件的内容有一部分是使用外部工具在打包前按照一定规律随机生成包名、类名&#xff0c…

flutter使用get库管理路由,并设页面跳转动画和常见动画

get库还是非常强大的一个仓库,里面包含了非常常用的一些方法,比如路由管理,这是最常见和最常用的一个功能了,我们可以先配置一个路由对象,然后在里面配置路由列表,并且设置路由跳转方式。 第一种方式&…

vue3-计算属性

计算属性 模板中的表达式虽然方便&#xff0c;但也只能用来做简单的操作。如果在模板中写太多逻辑&#xff0c;会让模板变得臃肿&#xff0c;难以维护。 根据作者今年是否看过书展示不同信息 <script lang"ts" setup> import { ref, reactive } from "…

java实现局域网内视频投屏播放(五)视频搜索和投屏自动切换下一个

代码链接 这次对ui做了一些调整&#xff0c;整体分成了5个类别分别为 搜索设备播放任务已下载视频列表视频搜索下载任务列表 视频搜索 搜索 点击搜索后&#xff0c;会从执行所有VideoResolver实现类的search方法&#xff0c;将搜索到的结果汇总到一起&#xff0c;根据视频的…

设计模式⑤ :一致性

一、前言 有时候不想动脑子&#xff0c;就懒得看源码又不像浪费时间所以会看看书&#xff0c;但是又记不住&#xff0c;所以决定开始写"抄书"系列。本系列大部分内容都是来源于《 图解设计模式》&#xff08;【日】结城浩 著&#xff09;。该系列文章可随意转载。 …

node-sass@4.7.2 postinstall: `node scripts/build.js`

Can‘t find Python executable “D:\Python36\python.EXE“, you can set the PYTHON env variable.-CSDN博客 gyp ERR! build error gyp ERR! stack Error: C:\Windows\Microsoft.NET\Framework\v4.0.30319\msbuild.exe failed with exit code: 1 gyp ERR! stack at Chil…

【DDR】基于Verilog的DDR控制器的简单实现(一)——初始化

在FPGA中&#xff0c;大规模数据的存储常常会用到DDR。为了方便用户使用&#xff0c;Xilinx提供了DDR MIG IP核&#xff0c;用户能够通过AXI接口进行DDR的读写访问&#xff0c;然而MIG内部自动实现了许多环节&#xff0c;不利于用户深入理解DDR的底层逻辑。 本文以美光(Micro…