论文作者:Rohan Choudhury,Kris Kitani,Laszlo A. Jeni
作者单位:Carnegie Mellon University
论文链接:http://arxiv.org/abs/2309.07910v1
内容简介:
1)方向:多视角姿势估计模型
2)应用:人体姿势估计和跟踪
3)背景:现有的三维人体姿势估计方法准确,但计算量大且针对单个时间步长进行优化。
4)方法:本文提出了TEMPO,一种高效的多视角姿势估计模型,学习了稳健的时空表示,提高了姿势准确性,并能够跟踪和预测人体姿势。通过逐人计算二维姿势特征,将空间和时间信息融合为单一表示,从而显著减少了计算量。利用这种表示,模型能够利用时空上下文来预测更准确的人体姿势,同时保持高效性。还利用这种表示来跟踪人体姿势并预测未来的姿势。
5)结果:在具有挑战性的CMU Panoptic Studio数据集上,与TesseTrack相比,TEMPO在MPJPE上实现了10%的改进,并且FPS提高了33倍,同时在不进行场景特定微调的情况下能够在不同数据集上泛化。