论文1:多模态人类活动识别综述

news2024/12/26 4:04:49

论文题目:A Review of Multimodal Human Activity Recognition with Special Emphasis on Classification, Applications, Challenges and Future Directions

文献偏旧-2021

1、 专业词汇:

Human activity recognition (HAR)-人类活动识别

Wearable sensors-可穿戴传感器

2、 摘要

论文从七个合理的方面对现有工作进行了分类和讨论:

(a)HAR的应用是什么;

(b) HAR 的单模态和多模态传感是什么;

(c) HAR 有哪些不同的基于愿景的方法;

(d) 基于可穿戴传感器的系统对 HAR 有何贡献以及如何贡献;

(e) 有哪些不同的多模式 HAR 方法;

(f) 视觉和基于可穿戴惯性传感器的系统的结合如何为 HAR 做出贡献;

(g) HAR 的挑战和未来方向。

3、介绍

3.1 用于HAR监测的信息传感器:

基于视觉和非视觉传感器。

视觉传感器包括RGBD相机、红外、飞行时间、多光谱、光场、热感相机等。

非视觉传感器包括加速度计、陀螺仪、磁力计、音频信号、电热活动响应等。

非视觉和视觉方法的结合可以提高准确性

3.2 主要的监测设备和模态

  • 可穿戴惯性传感器
  • 摄像机等外部设备

 基于视觉的方法、惯性传感器和多模态方法(视觉+惯性传感器)

3.3 HAR的应用场景

在游戏、人机交互、康复、运动、健康监测、视频监控和机器人等各种任务中有着重要的应用

3.4 HAR的挑战

  • 由于人类和多人交互所形成的复杂姿势,HAR 具有挑战性。 
  • 场景中常见的各种伪影(例如照明变化、杂乱、遮挡、背景多样性)进一步增加了 HAR 的复杂性。 

4、基于视觉的方法的HAR

4.1  常规的RGB摄像头

 4.2 视频动作识别

识别(recognizing)视频中人类动作的任务称为视频动作识别。

4.2.1数据集

4.2.2 手工提取特征

不足:手工制作的基于特征的方法由于计算成本高、需要领域专业知识[以及难以扩展和部署[56]而受到影响。

4.2.3 循环神经网络

主要的网络结构:CNN + LSTM(GRU)

4.2.4 深度 CNN 架构

主要网络结构:双流网络

代表论文:K. Simonyan, A. Zisserman, Two-stream convolutional networks for action recognition in videos, arXiv preprint arXiv:1406.2199 (2014).

4.3 带有 RGB-D 传感器的 HAR

深度图像:深度信息能够更好地处理照明变化和保护隐私 .

论文:S. Park, J. Park, M. Al-Masni, M. Al-Antari, M. Z. Uddin, T. Kim, A depth camera-based
human activity recognition via deep learning recurrent neural network for health and social
care services, Procedia Computer Science 100 (100) (2016) 78–84.

论文:X. Zhang, C. Xu, X. Tian, D. Tao, Graph edge convolutional neural networks for skeleton-
based action recognition, IEEE transactions on neural networks and learning systems (2019).

4.4  基于点云的 3D HAR

点云是一种由大量点集合组成的 3D 数据格式,可以准确感知场景的几何信息,同时对不同的照明条件具有鲁棒性。

5、基于可穿戴设备的HAR

5.1 可穿戴设备

据估计,到 2025 年,可穿戴设备的数量将达到约 30 亿台。

重点:惯性传感器(IMU)

5.2 基于可穿戴惯性传感器的 HAR

惯性传感器在人体上的放置在 HAR 中也发挥着重要作用 。大多数情况下,放置在腰部的惯性传感器可以提供更好的精度。

传统方法的不足:传统的 HAR 方法基于浅层手工特征,其中包括平均值、方差、幅度和频率等统计信息 。 这些算法对于站立、坐着、行走等低级活动表现良好,但在上下文感知和细粒度活动的情况下会失败。

A. Murad, J.-Y. Pyun, Deep recurrent neural networks for human activity recognition, Sensors
17 (11) (2017) 2556.--使用了 CNN 和 RNN

5.3  基于鞋类的 HAR

5.4 基于自我中心相机的可穿戴 HAR

5.4.1  以自我为中心的HAR

数据集:

苏达卡兰等人。 [232, 233] 提出了长短期注意力(LSTA),它由具有软注意力的 LSTM 模型组成,用于基于自我中心视频的 HAR。

5.4.2 未来活动预测

6  多模态HAR

本节介绍结合视觉和可穿戴惯性传感器的多模式 HAR 方法。

6.1 概述(Overview)

数据同步和预处理:准确的时间同步对于融合来自不同模式的传感器数据是必需的。

动作分割(检测动作开始和结束)

特征提取:深度和惯性传感器的文献研究了从原始传感器数据到高特征描述符的各种特征提取技术。 例如,[277 通过融合来自 Kinect 和惯性传感器的数据提出了手势识别框架。

分类和融合方法:融合来自不同模态传感器的信息有多种方法,一般来说,最常见的方法是数据级、特征级和决策级融合[281]。 数据级融合发生在来自不同传感器的原始数据被组合时,特征级融合发生在从原始数据中提取特征之后进行融合,决策级融合发生在融合从分类器或决策者获得的决策。

6.2 多模态融合方法

早期融合,或特征级融合:在早期融合方法中,通过降维和创建新的特征向量来组合不同模态传感器的特征。

与早期融合方法相比,该方法分割每个模态传感器的数据,分别学习每个模态的参数,并组合它们的概率模型。

论文[10]报告了基于 CNN 的多模态 HAR 传感器融合技术的比较,他们研究了四种融合多模态数据的方法。

[10]S. M¨unzner, P. Schmidt, A. Reiss, M. Hanselmann, R. Stiefelhagen, R. D¨urichen, Cnn-based
sensor fusion techniques for multimodal human activity recognition, in: Proceedings of the
2017 ACM International Symposium on Wearable Computers, 2017, pp. 158–165.

6.3 相关工作

6.3.1  深度信息和惯性传感器的融合

决策级融合则使用 Dempster-Shafer 理论

数据集:对于结合使用视觉和可穿戴传感器的多模式 HAR,公开可用的数据集非常有限 [137,269,297]。 公开的 UTD-MHAD [137] 数据集由 4 种时间同步的数据模式组成,包括 RGB 视频、深度视频、骨架位置和惯性传感器信号。 该数据集由 8 名受试者使用 Kinect 深度传感器摄像头和由加速计和旋转传感器组成的可穿戴惯性传感器收集,涵盖 27 项人类活动 [137]。

6.3.2 普通RGB相机与惯性传感器的融合

与其中之一相比,摄像机和惯性传感器的组合提高了识别性能。

6.3.3 多个可穿戴传感器的融合

6.3.4  基于深度学习的多模态 HAR

 蒙兹纳等人解决了用于活动识别的深度学习方法的 3 个关键方面,

S. M¨unzner, P. Schmidt, A. Reiss, M. Hanselmann, R. Stiefelhagen, R. D¨urichen, Cnn-based
sensor fusion techniques for multimodal human activity recognition, in: Proceedings of the
2017 ACM International Symposium on Wearable Computers, 2017, pp. 158–165.

 1. 数据特定标准化,

2. 多模态传感器的最佳融合,

3. 方法相对于可用数据的鲁棒性。

根据[322],CNN 更适合步行和跑步等周期性活动,而 RNN 更适合手势等短期活动。->设计一个并行的多模型特征提取器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1905839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Open3D 计算点云的马氏距离

目录 一、概述 1.1原理 1.2应用 二、代码实现 三、实现效果 3.1原始点云 3.2计算后点云 一、概述 1.1原理 马氏距离(Mahalanobis Distance)是一种度量多维数据点与数据分布中心之间距离的方法。与欧几里得距离不同,马氏距离考虑了数据…

树目标、抓过程、要结果

一个好的管理理念不会因为一两个成功案例而发扬,一定是有无数个案例验证了它的价值所在,既然OKR在国外已经取得成功,那么国内依然如此。那么OKR这么成功,它到底好在哪呢? 一、OKR是连接企业战略和落地执行的最佳方式。…

C嘎嘎:类和对象(上)

目录 面向过程和面向对象的初步认识 类的引入 类的定义 类的访问限定符及封装 访问限定符 封装 类的作用域 类的实例化 类对象模型 如何计算类对象大小 结构体内存对齐规则 this指针 this指针的引出 this指针的特性 面向过程和面向对象的初步认识 C语言是面向过程…

CentOS 6.5配置国内在线yum源和制作openssh 9.8p1 rpm包 —— 筑梦之路

CentOS 6.5比较古老的版本了&#xff0c;而还是有一些古老的项目仍然在使用。 环境说明 1. 更换国内在线yum源 CentOS 6 在线可用yum源配置——筑梦之路_centos6可用yum源-CSDN博客 cat > CentOS-163.repo << EOF [base] nameCentOS-$releasever - Base - 163.com …

尚品汇-(十二)

&#xff08;1&#xff09;数据库表结构 根据以上的需求&#xff0c;以此将SKU关联的数据库表结构设计为如下&#xff1a; base_attr_value&#xff1a;前面学的平台属性值表 我们进行关联&#xff0c;可以从分类导向平台&#xff0c;通过平台过滤商品 &#xff08;2&#xf…

利用亚马逊云科技云原生Serverless代码托管服务开发OpenAI ChatGPT-4o应用

今天小李哥继续介绍国际上主流云计算平台亚马逊云科技AWS上的热门生成式AI应用开发架构。上次小李哥分享​了利用谷歌云serverless代码托管服务Cloud Functions构建Gemini Pro API​&#xff0c;这次我将介绍如何利用亚马逊的云原生服务Lambda调用OpenAI的最新模型ChatGPT 4o。…

【NTN 卫星通信】Starlink基于终端用户的测量以及测试概述

1 概述 收集了一些starlink的资料&#xff0c;是基于终端侧部署在野外的一些测试以及测量结果。 2 低地球轨道卫星网络概述 低地球轨道卫星网络(lsn)被认为是即将到来的6G中真正实现全球覆盖的关键基础设施。本文介绍了我们对Starlink端到端网络特征的初步测量结果和观测结果&…

基于YOLOv9的脑肿瘤区域检测

数据集 脑肿瘤区域检测&#xff0c;我们直接采用kaggle公开数据集&#xff0c;Br35H 数据中已对医学图像中脑肿瘤位置进行标注 数据集我已经按照YOLO格式配置好&#xff0c;数据内容如下 数据集中共包含700张图像&#xff0c;其中训练集500张&#xff0c;验证集200张 模型训…

DHCP与TCP的简单解析

目录 一、DHCP 1.1 DHCP概述 1.2 DHCP的优势 1.3 DHCP的模式与分配方式***** 1.3.1 DHCP的模式&#xff1a;C/S模式&#xff08;客户机与服务器模式&#xff09; 1.3.2 DHCP的分配方式 1.4 DHCP的租约过程及原理 1.4.1 DHCP的工作原理***** 1.4.2 更新租约原理***** …

D - Go Stone Puzzle(abc361)

分析&#xff1a;因为n很小&#xff0c;可以逐一搜索&#xff0c;用一个队列将每种情况列出来&#xff0c;用bfs寻找从s到t的最短路径 #include <bits/stdc.h> using namespace std; int n; string s, t; map<string, int> dis; void bfs() { dis[s] 0; …

加密与安全_常见的分组密码 ECB、CBC、CFB、OFB模式介绍

文章目录 Pre概述why分组密码和流密码的基本概念什么是模式分组密码的常见模式1. ECB 模式&#xff08;电子密码本模式&#xff09;2. CBC 模式&#xff08;密文分组链接模式&#xff09;3. CFB 模式&#xff08;密文反馈模式&#xff09;4. OFB 模式&#xff08;输出反馈模式&…

MySQL安装时initializing database失败

问题页面&#xff1a; 解决方法&#xff1a; 1.勾选红框中的选项&#xff1a; 2.将下图红框中全部改为英文&#xff1a; 然后一路next就可以了。

VRay渲染有什么技巧?渲染100邀请码1a12

渲染是视觉行业非常重要的一环&#xff0c;没有渲染就没有效果图&#xff0c;常用的渲染器有Vray&#xff0c;而Vray渲染有很多技巧&#xff0c;可以让渲染更快更省&#xff0c;下面我们总结下。 1、删除无用对象 检查场景&#xff0c;看是否有一些不需要渲染的物体和灯光&am…

读人工智能全传06逻辑编程

1. 现代逻辑 1.1. 到了20世纪初&#xff0c;现代逻辑的基本框架已经大致建立起来&#xff0c;当时确立的逻辑运算系统&#xff0c;直至如今仍然能够支撑数学家几乎所有的逻辑推理工作 1.1.1. 这个系统被称为一阶逻辑&#xff0c;一阶逻辑是数学和推理的通用语言 1.1.2. 这个…

BaseServlet的封装

创建BaseServlet的必要性 如果不创建BaseServlet&#xff0c;现在我们只要实现一个功能&#xff0c;我们就需要创建一个servlet! 例如:用户模块(登录&#xff0c;注册&#xff0c;退出录&#xff0c;激活&#xff0c;发送邮件等等功能) 也就是说&#xff0c;我们必须要创建一…

工程化-vue3+ts:代码检测工具 ESLint

一、理解ESLint ESLint是一个开源的JavaScript代码检查工具&#xff0c;用于帮助开发人员规范和统一编码风格。它可以检查代码中的潜在错误、不一致的编码习惯以及一些常见的代码问题。 ESLint使用基于规则的插件体系&#xff0c;可以根据项目的需求和个人的偏好配置不同的规…

数学系C++ 类与对象 STL(九)

目录 目录 面向对象&#xff1a;py&#xff0c;c艹&#xff0c;Java都是,但c是面向过程 特征&#xff1a; 对象 内敛成员函数【是啥】&#xff1a; 构造函数和析构函数 构造函数 复制构造函数/拷贝构造函数&#xff1a; 【……】 实参与形参的传递方式&#xff1a;值…

git杂记

git 安装&#xff1a; 在 Windows 上安装 Git 也有几种安装方法。 官方版本可以在 Git 官方网站下载。 打开 https://git-scm.com/download/win&#xff0c;下载会自动开始。 要注意这是一个名为 Git for Windows 的项目&#xff08;也叫做 msysGit&#xff09;&#xff0c;和…

如何优化 PostgreSQL 中对于树形结构数据的查询?

文章目录 一、数据模型选择&#xff08;一&#xff09;邻接表模型&#xff08;二&#xff09;路径枚举模型&#xff08;三&#xff09;嵌套集模型 二、索引策略&#xff08;一&#xff09;对于邻接表模型&#xff08;二&#xff09;对于路径枚举模型&#xff08;三&#xff09;…

基于pi控制的数字锁相环simulink建模与仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 matlab2022a 3.部分核心程序 &#xff08;完整版代码包含详细中文注释和操作步骤视频&#xff09…