2025 年“泰迪杯”数据挖掘挑战赛B题——基于穿戴装备的身体活动监测问题分析

摘要

本文聚焦于基于穿戴设备采集的加速度计数据，深入研究志愿者在日常活动中的行为特征，构建了多个数学建模框架，实现从身体活动监测、能耗预测、睡眠阶段识别到久坐预警等多个目标。我们依托于多源数据融合与机器学习模型，对人体活动状态进行识别与分析，为健康管理、行为干预和个性化医疗提供理论支持和模型工具。
针对问题一：问题一旨在通过加速度数据对志愿者的行为类型进行分类统计，建立活动识别与时间累计模型。我们首先依据MET（代谢当量）值的分级标准，将原始标注信息映射为五类活动状态，并统计每位志愿者在各类活动下的累计时长。通过正则表达式提取有效信息、异常数据过滤与时间累积计算，构建了行为分类与时间统计模型。结果显示，志愿者在各活动状态上的时间分布具有明显个体差异，为后续健康分析提供了初步依据。
针对问题二：问题二围绕MET值的实时预测展开，构建了以滑动窗口为基础的机器学习回归模型。我们融合统计学特征提取与个体属性信息（性别、年龄），使用随机森林回归与梯度提升树（GBDT）对窗口级活动强度进行建模与预测。模型评估中，GBDT表现出更高的预测精度，特别是在低强度（睡眠/静态）阶段的拟合效果上优于RF。预测结果被用于活动强度分类，并统计20位志愿者的运动结构，验证了模型在实际应用中的有效性与泛化能力。
针对问题三：问题三为无监督聚类建模，旨在识别志愿者夜间的睡眠阶段分布。我们提取睡眠相关加速度特征，如静止率、合加速度能量等，结合滑动窗口策略，使用K-Means与DBSCAN聚类算法对睡眠状态进行分层划分。K-Means能够初步划分清晰阶段，而DBSCAN在识别异常段和过渡状态方面更具优势。最终统计每位志愿者的深度睡眠、浅睡眠与觉醒时长，展示其夜间睡眠结构，为评估个体睡眠质量与节律提供模型基础。
针对问题四：问题四聚焦于久坐行为的识别与健康预警机制构建。基于预测得到的MET值与静态加速度特征，我们通过构建滑窗级“静态行为”标签序列，识别并合并符合30分钟以上标准的“久坐段”。进一步依据累积时长与单段时长判断健康风险等级，划分“安全”“一般提醒”“高风险”三级预警输出，并对20位志愿者的数据进行应用分析。结果显示，多数志愿者存在高风险久坐行为，模型能够有效识别潜在健康隐患。
综上所述，本文围绕加速度数据在健康行为建模中的多维应用，提出了完整的行为识别、能耗预测、睡眠划分与久坐预警模型。我们综合运用了正则匹配、统计特征提取、随机森林、GBDT、K-Means、DBSCAN等算法与方法，全面展示了穿戴设备数据在人体健康建模领域的应用潜力。这些模型不仅揭示了个体间的行为差异，也为智能健康管理系统的设计提供了理论依据与实证支撑。
关键词：MET（代谢当量）值；随机森林；GBDT；K-Means；DBSCAN

一、引言

在可穿戴健康监测研究领域[1] ，加速度计作为便捷的生理数据采集手段，其在个体活动识别与健康风险预警中的应用价值日益凸显[2] 。本文旨在基于穿戴设备采集的三轴加速度数据，综合构建多种行为识别与预测模型，从多个维度评估个体身体活动、能耗水平及其潜在健康风险。为此，我们系统引入了统计分析、监督学习、无监督聚类和行为规则识别等多种建模思路，对原始加速度数据进行深度挖掘。

首先，我们依据国际公认的MET分级标准，对志愿者数据进行分类，并通过时序累积模型计算各类活动状态的时长，实现了对志愿者运动结构的全面统计与对比。其次，采用滑动窗口特征提取与回归建模策略，构建了基于随机森林（Random Forest）与梯度提升树（GBDT）的能耗预测模型，成功实现对时间片段内MET值的高精度估计[3] 。随后，在无监督场景下，我们应用K-Means[4] 与DBSCAN聚类[5] 方法，识别出夜间睡眠数据中的深度睡眠、浅睡眠与觉醒状态，展示了不同志愿者的睡眠结构差异与模式。最后，针对久坐风险识别问题，本文基于规则模型与滑窗统计方法，构建了“持续性静态行为”检测机制，并提出健康预警等级分类体系，实现了对20位志愿者的风险筛查。

综上所述，本文综合运用多种算法模型与行为分析机制，对穿戴加速度数据中的活动识别、能耗预测、睡眠分期和久坐预警问题进行了系统建模与实证分析，不仅揭示了个体行为的结构性特征，也为智能健康干预系统的构建提供了理论与数据支持[6] 。

1.1 问题背景

随着可穿戴技术的不断发展，智能手环、智能手表等设备已广泛应用于日常生活中。这些设备不仅能够实时采集用户的生理信号和运动状态，还能为个体健康管理提供便捷手段。在国家提倡“主动健康”和“精准医疗”理念的背景下，如何从海量的原始传感数据中挖掘出对个体行为模式、健康风险和生活习惯具有解释力的信息，成为一个多学科交叉的研究热点。

特别是在现代生活节奏加快、慢性病发病率上升的趋势下，诸如久坐行为、睡眠障碍、体力活动不足等“隐性危险因素”日益受到重视。这类行为往往难以通过传统问卷调查等方式进行准确识别，而可穿戴设备所提供的加速度计、心率计等多维数据，为其自动识别和长期跟踪提供了新的解决方案。

同时，针对不同人群（如学生、办公人群、老年群体）设计个性化健康干预策略，需要对行为状态进行科学划分与动态监测。这对数据的连续性、分类的准确性以及结果的解释性提出了更高要求。因此，从原始加速度数据中识别出个体的活动水平、睡眠结构、以及潜在的高风险行为，对于提升公共健康水平、辅助临床干预以及完善城市健康管理体系具有重要的理论意义和现实价值。

1.2 问题提出

考虑到问题陈述中确定的背景信息和限制条件，我们需要解决以下问题：

问题 1：基于穿戴设备采集的加速度数据和已有的MET值标注信息，对每位志愿者的日常活动进行分类，并统计各类活动下的累计时长。

问题 2：利用加速度计数据和个体属性信息，构建一个能够预测MET值的机器学习模型，并据此统计志愿者在不同活动强度等级下的时间分布。

问题 3：在无标签数据的前提下，基于夜间加速度数据，识别志愿者的睡眠阶段分布，并统计每一阶段的持续时间。

问题 4：通过分析志愿者的加速度数据，识别出符合“久坐行为”定义的连续静态状态，并据此判断其健康风险等级，输出预警提示。

二、问题分析

问题一：本问题的核心是根据志愿者佩戴设备采集到的三轴加速度数据以及包含 MET 值的标注信息，识别其所处的活动状态，并统计在不同状态下的总时长。关键在于如何从 annotation 字段中提取 MET 值，并基于国际标准进行活动分类。需特别关注时间戳的准确性和数据间隔的合理性，以确保统计计算的时长精度。同时，为保证统计结果的可靠性，还需要在数据预处理阶段识别并剔除异常值与无效数据。

问题二：本问题旨在基于加速度计的连续信号数据与个体属性，构建一个监督学习模型用于预测 MET 值。为此需将原始时间序列划分为滑动窗口，并从每个窗口中提取特征变量，如加速度的均值、方差、能量等指标。模型应能够对不同个体、不同活动状态下的 MET 值做出稳定预测，并对高、低强度活动进行有效区分。此外，问题要求模型能处理大规模样本，具备良好的泛化能力，最终输出分类后的活动时长统计结果。

问题三：问题三是一个典型的无监督聚类任务，需要在缺乏标签的情况下，基于夜间加速度数据识别志愿者的睡眠阶段。由于加速度信号在不同睡眠阶段表现出显著差异，需设计合理的滑动窗口特征提取策略，并依据合加速度变化、静止率、微动频率等指标进行聚类分析。还需解决聚类结果中阶段切换不连续的问题，因此阶段平滑机制的构建也是关键步骤之一，最终目标是输出每位志愿者的阶段时长分布情况。

问题四：该问题聚焦于“久坐行为”的识别与风险预警。需要从滑窗级别的加速度特征中判定是否为静态状态，并依据时间连续性进行“久坐段”的合并识别。判断标准需满足 MET 值低、静止率高且持续时长超过 30 分钟等条件。此外，为了使结果具备实际意义，还需引入合理的风险分级机制，对不同个体的久坐行为进行预警提示，从而为健康管理提供依据。