简介
在这个数据集中,我们展示了 PMData 数据集,旨在将传统的生活记录与体育活动记录相结合。这样的数据集可以开发几个有趣的分析应用程序,例如,可以使用额外的运动数据来预测和分析日常发展,如人的体重和睡眠模式,以及传统的生活日志数据可以在运动环境中用于预测运动员的表现。在这方面,我们使用了 Fitbit Versa 2 智能手表腕带、PMSys 运动记录应用程序和 Google 表单进行数据收集,PMData 包含 5 人的 16 个月的记录数据。我们的初步实验表明,这种分析是可能的,但仍有很大的改进空间。
数据集详细信息
主文件夹的结构:
- [主文件夹]
- 第 01 页
- 第 02 页
- ...
- 第 16 页
- participant-overview.xlsx
每个子文件夹的结构 (pXX):
-
pXX [folder]:是包含参与者 XX 数据的文件夹(符号 XX 表示参与者的标识符)。
-
Fitbit [文件夹]
-
calories.json:显示该人在最后一分钟燃烧了多少卡路里。
-
distance.json:给出每分钟移动的距离。距离似乎以厘米为单位。
-
exercise.json:更详细地描述每个活动。它包含日期、开始和停止时间、不同活动水平的时间、活动类型和各种性能指标,具体取决于运动类型,例如,对于跑步,它包含距离、时间、步数、卡路里、速度和配速。
-
heart_rate.json:显示给定时间每分钟的心跳次数 (BPM)。
-
lightly_active_minutes.json:汇总每天轻度活跃的分钟数。
-
moderately_active_minutes.json:汇总每天中等活跃的分钟数。
-
resting_heart_rate.json:给出每天的静息心率。
-
sedentary_minutes.json:汇总每天久坐的分钟数。
-
sleep_score.csv:帮助了解每晚的睡眠情况,以便您了解睡眠模式的趋势。它包含一个 0-100 的总分,由成分、恢复活力和持续时间分数、深度睡眠分钟数、静息心率和不安分数组成。
-
sleep.json:是将睡眠分为浅睡眠、深睡眠、快速眼动睡眠和清醒时间的每次睡眠细分。
-
steps.json:显示每分钟的步数。
-
time_in_heart_rate_zones.json:给出不同心率分区的分钟数。使用 220 减去您的年龄的常用公式,Fitbit 将计算您的最大心率,然后创建三个目标心率区:脂肪燃烧(最大心率的 50% 至 69%)、有氧运动(最大心率的 70% 至 84%)和峰值(最大心率的 85% 至 100%) - 基于该数字。
-
very_active_minutes.json:汇总每天非常活跃的分钟数。
-
-
GoogleDocs [文件夹]
- reporting.csv:每个报告包含一行,包括报告的日期、报告提交时间的时间戳、吃的饭菜(早餐、午餐、晚餐和晚餐)、参与者当天的体重、喝酒的玻璃杯数以及是否饮酒。
-
pmsys [文件夹]
-
injury.csv:显示带有时间和日期的伤害以及相应的伤害位置以及轻微和严重严重程度的伤害。
-
srpe.csv:包含训练的结束时间、活动类型、感知用力 (RPE) 和持续时间(以分钟数为单位)。例如,这用于计算会话训练负荷或 sRPE (RPE×duration)。
-
wellness.csv:包括时间和日期、疲劳、情绪、准备情况、睡眠持续时间(小时数)、睡眠质量、酸痛(和酸痛区域)和压力等参数。疲劳、睡眠质量、酸痛、压力和情绪都有 1-5 的等级。3 分为正常,1-2 分为低于正常水平,4-5 分为高于正常水平。睡眠时长只是衡量睡眠时长(以小时为单位)的指标,而准备程度(0-10 分)是衡量您锻炼准备程度的总体主观衡量标准,即 0 表示根本没有准备好,10 表示您感觉好不到一点,已经准备好了!
-
food-images.zip:参与者 1、3 和 5 拍摄了他们在 2 个月(2 月和 3 月)期间吃的所有食物(除了水)的照片。此 .zip 文件中包含食物图像,图像标题中提供了有关日期和时间的信息。参与者使用自己的移动相机(Iphone 6s、Iphone X 和 Iphone XS)收集图像。使用具有完整质量的 MacOS 照片软件的标准导出功能来导出图像。
-
-
PMData 数据集,旨在将传统的生活记录与体育活动记录相结合。这样的数据集支持开发几个有趣的分析应用程序,例如,可以使用额外的运动数据来预测和分析日常发展,如一个人的体重和睡眠模式,以及传统的 lifelog 数据可以在运动环境中用于预测运动员的表现。在这方面,我们使用了 Fitbit Versa 2 智能手表腕带、PMSys 运动记录应用程序和 Google 表单进行数据收集。PMData 包含 16 人 5 个月的日志记录数据。
Fitbit
Fitbit Versa 2 智能手表的数据已被提取为 csv 和 json 文件,fitbit 目录包含以下文件:
- calories.json显示了每个儿子在最后一分钟燃烧了多少卡路里。
- distance.json 给出每分钟移动的距离。距离以厘米为单位。
- exercise.json 更详细地描述了每个活动。它包含开始和停止时间的日期、不同活动水平的时间、活动类型和各种性能指标,具体取决于运动类型,例如,对于跑步,它包含距离、时间、步数、卡路里、速度和配速。
- heart_rate.json 显示给定时间每分钟的心跳数 (BPM)。
- sedentary_minutes.json 总结了每天久坐的分钟数。
- lightly_active_minutes.json 汇总了每天轻度活跃的分钟数。
- moderately_active_minutes.json 汇总了每天中等活跃的分钟数。
- very_active_minutes.json 总结了每天非常活跃的分钟数。
- resting_heart_rate.json 给出每天的静息心率。
- sleep_score.csv 有助于了解每晚的睡眠情况,以便您了解睡眠模式的趋势。它包含一个 0-100 的总分,由构图、恢复活力和持续时间分数、深度睡眠分钟数、静息心率和不安评分组成。
- sleep.json是将睡眠分为浅、深、REM 睡眠和清醒时间的每次睡眠细分。
- steps.json 显示每分钟的步数。
- time_in_heart_rate_zones.json 给出不同心率区间的分钟数。使用 220 减去您的年龄的常用公式来找到最大心率,Fitbit 将计算您的最大心率,然后创建三个目标心率区——脂肪燃烧(最大心率的 50% 到 69%)、有氧运动(最大心率的 70% 到 84%)和峰值(最大心率的 85% 到 100%)。
可以观察到,包括各种参数。包括 2,440 次活动会话(手动和 15 分钟自动报告)、20,991,392 次心率测量和 1,836 天的睡眠评分。
经前综合症
在主观报告方面,有三个 CSV 文件和相应的信息文件来解释各个字段:srpe.csv包含训练的结束时间、活动类型、感知用力和持续时间(以分钟为单位)。例如,这用于计算训练的训练负荷或 sRPE (RPE×duration)。wellness.csv包括时间和日期、疲劳、情绪、准备情况、睡眠持续时间(小时数)、睡眠质量、酸痛(和酸痛区域)和压力等参数。疲劳、睡眠质量、酸痛、压力和情绪都有 1-5 的等级。3 分是正常的,1-2 分是低于正常的分数,4-5 分是高于正常的分数。睡眠时长只是衡量睡眠时间(以小时为单位)的指标,而准备程度(0-10 分)是衡量您锻炼准备程度的总体主观衡量标准,即 0 表示根本没有准备好,10 表示您感觉不舒服并且已经准备好了任何事情!injury.csv显示带有时间和日期的伤害以及相应的伤害位置以及轻微和严重严重程度的伤害。
总共提交了 783 次培训课程、1,747 份健康报告和 225 份伤病报告。
摘要
我们提出了PMData:一个结合了传统的生活记录数据和运动活动数据的数据集。我们的数据集能够开发新的数据分析和机器学习应用程序,例如,额外的运动数据用于预测和分析日常发展,比如一个人的体重和睡眠模式;以及在运动环境中用传统生命数据预测运动员表现的应用程序。PMData结合了来自Fitbit Versa 2智能手表腕带、PMSys运动日志智能手机应用程序和谷歌表单的输入。收集了5个月的记录数据。我们最初的实验表明,新的分析是可能的,但仍有改进的空间。
关键词:多媒体数据集,神经网络,机器学习,运动日志记录,传感器数据,调查问卷调查,食物图片
引言
无论如何,许多人都以数字方式记录他们生活的部分。例如,这可以通过智能手表上的传感器、智能手机上的GPS定位跟踪、高度便携式相机上的图片,或者通过各种在线社交媒体服务上的活动。随着活动的展开,人们经常会在Instagram等平台上发布自己食物的照片,或者在脸书上吹嘘自己的锻炼情况。通过各种输入源以数字方式记录一个人的生活的活动,通常被称为生活记录者[11],而有意识地从事这类活动的人被称为生活记录者。记录和分析生活记录数据是研究个人生活经历的一个好机会。它可以帮助监测一个人的活动,以改善健康[17],帮助恢复对过去事件的记忆[19],或分析社会行为[3,15]。从多媒体的角度来看,生命记录是有趣的研究的丰富数据的来源。
数据集详细信息
PMData包含了来自16人的数据:12名男性和3名女性,年龄范围为25-60岁,平均年龄为34岁。报告期为2019年11月初至2020年3月底。参与者在训练和练习方面有广泛的背景。有些是活跃的运动员,有些是以前的运动员,有些则很少锻炼。在participant-overview.xlsx文件中提供了参与者的人口统计信息的概述,其中包括诸如年龄、身高、性别、测量的最大心率、测试跑步结果以及步行和跑步步幅等信息。此外,每个参与者都有一个目录,其中包含来自Fitbit、PMSys、谷歌表单和食物图像数据源的数据。图3提供了对数据集本体的概述。关于Fitbit JSON文件的统计信息可以在表1中找到,关于csv文件的统计信息可以在图4中找到。请注意,所有文件都有时间戳,必须用于连接来自不同文件的数据。所有参与者都已被告知与本项目相关的数据的收集和发布,并签署了一份同意的表格。
表1:每个参与者的Fitbit条目数量。
为了演示如何使用PMData数据集,本节展示了如何将机器学习应用于数据来预测体重的增加或减少。更准确地说,我们将其定义为根据用户前一天报告的情况来预测第二天的体重变化的问题。我们将其建模为一个分类问题,其中我们试图将一天中的数据分类为第二天的三种可能的权重变化类别。这三个类别是:(0)重量下降,(1)重量上升,(2)重量没有变化。对于这些实验,我们使用了来自PMData数据集的以下数据源: (i)谷歌文档报告,(ii)PMys健康报告,以及(iii)Fitbit睡眠评分。我们选择这三个方法是为了展示数据集中的不同数据是如何组合起来的,而且因为我们也有一种直觉,即健康和睡眠可能与体重变化相关。所使用的确切特征是前一天的体重、水、酒精、早餐、午餐、晚餐、晚上、疲劳、情绪、准备情况、sleep_d、sleep_q、疼痛、压力、总体得分、成分得分和振兴得分。我们只使用了至少具有报告权重的数据集的条目。
总结
PMData包含大量的记录参数,可以用于各种分析,如分类和预测一个人的健康和运动表现。一些使用各种参数选择的例子包括预测一个人进行训练计划的准备程度,为下一场比赛选择最好的团队,性别或年龄的差异,下一次比赛的结果,等等。各种参数的组合提供了一个独特的机会,可以更好地找到,例如,一个人的总训练负荷,包括甚至来自训练课程之外的数据。因此,从体育科学的角度来看,它具有极大的兴趣。此外,从技术角度来看,时间序列数据集是有噪声的,这使得分析在哪里必须处理缺失的数据并找到异常值成为一个挑战,而融合各种数据源的可能性提出了不同的挑战。我们计划在未来的项目中使用该数据集,其中一个是使用PMData来估计健康状态[16]的系统。