PhysioLLM 个性化健康洞察：手表可穿戴设备实时数据 + 大模型

个性化健康洞察：可穿戴设备实时数据 + 大模型

提出背景
PhysioLLM 图
PhysioLLM 实现
数据准备
用户模型和洞察生成
个性化数据总结和洞察是如何生成的？

解析分析

提出背景

论文：https://arxiv.org/pdf/2406.19283

虽然当前的可穿戴设备伴随应用，允许用户通过图形表示探索收集的数据，但发现可行的见解仍然是一个挑战。

仅靠数据可视化可能导致在解释数据时产生偏见。

此外，虽然用户可以搜索特定问题的解决方案，但这些查询通常没有在其数据的背景下进行语境化。

个性化和富有洞察力的响应成为我们的主要研究。

PhysioLLM，这是一个交互式系统，通过整合来自可穿戴设备的生理数据与上下文信息，利用 LLMs 提供个性化的健康理解与探索。

与市面上的商业健康应用不同，我们的系统提供了一个全面的统计分析组件，该组件可以发现用户数据中的相关性和趋势，允许用户用自然语言提问并接收生成的个性化见解，并引导他们制定可行的目标。

作为案例研究，我们关注于改善睡眠质量，鉴于其通过生理数据的可测量性以及对总体福祉的重要性。

通过对24名Fitbit手表用户的用户研究，展示了PhysioLLM在促进深入的个性化健康数据理解和支持朝个人健康目标迈进的行动步骤方面，均优于单独使用Fitbit应用程序和一般的LLM聊天机器人。

可穿戴健康监测设备的出现，如Fitbit、苹果手表和三星Gear，使得连续收集详细的生理数据成为可能，例如心率、活动数据和睡眠阶段。

这些设备为我们的个人健康带来便利和意识，并提供了对个人习惯及其对生理状态影响的详细了解。

这些数据和趋势可以帮助促进更健康的行为，甚至可能帮助检测健康问题。

虽然制作可访问和准确的健康监测系统很重要，但希望改变习惯的个人目前需要首先深入了解他们的生理数据及其与日常生活的关联，最后思考实现积极变化的方法。

然而，用户常常难以理解这些数据并将其转化为有意义的行动。

与数据的交互通常是由手机和可穿戴设备提供的图形用户界面预定义的，这些界面提供的交互有限，建议也通常是泛泛而谈，缺乏个性化见解。

LLMs可能是应对这些挑战的有希望的解决方案。

首先，它们使个人能够进行无限制的提问，通过与界面交互前后的评估，了解他们对自己的睡眠数据的理解、交互后的动机感以及基于交互的目标的可操作性。

结果显示，与基于LLM的系统聊天，利用我们的LLM架构提供有效的个性化见解，可以改善个人对自身健康的理解。

与通用的LLM-based聊天机器人相比，界面被感知为更加个性化。

事实上，后者导致用户改变的动机减少，其目标的可操作性也被发现较低。

我们还采访了两位睡眠专家，审查系统生成的个人见解及其对用户的回应和建议。

总的来说，专家们认为见解合理，但指出系统倾向于过分强调相关性值。

他们建议通过向LLM提供更多关于数据生成过程的背景信息，并调整回应使其在基于稀疏数据和可能的伪相关时更为谨慎，来改进系统。

总结本研究的贡献如下：

一种新颖的LLMs编排方式，整合生理和上下文数据，支持关于个性化健康见解的对话。
一项与系统互动的24名用户进行的实地研究，及从定量和定性结果中得出的研究见解。
证据显示界面被感知为个性化，并通过个性化见解有效改善用户对其健康的理解。
两位睡眠专家对生成的个人见解和建议的准确性和质量的初步评估。

PhysioLLM 图

在这里插入图片描述

这幅图是一个关于PhysioLLM系统的概览图，展示了一个与睡眠健康相关的示例对话。

图中的流程分为几个部分：

生物数据和Fitbit数据：系统收集并整理用户的生物信息和Fitbit设备记录的数据。
数据准备：数据被分析，包括汇总、趋势和相关性分析。
洞察生成：使用GPT模型基于数据生成洞察，提供数据来源、洞察、解释和可能性。
对话：
- 初步对话：系统向用户介绍他们的睡眠健康状况，基于Fitbit数据提供概览，包括平均步数、活动水平、平均睡觉和起床时间，以及睡眠效率。
- 洞察：系统分析日间活动与睡眠数据的相关性，揭示如活动与睡眠效率、久坐行为与睡眠时长、活跃峰值与心率峰值之间的关系。
- 后续提问建议：系统建议用户可以进一步探询的问题，如身体疲劳如何影响睡眠周期，或久坐行为如何影响睡眠结构。
- 用户响应：对于如何每日步数影响深度睡眠百分比的问题，系统提供了一个基于数据的正面关联解释，并提出增加日常活动可能改善深度睡眠质量。

这个系统通过自然语言处理技术来帮助用户理解并优化他们的健康习惯。

PhysioLLM 实现

该系统由三个主要组成部分构成：数据准备、洞察生成和对话界面。

数据准备

响应的质量取决于输入数据的质量和可解释性，这需要一个将数据准备成LLM所期望的格式并指导LLM如何解释数据的过程。

最初，我们考虑利用LLM的代码生成能力来进行数据的实时分析。

早期实验表明，这种方法无法始终保持准确和快速，这是两个重要的设计原则。

此外，生成定制函数的需求很少；有意义的分析通常属于基本的统计分析类别，如平均值、方差、时间趋势和数据类型间的相关性。

因此，系统包括一个“离线”（与实时相对）准备阶段，对用户的数据进行统计分析并进行总结。

具体过程如下：

数据过滤和对齐：将Fitbit数据导出并筛选感兴趣的日期。不同传感器的原始数据采样率不同。

例如，步数每分钟采样一次，心率每5分钟采样一次，久坐分钟每天采样一次。
因此，我们整合了每种数据类型的每日值和步数及心率的每小时值。
准确表示时间信息至关重要，因为随后推导相关性和潜在因果关系的步骤依赖于时间维度。
因此，我们根据设备的时区将不同的传感器数据按日期和时间对齐。
由于我们关注日常活动对睡眠质量的影响，我们将“睡眠日期”调整为记录日间活动的次日。
为简单起见，我们排除了小睡（即非主要睡眠事件）。如数据缺失，则使用周平均值。最终的数据列表见图2。

生成概要、趋势和相关性：数据经过过滤和对齐后，我们总结数据以提取周平均值、最小值和最大值日期及趋势。

对于趋势，我们使用了±0.15的宽容阈值，因为目标不是进行统计假设检验，而是向LLM提供可能趋势的叙述描述。
我们绘制了每小时步数和心率，以显示一周内每天活动和心率的视觉模式。
然后，我们计算了成对相关值。

用户模型和洞察生成

数据如何相互关联及其含义对用户而言并不明显。

因此，仅将用户的数据整合到LLM中是不够的，因为类似的概要可以从智能手表的配套应用中获得。

此外，从网络搜索获得的建议往往是通用的。

虽然通用建议可能适用且有帮助，但捕捉异常和边缘案例无疑很重要但使用传统机器学习方法却很有挑战性。

LLM的优势在于：

（1）它们具有丰富的统计知识、健康见解和常识
（2）它们可以考虑用户的个人资料和其他上下文信息，如性别、年龄和习惯。

为了生成元级洞察，我们使用了OpenAI的GPT-4-turbo模型（温度=0，最大令牌=4096），这是一个能够接收多模态输入的LLM模型。

我们输入了用户的传记（由用户的人口调查提供）、数据的概要和相关矩阵以及心率和步数的每小时趋势图。

我们尝试输入相关矩阵作为图表，但这导致了持续的事实错误，因此改用数值表示的矩阵。

系统元提示指示LLM生成至少10个洞察。

每个洞察都需要提供理由、假设和解释，这些都要利用数据。

数据来源需要具体包含数值，并且必须使用不同的数据来源组合。

每个洞察后，需要给出一个0-10之间的分数，评估该洞察是影响睡眠质量的最重要因素的可能性。

个性化数据总结和洞察是如何生成的？

在这里插入图片描述

数据准备：包括用户的基本信息如年龄、性别、职业、咖啡因摄入、饮食习惯及月经周期。

利用Fitbit数据，涵盖了久坐、轻度活动、中度活动、高强度活动时间，以及每小时的休息心率、步数、呼吸率、心率变异性、睡眠效率、睡眠阶段、持续时间、醒来时间和就寝时间。
数据分析：数据被整理成每周开始日期、平均值、趋势、最小值和最大值日期等。

此外，还绘制了心率和步数的每小时趋势图，并创建了相关矩阵图，这有助于可视化数据间的相互关系。
洞察生成：通过GPT模型生成的洞察，例如分析平均每日步数和平均睡眠效率之间的相关性。

例如，发现较高的日常步数与较低的睡眠效率之间存在负相关，这可能表明在身体较为疲劳的日子里，睡眠质量会受到影响。