计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-27

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-27
- 目录
- 1. Large Language Model-based Augmentation for Imbalanced Node Classification on Text-Attributed Graphs
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - - 重要数据与结论
  - 推荐阅读指数: 4.5
- 2. SleepCoT: A Lightweight Personalized Sleep Health Model via Chain-of-Thought Distillation
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - - 重要数据与结论
  - 推荐阅读指数: 3.5
- 3. Revealing Hidden Bias in AI: Lessons from Large Language Models
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - - 重要数据与结论
  - 推荐阅读指数: 4.5
- 4. Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - - 重要数据与结论
  - 推荐阅读指数: 4.5
- 5. SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - - 重要数据与结论
  - 推荐阅读指数: 5
- 后记

1. Large Language Model-based Augmentation for Imbalanced Node Classification on Text-Attributed Graphs

Authors: Leyao Wang, Yu Wang, Bo Ni, Yuying Zhao, Tyler Derr
https://arxiv.org/abs/2410.16882

基于大型语言模型的文本属性图不平衡节点分类数据增强

摘要

本文研究了图上的节点分类问题，特别是面对类别不平衡的挑战。尽管已有多种数据中心的解决方案被提出，但它们并没有专注于文本属性图(TAGs)，因而忽视了利用文本特征中的丰富语义来提升少数类别节点分类的潜力。鉴于此，作者探索了利用大型语言模型(LLMs)在文本空间增强图数据的可能性，提出了一种新颖的方法LA-TAG（基于LLM的文本属性图数据增强），该方法通过提示LLM生成基于图现有节点文本的合成文本。此外，为了将这些合成的文本属性节点整合到图中，引入了一个基于文本的链接预测器来连接合成节点与现有节点。实验结果表明，LA-TAG框架在多个数据集和评估指标上显著优于传统的非文本数据增强策略和特定的节点不平衡解决方案，突出了使用LLM解决TAGs上不平衡问题的可能性。

研究背景

图表示学习在多个领域都非常重要，节点分类是其中的一个基本任务。然而，节点分类经常遇到类别不平衡问题，多数节点往往会主导预测结果，导致对少数节点的结果产生偏差，这在现实世界的应用中可能会带来风险。例如，在假账户检测中，训练模型大多基于正常用户，而少数机器人用户则容易遗漏假账户。类似地，在在线社交网络中，有自杀倾向的个体往往构成少数类别，导致检测和预防覆盖不足。

问题与挑战

现有的方法主要关注传统图，其中节点特征被限制为浅层嵌入，例如，对于文本属性，通常只使用词袋（BOW）特征化。这些方法未能捕捉文本属性中的上下文化语义，导致在基于文本的节点分类任务（如异常检测和自杀识别）中表现不佳。因此，考虑文本特征的文本属性图(TAGs)可以为解决类别不平衡的节点分类问题提供一个可行的解决方案。
在这里插入图片描述

如何解决

作者提出了一个名为LA-TAG的框架，它结合了基于LLM的数据增强和基于文本的链接预测器。该框架首先使用LLM生成少数类别的额外文本属性节点，然后使用预训练的语言模型将新合成的文本编码为能够理解文本语义的上下文化深度嵌入。接着，基于文本的链接预测器在新旧节点之间生成连接，保持图的原始几何结构。

创新点

首次提出利用LLM进行数据增强来解决TAGs中的不平衡节点分类问题。
开发了一个新颖的框架，将基于LLM的数据增强与基于文本的链接预测器相结合，专门针对TAGs。
在多个数据集上进行了广泛的评估，包括基线比较、消融研究以及对不同不平衡比例的敏感性分析。

算法模型

LA-TAG框架包括两个主要组件：基于LLM的数据增强和基于文本的链接预测器。数据增强部分，LLM被用来生成额外的文本属性节点，模仿传统的非文本数据增强策略，如上采样、SMOTE和Mixup。链接预测器部分，使用MLP模型来预测节点对之间的链接，基于文本表示来训练，然后将合成的文本数据输入链接预测器，为新节点生成边。
在这里插入图片描述

实验效果

实验部分，作者在五个不同的数据集上评估了LA-TAG方法，包括Cora、PubMed、Photo、Computer和Children，涵盖了引用和电子商务领域。评估指标包括整体类别的平均准确率（ACC）、所有类别的平均F1-macro得分（F1）以及多数类别和少数类别平均准确率之间的差异（Diff）。实验结果显示，LA-TAG在整体准确率和宏观F1得分上均优于所有三个基线，同时缩小了多数类别和少数类别之间的平均准确率差异。特别是在Photo、Computer和Children数据集上，与Cora和PubMed相比，改进更为显著。
在这里插入图片描述

重要数据与结论

在Cora数据集上，LA-TAG的准确率最高可达75.66%，F1得分为74.30%，准确率差异为13.25%。
在PubMed数据集上，准确率最高可达76.20%，F1得分为74.35%，准确率差异为12.96%。
在Photo数据集上，准确率最高可达66.17%，F1得分为63.62%，准确率差异为11.94%。
在Computer数据集上，准确率最高可达64.66%，F1得分为56.36%，准确率差异为23.94%。
在Children数据集上，准确率最高可达24.54%，F1得分为22.41%，准确率差异为37.51%。

这些结果表明，LA-TAG在处理文本属性图的类别不平衡节点分类问题上具有显著的优势。

推荐阅读指数: 4.5

2. SleepCoT: A Lightweight Personalized Sleep Health Model via Chain-of-Thought Distillation

Authors: Huimin Zheng, Xiaofeng Xing, Xiangmin Xu
https://arxiv.org/abs/2410.16924
在这里插入图片描述
*SleepCoT：一种轻量级个性化睡眠健康模型，通过思维链蒸馏实现

摘要

本文提出了一种新的个性化睡眠健康管理模式，该模式使用少量样本的思维链（Chain-of-Thought，CoT）蒸馏技术，使得小型语言模型（参数少于20亿）在专业健康领域的表现能够与大型语言模型（LLMs）相媲美。这种方法同时从更大的模型中提取问题解决策略、长尾专家知识和个性化推荐能力，并将它们整合到更高效、更紧凑的模型中。与现有系统不同，我们的方法提供了三个关键功能：生成个性化的睡眠健康建议、支持用户特定的后续查询以及回答特定领域的知识问题。我们专注于睡眠健康，因为它可以通过可穿戴设备进行测量，并且对整体健康有着重要影响。我们的实验设置涉及使用GPT-4o进行数据合成、Qwen-max创建指令集以及Qwen2.5 1.5B进行模型蒸馏，与基线小型模型相比，在惩罚、推理和知识应用方面显示出显著改进。使用100个模拟的睡眠报告和1000个特定领域的问题的实验表明，我们的模型在保持实际部署效率的同时实现了与大型模型相当的性能。这项研究不仅推进了AI驱动的健康管理，还提供了一种在资源受限环境中利用LLM能力的新方法，可能增强个性化医疗解决方案的可及性。

研究背景

随着可穿戴设备的快速普及，个人健康数据收集进入了一个新的时代。这些设备持续收集大量的生理数据，作为个人健康状况的外部指标。心率变异性、睡眠模式、体力活动水平等指标提供了一个人的健康状态的全面视图，为个人健康趋势和潜在问题提供了前所未有的洞察。这些设备产生的数据量和多样性为个性化医疗领域带来了机遇和挑战。一方面，这些数据的洪流允许对健康模式进行更细致和个性化的理解。通过分析这些庞大的数据集，可以识别健康状态的微妙变化，可能发现各种状况的早期预警信号或跟踪生活方式变化的有效性。大型语言模型（LLMs）的快速发展，如GPT-4o、Claude 3.5 Sonnet和Qwen-max，显著推进了个性化健康管理和特定领域知识应用的处理。这些最先进的模型能够根据可穿戴设备提供的生理信号，如心率变异性和睡眠模式，生成个性化的生活方式建议。通过利用复杂的推理和专家知识，LLMs可以提供量身定制的建议，在各种情境中增强用户的健康管理。然而，尽管这些模型表现出色，但在实际应用中，特别是在资源受限的环境中，它们面临着显著的限制。首先，这些模型的巨大规模带来了挑战。这些模型拥有数十亿参数，需要大量的计算资源，使得它们在智能手机或可穿戴产品等边缘设备上的部署变得不切实际。这限制了它们在日常场景中的可用性，在这些场景中，设备上的实时交互对于有效的个性化健康管理至关重要。此外，与这些模型相关的高计算复杂性导致了能源消耗增加和硬件成本上升，阻碍了这些高级AI驱动解决方案的广泛采用。其次，与大型模型相关的延迟是一个关键瓶颈。虽然这些模型在计算资源丰富的云环境中表现良好，但由于其庞大的规模，它们的响应时间常常无法满足用户的期望。在涉及个人查询和健康咨询的场景中，这种延迟可能会显著降低用户体验，无法满足交互式应用所需的即时反馈要求。寻求实时洞察和指导的用户无法承受这些过大模型引入的延迟，最终影响了AI驱动健康管理的有效性。