计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-01

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-01
- 目录
- 1. Beyond Text-to-Text: An Overview of Multimodal and Generative Artificial Intelligence for Education Using Topic Modeling
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数
  - 推荐理由
- 2. Design and Evaluation of a CDSS for Drug Allergy Management Using LLMs and Pharmaceutical Data Integration
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数
  - 推荐理由
- 3. Unsupervised Text Representation Learning via Instruction-Tuning for Zero-Shot Dense Retrieval
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数
  - 推荐理由
- 4. SynChart: Synthesizing Charts from Language Models
- - 摘要
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
  - 推荐理由
- 5. Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
  - 推荐理由
- 6. Enhancing disease detection in radiology reports through fine-tuning lightweight LLM on weak labels
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
  - 推荐理由
- 7. Entailment-Driven Privacy Policy Classification with LLMs
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数：
  - 推荐理由
- 后记

1. Beyond Text-to-Text: An Overview of Multimodal and Generative Artificial Intelligence for Education Using Topic Modeling

Authors: Ville Heilala, Roberto Araya, Raija H"am"al"ainen
https://arxiv.org/abs/2409.16376
在这里插入图片描述

超越文本到文本：使用主题建模概述教育中多模态和生成式人工智能

摘要

本研究使用主题建模方法，映射了教育中多模态和生成式人工智能（GenAI）的研究现状。通过Dimensions.ai进行广泛的文献搜索，得到4175篇文章。采用主题建模方法提取潜在主题，得出38个可解释的主题，组织成14个主题区域。研究发现在教育背景下，文本到文本模型的研究占主导地位，而其他模态的研究相对较少，忽视了多模态方法的更广泛潜力。研究结果表明存在研究空白，强调了在不同AI模态和教育层次上给予更平衡关注的重要性。

研究背景

随着人工智能（AI）在教育领域的应用不断深入，大型语言模型（LLMs）如ChatGPT等在教育研究中占据主导地位。与此同时，多模态能力（如文本到语音、文本到图像）的研究相对较少。本研究旨在通过主题建模方法，综合研究文献，以回答以下研究问题：多模态方法和教育中的生成式AI的高级研究现状是什么？

问题与挑战

当前教育领域的AI研究主要集中在文本到文本模型，而对其他模态（如文本到语音、文本到图像）的研究相对较少。这忽视了多模态方法在教育中的更广泛潜力。

如何解决

研究者使用Dimensions.ai进行广泛的文献搜索，并采用BERTopic方法进行主题建模，以提取文本语料库中的潜在主题。通过这种方法，研究者能够识别和组织教育中多模态和生成式AI的主要研究主题和领域。

创新点

多模态和生成式AI的综合研究：本研究不仅关注文本到文本模型，还涵盖了文本到语音、文本到图像等多种模态，提供了一个更全面的视角。
主题建模方法的应用：使用BERTopic进行主题建模，这是一种新颖的方法，能够生成新的见解并编码上下文信息。

算法模型

BERTopic：一种基于Transformer的句子变换器和嵌入的方法，用于生成主题模型。
UMAP：用于降维。
HDBSCAN：用于聚类。

实验效果

数据集：4175篇文章，95%的文章发表于2014年之后。
主题数量：最终确定了38个可解释的主题，组织成14个主题区域。
重要数据与结论：文本到文本模型在教育研究中占主导地位，而其他模态如文本到语音、文本到图像等的研究相对较少。

2. Design and Evaluation of a CDSS for Drug Allergy Management Using LLMs and Pharmaceutical Data Integration

Authors: Gabriele De Vito, Filomena Ferrucci, Athanasios Angelakis
https://arxiv.org/abs/2409.16395
在这里插入图片描述

利用大型语言模型和药品数据集成的药品过敏管理临床决策支持系统的设计和评估

摘要

药品错误显著威胁患者安全，导致不良药物事件（ADEs）和医疗系统的巨大经济负担。针对药品过敏管理的临床决策支持系统（CDSS）通常面临包括依赖静态数据库和基于规则的算法等限制，这可能导致高误报率和临床医生的警报疲劳。本文介绍了HELIOT，一个创新的药品过敏管理CDSS，它整合了大型语言模型（LLMs）和全面的药品数据仓库。HELIOT利用先进的自然语言处理能力来解释复杂的医学文本和综合非结构化数据，克服了传统CDSS的限制。使用合成患者数据集和专家验证的基准真相进行的实证评估表明，HELIOT在多次实验中达到了100%的准确性、精确性、召回率和F1分数。结果强调了HELIOT在临床环境中增强决策支持的潜力，为管理药品过敏提供了一个可扩展、高效和可靠的解决方案。

研究背景

药品错误是导致患者安全风险和不良药物事件的主要原因，给医疗系统带来经济负担。临床决策支持系统（CDSS）通过提供基于证据的建议和警报来帮助预防潜在的ADEs。然而，传统CDSS通常依赖于静态数据库和基于规则的算法，可能无法捕捉到个别患者病例的细微差别或最新的医学知识。

问题与挑战

现有CDSS解决方案通常无法解决个体患者病例的特殊性和医学知识的动态性。此外，传统基于规则的CDSS可能导致高误报率和警报疲劳。

如何解决

HELIOT CDSS通过整合大型语言模型（LLMs）和全面的药品数据仓库，利用先进的自然语言处理能力来解释复杂的医学文本和综合非结构化数据。
在这里插入图片描述

创新点

先进的自然语言处理能力：利用LLMs来理解和解释复杂的医学文本。
集成药品数据仓库：与大型药品数据仓库集成，以获取最新的医学知识和患者特定信息。
人工审核：通过医生验证的基准真相进行实证评估，确保系统的准确性和实用性。

算法模型

LLMs：使用GPT-4等大型语言模型进行文本解释和数据综合。
TileDB：用于存储和检索药品相关信息的多维数组数据库。
API应用：提供RESTful服务，处理请求和响应。

实验效果

准确性：100%
精确性：100%
召回率：100%
F1分数：100%
执行时间：平均3.2秒/患者

3. Unsupervised Text Representation Learning via Instruction-Tuning for Zero-Shot Dense Retrieval

Authors: Qiuhai Zeng, Zimeng Qiu, Dae Yon Hwang, Xin He, William M. Campbell
https://arxiv.org/abs/2409.16497
在这里插入图片描述

通过指令调整无监督文本表示学习用于零样本密集检索

摘要

本文介绍了一种通过指令调整预训练的编码器-解码器大型语言模型（LLM），在无监督条件下增强语料库表示的新方法。该方法在双编码器检索框架下，利用Rao-Blackwell定理，通过生成相关的合成查询来增强语料库表示。实验结果表明，在低资源环境下，该方法在三个英语和一个德语检索数据集上显著提高了零样本检索性能。

研究背景

密集检索系统通常依赖于通过编码器学习文本表示，这通常需要通过标记数据进行监督建模，而这些数据可能难以获得或不可用。现有的工作利用预训练的大型编码器来缓解数据需求，但仍然需要注释数据集进行微调。

问题与挑战

在缺乏标记建模数据的情况下，如何有效地检索信息是一个主要挑战。

如何解决

通过指令调整预训练的LLM来生成合成查询，然后将这些合成查询的嵌入与原始语料库嵌入进行加权平均，以增强语料库表示。
在这里插入图片描述

创新点

指令调整：通过指令调整来提高LLM生成与语料库相关的合成查询的能力。
Rao-Blackwell化：利用Rao-Blackwell定理来改进语料库嵌入的估计。
无监督学习：在没有标记数据的情况下进行有效的文本表示学习。

算法模型

LLM：使用预训练的编码器-解码器大型语言模型。
指令调整：通过指令调整来微调LLM，以生成更相关的合成查询。
加权平均：将合成查询的嵌入与原始语料库嵌入进行加权平均，以增强语料库表示。

实验效果

在三个英语和一个德语检索数据集上，该方法在NDCG@10, MRR@100, Recall@100等指标上显著提高了零样本检索性能。与现有的密集检索器相比，该方法在模型大小至少小38%的情况下，分别在NDCG@10上提高了1.96%, 4.62%, 9.52%。
在这里插入图片描述

4. SynChart: Synthesizing Charts from Language Models

Authors: Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao,
Yunsheng Li
https://arxiv.org/abs/2409.16517

从语言模型合成图表：利用元学习合成图表数据集

摘要

随着GPT-4V(O)的发布，使用它为多模态任务生成伪标签变得流行。然而，如何从基础的大型语言模型（LLMs）构建这样的高级模型仍然是一个谜。这项工作探索了仅使用LLMs进行数据生成的潜力，并开发了专注于图表理解的有竞争力的多模态模型。研究者们构建了一个大规模的图表数据集SynChart，包含约400万个多样化的图表图像，超过7500万个密集注释，包括数据表、代码、描述和问答集。使用该数据集训练了一个4.2B的图表专家模型，在ChartQA任务上达到了接近GPT-4O的性能，超过了GPT-4V。

创新点

数据集构建：提出了一种从LLMs合成数据的方法，创建了大规模的图表数据集SynChart。
多模态模型：专注于图表理解的多模态模型，而不是构建通用的多模态模型。
数据生成方法：详细分析了不同的数据收集方法，并选择了合成数据作为主要数据源。

算法模型

基础模型：使用Phi3.5 (3.8B)和CLIP-L (0.3B)作为基础模型。
数据集：SynChart，包含约400万个图表图像，每个图像都有丰富的注释。
训练过程：分为预训练和后训练两个阶段，使用包括代码、数据表和描述的注释进行预训练，后训练阶段主要依赖问题和答案的注释。

实验效果

ChartQA基准测试：在ChartQA基准测试中，训练的模型达到了接近GPT-4O的性能水平，超过了所有公共小型模型。
数据组件贡献：通过添加数据组件并评估其贡献，实现了约30%的ChartQA性能提升。
扩展性：使用更多来自SynChart的数据进行后训练可以提高性能，表明模型尚未达到性能饱和。

5. Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference

Authors: Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun
https://arxiv.org/abs/2409.16560
在这里插入图片描述

动态宽度推测性束解码：高效的大型语言模型推理

摘要

本文提出了一种名为动态宽度推测性束解码（DSBD）的新方法，通过结合推测性解码和束采样来提高大型语言模型（LLMs）的推理效率。该方法通过使用小型辅助模型生成草稿序列，然后由大型模型并行验证这些序列，从而在保持输出质量的同时显著提高了推理速度。

研究背景

大型语言模型（LLMs）在许多实际任务中表现出色，但其自回归特性导致推理过程缓慢且成本高昂。推测性解码作为一种加速LLMs推理的有前途的技术，通过使用小型辅助模型生成草稿令牌，然后由大型模型验证，从而减少推理时间。

问题与挑战

如何在大型模型的分布中生成多个序列，给定小型模型的草稿序列。
如何动态优化束的数量以平衡效率和准确性。
如何高效并行验证多个草稿。
如何解决束采样中固有的额外内存成本。

如何解决

提出了一种新的草稿和验证方案，根据小型模型的束采样轨迹生成多个序列，遵循大型模型的分布。
引入了一种自适应机制，根据上下文动态调整束的数量，优化效率和效果。
扩展了基于树的并行验证技术，同时处理多个树，加速验证过程。
通过仅存储一组键值缓存来简化算法，以减少束采样的内存开销。

创新点

动态宽度调整：根据上下文动态调整束宽度，以优化效率和准确性。
基于森林的并行验证：扩展了现有的基于树的并行验证技术，以同时处理多个树。
内存成本降低：通过仅选择输出束中最低困惑度的一个作为下一个迭代的输入束，从而将内存使用量降低到与多项式采样相当的水平。

算法模型

推测性解码：使用小型模型生成草稿令牌，然后由大型模型验证。
束采样：在每一步中维持多个候选序列（束），以提高生成输出的多样性和质量。
DSBD：结合了推测性解码和束采样，通过一系列创新解决了相关挑战。

算法伪代码:
在这里插入图片描述

实验效果

速度提升：与束采样相比，DSBD实现了1.5-1.9倍的速度提升。
能效降低：与束采样相比，DSBD实现了1.8-2.5倍的能效降低。
输出质量：DSBD能够产生比推测性解码更高质量的输出，同时保持类似的时间、内存和能效成本。

6. Enhancing disease detection in radiology reports through fine-tuning lightweight LLM on weak labels

Authors: Yishu Wei, Xindi Wang, Hanley Ong, Yiliang Zhou, Adam Flanders, George
Shih, Yifan Peng
https://arxiv.org/abs/2409.16563

通过在弱标签上微调轻量级大型语言模型来增强放射学报告中的疾病检测

摘要

尽管在医学领域应用大型语言模型（LLMs）取得了显著进展，但模型大小的限制和缺乏针对特定群体的标记数据集等挑战仍然存在。本研究探讨了通过使用合成标签对轻量级LLM（例如Llama 3.1-8B）进行微调以改善其性能的可能性。在任务特定的合成标签质量较高时（例如，由GPT4o生成），Llama 3.1-8B在开放式疾病检测任务上达到了令人满意的性能，微F1分数为0.91。相反，当任务相关的合成标签质量较低时（例如，来自MIMIC-CXR数据集），经过微调的Llama 3.1-8B能够超越其嘈杂的教师标签（微F1分数0.67对比0.63），表明模型具有强大的内在潜力。

研究背景

在医学领域应用LLMs已有许多研究，但在实际应用中需要克服隐私、计算和技术上的限制。此外，现有的公共数据集通常是疾病特定的，不能反映医院患者群体的多样性。医院拥有大量患者数据，但可用的标签通常是质量较差或完全缺失的。

问题与挑战

模型限制：商业LLMs的使用受到隐私问题的限制，且部署大型、强大的LLMs在财务、计算和技术方面对医院构成挑战。
数据限制：公共数据集通常疾病特定，缺乏多样性；医院数据标签质量差或缺失。

如何解决

微调轻量级LLM：使用合成或弱标签数据对轻量级LLM进行微调。
多任务学习框架：结合结构化和非结构化任务，提高放射学报告中疾病检测的性能。

创新点

轻量级LLM的微调：通过指令学习在弱标签上微调轻量级LLM。
混合数据集方法：通过混合不同数据集的指令集，优化微调LLM在两项任务上的性能。

算法模型

Llama 3.1-8B：作为基础模型，采用解码器仅模型，自回归地处理输入并生成文本。
多任务学习：结合多项选择疾病分类和开放式疾病检测任务进行联合微调。

实验效果

在这里插入图片描述

多项选择疾病分类：微调后的Llama 3.1-8B在人类策划标签上的性能显著提高（0.67 vs 0.54）。
开放式疾病检测：微调后的Llama 3.1-8B在开放式疾病检测任务上接近GPT-4o的性能（F1分数0.91）。

7. Entailment-Driven Privacy Policy Classification with LLMs

Authors: Bhanuka Silva, Dishanika Denipitiyage, Suranga Seneviratne, Anirban
Mahanti, Aruna Seneviratne
https://arxiv.org/abs/2409.16621
在这里插入图片描述

基于蕴含关系的隐私政策分类的LLM框架

摘要

许多在线服务为用户提供隐私政策，但由于这些文档通常冗长且复杂，大多数用户根本不阅读它们，导致在不知情的情况下同意数据收集。尽管已有尝试通过总结、提供自动注释或标签，或提供聊天界面来询问具体问题来使隐私政策更用户友好，但随着大型语言模型（LLMs）的进步，有机会开发更有效的工具来解析隐私政策并帮助用户做出知情决策。在本文中，我们提出了一个基于蕴含的LLM框架，将隐私政策段落分类成用户易于理解的标签。结果表明，我们的框架在平均F1分数上比传统LLM方法提高了11.2%，并且提供了固有的可解释和有意义的预测。

研究背景

当前，许多在线服务和应用程序收集大量个人数据，并且这些数据经常用于个性化、广告、分析和用户画像等目的。此外，这些数据可能会在用户不知情的情况下与第三方共享或出售，带来严重的隐私风险。通常，这类数据收集和共享的详细信息在服务的隐私政策中概述，并且在许多司法管辖区向用户提供隐私政策是强制性的。然而，这些政策通常冗长、复杂且使用复杂的法律术语编写，导致用户很少阅读或理解它们。